Mythos 研究工作流交互模式：上下文交接与迭代检查点

Mythos 类 AI 模型（以 Claude 5 Fable 为代表）正在重新定义人机协作的边界。与传统助手模式不同，这类系统能够独立执行长达数小时的复杂研究任务，期间自主调度多个子代理、并行检索数千条数据、并在人类极少干预的情况下完成多页规格文档的实现。这种能力的跃迁不仅体现在输出质量上，更深刻地改变了交互范式 —— 人类角色从 "巫师"（念咒施法）转向 "委托人"（描述需求、支付成本、评判结果）。

本文基于 Ethan Mollick 对 Fable 的实际使用经验，提炼其中可复用的研究工作流交互模式，为构建类似的自主研究系统提供工程化参考。

从即时响应到长时自主执行

传统 AI 交互遵循 "提问 - 回答" 的同步模式，而 Mythos 类模型引入了异步长时执行能力。在构建等时线地图（isochrone map）的案例中，Fable 自主工作数小时，检索超过 2200 个具体航班、多条铁路时刻表、以及来自学术论文的各国道路速度数据。

这种执行模式的核心特征包括：

多阶段任务分解：模型将复杂目标拆解为可并行执行的子任务
持续状态维护：在长时间运行中保持任务上下文不丢失
自主错误恢复：遇到障碍时尝试替代方案而非中断执行

工程实现上，这要求系统具备显式的会话状态管理机制，能够在中断后恢复执行，并支持人类在任意检查点介入审阅。

显式上下文交接机制

Mythos 工作流中最关键的工程模式是显式上下文交接（explicit context handoff）。当主模型将研究任务委派给子代理时，它并非简单地下发指令，而是建立结构化的信息传递通道。

具体实现包含三个层面：

1. 进度笔记（Progress Notes） 主模型在子代理执行期间持续记录当前状态，包括已完成的工作、遇到的障碍、以及下一步计划。这些笔记成为人类介入时的快速理解入口，也是任务恢复时的状态锚点。

2. 结构化输出契约 子代理返回的结果遵循预定义格式，包含数据来源、置信度评估、以及需要主模型进一步判断的模糊点。这种契约确保信息在代理间传递时不失真。

3. 决策日志 对于涉及判断的选择（如选用哪组旅行时间数据），模型记录决策依据，而非仅记录结论。这为后续的审计和修正提供可追溯性。

子代理并行编排策略

Fable 在执行研究任务时，会启动多个子代理（主要使用成本更低的 Claude Sonnet）并行工作。这种编排遵循特定的策略模式：

分层委托架构

主代理负责任务分解和结果整合
研究代理专注于数据检索和初步验证
验证代理采用对抗性设计，相互检验结果准确性

成本优化机制 在等时线地图案例中，Fable 针对偏远地区（如格陵兰、皮特凯恩岛）的精确旅行时间，启动了专门的研究工作流，使用对抗性代理组进行深度验证。这种按需升级的策略，将高成本模型的调用限制在真正需要深度推理的环节。

并行度控制 虽然子代理可以并行执行，但系统需要管理并发度以避免资源耗尽。实践中，研究类任务建议控制在 3-5 个并行代理，每个代理负责独立的子领域（如航空、铁路、公路）。

迭代细化检查点设计

Mythos 工作流的人类介入点并非随机，而是通过迭代检查点（iterative refinement checkpoints）精心设计。Mollick 的反馈案例展示了这一模式：

初始指令后，Fable 交付了基础版本地图。Mollick 的反馈极为简洁："实际上要获取偏远机场和地点的旅行时间"（actually get travel times to remote airports and locations）。这一反馈触发了第二轮深度研究工作流，代理组查询了前往皮特凯恩岛的船期、从渥太华到格里斯峡湾的路线等细节。

检查点设计的工程参数包括：

检查点类型	触发条件	人类输入形式	系统响应
里程碑检查	完成主要模块	通过 / 驳回 / 修改意见	继续或回滚
质量门	置信度低于阈值	具体修正指令	针对性重试
方向校准	累计不确定性过高	策略调整	重新规划路径

关键原则是延迟细化：初始交付物允许存在已知缺陷，通过明确反馈触发定向改进，而非追求一次性完美。

会话状态管理实现

长时会话的状态管理是 Mythos 工作流的技术基础。实现要点包括：

状态快照机制 在关键节点生成完整状态快照，包含：

任务目标与当前进度映射
已收集的数据集及其来源
待解决的技术债务清单
下一步执行计划

增量持久化 避免在每次交互后全量保存，而是采用增量日志模式，记录变更操作（类似事件溯源）。这降低了存储成本，同时支持任意时间点的状态重建。

人机可读的双向格式 状态表示需要同时服务于机器恢复和人类理解。建议采用分层结构：顶层为人类可读的摘要，底层为机器可解析的完整状态。

委托人模式的工程权衡

Mythos 工作流引入的 "委托人模式" 带来了新的工程挑战：

可见性黑洞 模型在数百个小决策点上自主判断，人类无法实时参与。缓解策略包括：

强制记录决策日志，即使人类不实时阅读
提供决策分布摘要（如 "80% 的选择基于数据源 A"）
支持事后查询特定决策的依据

成本失控风险 Fable 的 token 消耗速度极高，"答案是多少？很多"。工程对策：

设置预算上限，触发硬停止
子代理默认使用低成本模型，仅关键路径升级
提供成本预估接口，允许人类调整搜索深度

护栏误触发 安全护栏在检测到潜在风险时会降级到较弱模型，这在研究场景中可能过于敏感。建议为研究类任务配置更精细的触发条件，或允许人类明确豁免特定操作。

可落地的实现清单

基于上述模式，构建 Mythos 风格研究工作流的检查清单：

架构层

实现主 - 子代理分层架构，支持动态代理启动
设计显式上下文交接的数据契约
建立进度笔记的自动生成与存储机制

交互层

定义迭代检查点的触发规则与人工介入接口
实现对抗性验证代理的编排逻辑
提供决策日志的查询与可视化工具

运维层

配置 token 预算监控与告警
实现会话状态的快照与恢复
建立成本归因机制（按任务 / 子代理统计）

结语

Mythos 类模型展示了一种新的协作范式：人类负责定义目标和评判结果，AI 负责执行过程中的数百个微观决策。这种 "委托人 - 工作室" 模式不是对人类的边缘化，而是对各自优势的重新分配 —— 人类专注于价值判断和方向校准，AI 承担信息整合与实现细节。

关键在于通过显式的上下文交接、结构化的检查点和可审计的会话状态，在保持 AI 自主性的同时，保留人类必要的介入能力。未来的研究工具设计，需要在 "放手" 与 "可控" 之间找到精妙的平衡点。

参考来源

Ethan Mollick, "What it feels like to work with Mythos", One Useful Thing, 2025

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。