202509
ai-systems

Tongyi DeepResearch 分层智能体编排:IterResearch 与 Research-Synthesis 工程实践

解析 Tongyi DeepResearch 如何通过分层编排与多智能体协同,实现复杂研究任务的自动化分解与高效执行。

当人工智能从单轮问答进化为自主研究,核心挑战不再是信息检索的广度,而是任务分解的深度与执行过程的稳定性。Tongyi DeepResearch 作为当前性能比肩 OpenAI DeepResearch 的开源 Web Agent,其突破性不仅在于 30B 总参数、3B 激活的 MoE 架构,更在于其分层智能体编排机制——通过 IterResearch 范式与 Research-Synthesis 框架,将复杂研究任务拆解为可管理、可并行、可验证的子单元,最终输出结构化、可追溯的报告。这一机制,正是其在 Humanity’s Last Exam、BrowseComp 等长周期、多跳推理基准上登顶的关键。

一、认知过载的解法:分层编排与上下文精简

传统智能体在执行长周期任务时,常陷入“认知窒息”——所有中间结果、工具调用日志、网页片段被堆砌在单一上下文窗口中,导致噪声污染、注意力分散,最终推理质量下降。Tongyi DeepResearch 的核心创新在于引入分层编排思想:将宏观研究目标拆解为多个“研究轮次”(Research Rounds),每个轮次聚焦一个子问题,仅携带上一轮的核心结论进入下一轮,从而构建动态精简的工作空间。

具体而言,其底层依赖 IterResearch 范式。该范式要求智能体在每轮中执行“思考→综合→行动”三步闭环:首先基于当前工作空间分析问题;其次将关键发现提炼为一份不断演进的“核心报告”;最后决定是继续收集信息还是输出最终答案。这种机制强制智能体在每一步都进行信息压缩与焦点重置,避免了传统 ReAct 模式下信息的线性累积。例如,在法律研究场景中,智能体不会将所有检索到的法条原文塞入上下文,而是仅保留“法条编号+核心适用情形”的摘要,供下一轮交叉验证使用。官方技术博客指出,该设计使长任务推理效率提升 3 倍以上,信息噪声降低 95%。

二、IterResearch:动态上下文管理的工程实现

IterResearch 不仅是理论范式,更是可落地的工程框架。其技术实现包含三个关键参数与一个监控点:

  1. 轮次边界参数(round_threshold):定义单轮最大思考步数或 token 消耗量。默认值通常设为 5–8 步或 4K tokens,超限则强制进入综合阶段,防止陷入局部循环。高德地图的“小德助手”在规划多日行程时,即通过此参数确保每轮仅聚焦“单日景点筛选”或“酒店匹配”,避免同时处理交通、天气、餐饮等多维信息。
  2. 核心报告模板(report_template):规定每轮输出的核心结论格式,通常为 JSON Schema,包含“当前目标”“关键发现”“待解决问题”“下一步行动”四个字段。该模板强制结构化输出,是上下文精简与轮次间信息传递的基础。在通义法睿的法律案例分析中,模板确保每轮输出均包含“争议焦点”“相关法条”“类案结论”等结构化字段,便于后续轮次直接引用。
  3. 上下文重建策略(context_rebuild_strategy):定义如何从上一轮核心报告与原始问题中重建当前轮次的上下文。常见策略为“问题重述 + 核心报告摘要 + 待解决问题列表”。该策略确保智能体始终明确当前任务边界,避免信息断层。

监控点:轮次间信息丢失率。需记录每轮输入上下文与输出核心报告的信息熵差值。若差值持续大于 30%,说明综合阶段过度压缩,需调整 report_template 的粒度或降低 round_threshold。

三、Research-Synthesis:多智能体协同的扩展架构

对于极端复杂的开放性问题(如跨学科研究),单智能体的 IterResearch 仍可能受限于视角单一。此时,Tongyi DeepResearch 启用上层编排机制——Research-Synthesis 框架。该框架启动多个并行的 IterResearch 智能体(称为 Research Agent),每个智能体从不同角度或使用不同工具集探索同一问题;最终,由一个 Synthesis Agent 整合各智能体的核心报告,生成最终答案。

此架构的关键在于“并行探索、独立执行、集中整合”。例如,在分析“星座数学模型”这类博士级难题时,一个智能体可能专注于天文数据检索与可视化,另一个则调用 Python 解释器进行概率计算,第三个负责查阅数学论文验证模型假设。三者独立运行,互不干扰,最终由 Synthesis Agent 将“数据结论”“计算过程”“理论依据”三份报告融合为一份完整解答。这种设计不仅提升答案的全面性,更通过冗余执行增强了结果的鲁棒性——即便某个智能体因网络波动失败,其余智能体仍可提供有效信息。

工程落地时,需配置两项核心参数:

  • 并行智能体数量(parallel_agents):根据任务复杂度与资源预算设定,通常为 2–5 个。过多会增加协调开销,过少则无法覆盖问题空间。
  • 合成超时阈值(synthesis_timeout):定义 Synthesis Agent 等待所有 Research Agent 完成的最长时间。超时后,Synthesis Agent 需基于已收到的报告生成部分答案,而非无限等待。推荐值为单智能体平均执行时间的 1.5 倍。

四、训练闭环与落地风险:从数据到监控的完整清单

Tongyi DeepResearch 的分层编排能力并非凭空而来,而是由一套端到端训练闭环支撑:从 Agentic CPT(持续预训练)注入基础工具使用能力,到 SFT(监督微调)冷启动分层推理行为,最终通过基于 GRPO 算法的强化学习对齐长期目标。其训练数据完全由合成引擎生成,通过“知识图谱随机游走+信息模糊化”策略构造高难度问题,确保模型在离线环境中即可学习复杂决策。

然而,工程落地仍需警惕两大风险,并配备相应监控:

  1. 上下文长度瓶颈:尽管支持 128K 上下文,对需分析数十篇论文的极端任务仍显不足。应对策略:在 IterResearch 中引入“外部记忆摘要”机制,将超出上下文的信息摘要存入向量数据库,通过检索召回。监控指标:上下文使用率(当前 token 数 / 128K),若持续 >90% 则触发告警。
  2. 合成数据分布漂移:RL 训练高度依赖合成数据与真实环境的一致性。若线上工具 API 变更或网页结构改版,可能导致智能体行为失效。应对策略:建立“合成数据-真实轨迹”对齐度监控,定期用少量真实用户查询微调模型。监控指标:工具调用成功率与答案准确率的周环比波动,若下降 >15% 则启动数据更新流程。

综上,Tongyi DeepResearch 的分层智能体编排,本质是将“研究”这一人类高阶认知活动工程化、模块化。通过 IterResearch 实现单智能体的认知聚焦,通过 Research-Synthesis 实现多智能体的能力扩展,再辅以严谨的训练闭环与监控体系,最终让 AI 从“能聊天”跃迁到“会做研究”。对于开发者而言,掌握其参数配置与风险监控,即可在法律、金融、科研等领域快速构建高可靠性的研究型智能体,而无需从零设计复杂的任务分解逻辑。