2025年09月21日 ai-systems

Tongyi DeepResearch 分层智能体编排：IterResearch 与 Research-Synthesis 工程实践

解析 Tongyi DeepResearch 如何通过分层编排与多智能体协同，实现复杂研究任务的自动化分解与高效执行。

内容加载中...

当人工智能从单轮问答进化为自主研究，核心挑战不再是信息检索的广度，而是任务分解的深度与执行过程的稳定性。Tongyi DeepResearch 作为当前性能比肩 OpenAI DeepResearch 的开源 Web Agent，其突破性不仅在于 30B 总参数、3B 激活的 MoE 架构，更在于其分层智能体编排机制——通过 IterResearch 范式与 Research-Synthesis 框架，将复杂研究任务拆解为可管理、可并行、可验证的子单元，最终输出结构化、可追溯的报告。这一机制，正是其在 Humanity’s Last Exam、BrowseComp 等长周期、多跳推理基准上登顶的关键。

一、认知过载的解法：分层编排与上下文精简

传统智能体在执行长周期任务时，常陷入“认知窒息”——所有中间结果、工具调用日志、网页片段被堆砌在单一上下文窗口中，导致噪声污染、注意力分散，最终推理质量下降。Tongyi DeepResearch 的核心创新在于引入分层编排思想：将宏观研究目标拆解为多个“研究轮次”（Research Rounds），每个轮次聚焦一个子问题，仅携带上一轮的核心结论进入下一轮，从而构建动态精简的工作空间。

具体而言，其底层依赖 IterResearch 范式。该范式要求智能体在每轮中执行“思考→综合→行动”三步闭环：首先基于当前工作空间分析问题；其次将关键发现提炼为一份不断演进的“核心报告”；最后决定是继续收集信息还是输出最终答案。这种机制强制智能体在每一步都进行信息压缩与焦点重置，避免了传统 ReAct 模式下信息的线性累积。例如，在法律研究场景中，智能体不会将所有检索到的法条原文塞入上下文，而是仅保留“法条编号+核心适用情形”的摘要，供下一轮交叉验证使用。官方技术博客指出，该设计使长任务推理效率提升 3 倍以上，信息噪声降低 95%。

二、IterResearch：动态上下文管理的工程实现

IterResearch 不仅是理论范式，更是可落地的工程框架。其技术实现包含三个关键参数与一个监控点：

轮次边界参数（round_threshold）：定义单轮最大思考步数或 token 消耗量。默认值通常设为 5–8 步或 4K tokens，超限则强制进入综合阶段，防止陷入局部循环。高德地图的“小德助手”在规划多日行程时，即通过此参数确保每轮仅聚焦“单日景点筛选”或“酒店匹配”，避免同时处理交通、天气、餐饮等多维信息。
核心报告模板（report_template）：规定每轮输出的核心结论格式，通常为 JSON Schema，包含“当前目标”“关键发现”“待解决问题”“下一步行动”四个字段。该模板强制结构化输出，是上下文精简与轮次间信息传递的基础。在通义法睿的法律案例分析中，模板确保每轮输出均包含“争议焦点”“相关法条”“类案结论”等结构化字段，便于后续轮次直接引用。
上下文重建策略（context_rebuild_strategy）：定义如何从上一轮核心报告与原始问题中重建当前轮次的上下文。常见策略为“问题重述 + 核心报告摘要 + 待解决问题列表”。该策略确保智能体始终明确当前任务边界，避免信息断层。

监控点：轮次间信息丢失率。需记录每轮输入上下文与输出核心报告的信息熵差值。若差值持续大于 30%，说明综合阶段过度压缩，需调整 report_template 的粒度或降低 round_threshold。

三、Research-Synthesis：多智能体协同的扩展架构

对于极端复杂的开放性问题（如跨学科研究），单智能体的 IterResearch 仍可能受限于视角单一。此时，Tongyi DeepResearch 启用上层编排机制——Research-Synthesis 框架。该框架启动多个并行的 IterResearch 智能体（称为 Research Agent），每个智能体从不同角度或使用不同工具集探索同一问题；最终，由一个 Synthesis Agent 整合各智能体的核心报告，生成最终答案。

此架构的关键在于“并行探索、独立执行、集中整合”。例如，在分析“星座数学模型”这类博士级难题时，一个智能体可能专注于天文数据检索与可视化，另一个则调用 Python 解释器进行概率计算，第三个负责查阅数学论文验证模型假设。三者独立运行，互不干扰，最终由 Synthesis Agent 将“数据结论”“计算过程”“理论依据”三份报告融合为一份完整解答。这种设计不仅提升答案的全面性，更通过冗余执行增强了结果的鲁棒性——即便某个智能体因网络波动失败，其余智能体仍可提供有效信息。

工程落地时，需配置两项核心参数：

并行智能体数量（parallel_agents）：根据任务复杂度与资源预算设定，通常为 2–5 个。过多会增加协调开销，过少则无法覆盖问题空间。
合成超时阈值（synthesis_timeout）：定义 Synthesis Agent 等待所有 Research Agent 完成的最长时间。超时后，Synthesis Agent 需基于已收到的报告生成部分答案，而非无限等待。推荐值为单智能体平均执行时间的 1.5 倍。

四、训练闭环与落地风险：从数据到监控的完整清单

Tongyi DeepResearch 的分层编排能力并非凭空而来，而是由一套端到端训练闭环支撑：从 Agentic CPT（持续预训练）注入基础工具使用能力，到 SFT（监督微调）冷启动分层推理行为，最终通过基于 GRPO 算法的强化学习对齐长期目标。其训练数据完全由合成引擎生成，通过“知识图谱随机游走+信息模糊化”策略构造高难度问题，确保模型在离线环境中即可学习复杂决策。

然而，工程落地仍需警惕两大风险，并配备相应监控：

上下文长度瓶颈：尽管支持 128K 上下文，对需分析数十篇论文的极端任务仍显不足。应对策略：在 IterResearch 中引入“外部记忆摘要”机制，将超出上下文的信息摘要存入向量数据库，通过检索召回。监控指标：上下文使用率（当前 token 数 / 128K），若持续 >90% 则触发告警。
合成数据分布漂移：RL 训练高度依赖合成数据与真实环境的一致性。若线上工具 API 变更或网页结构改版，可能导致智能体行为失效。应对策略：建立“合成数据-真实轨迹”对齐度监控，定期用少量真实用户查询微调模型。监控指标：工具调用成功率与答案准确率的周环比波动，若下降 >15% 则启动数据更新流程。

综上，Tongyi DeepResearch 的分层智能体编排，本质是将“研究”这一人类高阶认知活动工程化、模块化。通过 IterResearch 实现单智能体的认知聚焦，通过 Research-Synthesis 实现多智能体的能力扩展，再辅以严谨的训练闭环与监控体系，最终让 AI 从“能聊天”跃迁到“会做研究”。对于开发者而言，掌握其参数配置与风险监控，即可在法律、金融、科研等领域快速构建高可靠性的研究型智能体，而无需从零设计复杂的任务分解逻辑。