解析 Tongyi DeepResearch：动态规划驱动的多跳推理路径生成技术

在人工智能从 “信息检索工具” 向 “自主研究者” 演进的浪潮中，阿里通义实验室推出的 Tongyi DeepResearch（以下简称 DeepResearch）提供了一个突破性的范例。其核心能力并非简单的问答，而是像人类专家一样，能够拆解复杂问题、动态规划研究路径、执行多跳信息检索，并最终生成结构化报告。这一能力的基石，正是其独特的 “动态规划 - 多跳推理” 架构。本文将深入解析 DeepResearch 如何通过动态规划模块生成并优化多跳推理路径，实现复杂问题的分解与求解。

DeepResearch 的核心突破在于复刻了人类研究员的 “双循环认知模型”，即 “动态规划” 与 “分层合成”。面对一个模糊、复杂的初始问题（例如 “分析全球固态电池技术的最新进展与主要玩家”），系统首先启动 “规划者 Agent（Planner）”。Planner 并非生成一个固定不变的研究提纲，而是创建一个 “活文档” 式的动态大纲初稿。这个大纲会随着研究的深入而不断进化。例如，在研究过程中，Planner 可能发现某家初创公司在电解质材料上取得了突破，便会自动在大纲中新增一个子主题 “新兴电解质技术分析”，并为其规划新的信息检索路径。这种动态调整能力，是通过 Group Relative Policy Optimization（GRPO）强化学习算法实现的。系统从历史研究轨迹中学习 “在何种情况下应调整方向”，从而让研究路径能够随新发现而 “进化”，而非僵化执行预设脚本。

动态规划解决了 “往哪走” 的问题，而 “如何高效地走” 则依赖于其 “记忆 - 推理分离” 的架构，这主要由 WebWeaver 子模块实现。人类研究者会区分 “核心证据” 和 “临时思考”，DeepResearch 也借鉴了这一逻辑。它设立了独立的 “证据记忆库（Evidence Memory）” 和 “推理工作区（Reasoning Workspace）”。WebWeaver 负责将经过验证的核心信息 —— 如权威文献的摘要、关键数据图表的结论 —— 结构化地存入证据库，支持后续的精准检索与引用。与此同时，推理工作区则用于实时拆解当前子问题、生成中间假设和行动计划。最关键的是，这些临时的 “思考” 过程在完成其使命后会被丢弃，仅保留最终提炼的 “报告” 作为永久记忆。这种机制有效避免了上下文被无效或过时的中间推理 “污染”，使得系统能够处理超长时、多轮次的研究任务，而不会因信息过载导致 “思维卡顿” 或偏离主题。

为了支撑这种动态、多轮次的探索，DeepResearch 引入了 “IterResearch” 推理范式，这是对传统 ReAct 框架的重大升级。在标准的 ReAct 循环中，所有 Thought、Action、Observation 都会累积在一个不断膨胀的上下文窗口中，极易导致 “认知窒息”。IterResearch 则将整个研究过程分解为多个 “研究回合”。在每个回合开始时，系统会基于上一回合的最终 “报告”，重建一个高度精简的工作区。在这个聚焦的工作区内，代理进行深度分析，将新发现整合进一个持续演化的 “中央报告”，然后决定下一步行动 —— 是继续深入挖掘，还是转向新的子问题，抑或给出最终答案。这种 “合成 - 重建” 的迭代过程，确保了代理在漫长的研究旅程中始终保持清晰的 “认知焦点” 和高质量的推理水平。例如，在撰写一份行业竞争分析报告时，第一回合可能聚焦于市场规模数据，第二回合转向主要公司的技术路线对比，第三回合则分析政策影响，每一回合都建立在前一回合的坚实结论之上，形成一条清晰、连贯的多跳推理链。

这套强大的架构离不开其底层的训练引擎。DeepResearch 的能力并非凭空而来，而是通过一套全自动的合成数据流水线和端到端的强化学习训练获得。首先，系统通过 “数据重组与问题构建”，从海量文档、知识图谱和历史轨迹中，自动生成高质量的（问题，答案）对。接着，通过 “行动合成”，在离线环境中大规模探索潜在的推理 - 行动空间，为强化学习提供丰富的训练样本。最终，通过严格的 on-policy GRPO 强化学习，模型学会了在动态、非平稳的网络环境中做出最优决策。这种训练方式确保了模型不仅能遵循指令，更能自主地进行长期规划和复杂推理。

当然，这项技术也存在其局限性。首先，尽管拥有 128K 的上下文长度，但对于某些极端复杂的、横跨数周的超长研究任务，这一容量仍显不足，未来需要探索更先进的信息摘要与管理技术。其次，强化学习的训练成本高昂，且其效果高度依赖于合成数据的质量与一致性，这为技术的普及和迭代带来了一定的门槛。

总而言之，Tongyi DeepResearch 通过 Planner Agent 的动态路径规划、WebWeaver 的结构化证据管理以及 IterResearch 的迭代式推理，构建了一套强大的多跳推理引擎。它不再是一个被动的信息提供者，而是一个能主动思考、动态调整、深度探索的 “AI 研究员”。这不仅为复杂问题的自动化求解提供了新思路，也为未来通用人工智能的发展指明了方向。