在复杂信息检索任务中,传统 ReAct 模式面临上下文窗口膨胀与噪声累积的双重挑战。阿里巴巴通义实验室推出的 DeepResearch 代理通过 IterResearch 范式,将动态规划思想引入多轮研究任务,实现了认知资源的高效分配与状态空间的精确管理。
IterResearch:动态规划在多轮研究中的映射
IterResearch 核心创新在于将单一大上下文窗口分解为序列化研究轮次(research rounds),每轮仅保留前一轮最关键的输出作为状态输入。这种设计完美契合动态规划的最优子结构特性:每个轮次的局部最优决策共同保障全局任务质量。
具体而言,状态转移函数定义为:
S_{t+1} = f(S_t, A_t, O_t)
其中 S_t 表示第 t 轮的核心报告状态,A_t 为行动决策(继续搜索或终止),O_t 为环境观测。通过精心设计的报告压缩算法,每轮可将信息量压缩至原规模的 20-30%,同时保留 90% 以上的关键推理链。
Research-Synthesis:并行化动态规划扩展
在 Heavy 模式下,IterResearch 进一步引入 Research-Synthesis 框架,将动态规划从时间维度扩展至空间维度。多个 Research Agent 并行执行 IterResearch 过程,各自维护独立的状态转移轨迹,最后由 Synthesis Agent 整合所有局部最优解。
这种并行动态规划架构带来三重优势:
- 探索多样性:不同 Agent 可采取异构搜索策略,覆盖更广的解空间
- 容错性:单个 Agent 的失败不影响整体任务执行
- 质量提升:集成多个局部最优解往往产生更全面的最终答案
工程实现参数与监控要点
基于实际部署经验,我们总结出以下关键工程参数:
轮次控制参数
- 最大轮次数:建议设置为 5-8 轮,超过此阈值后收益递减明显
- 状态压缩比:每轮信息保留比例控制在 20-30%,使用基于重要性的抽取算法
- 超时阈值:单轮最长执行时间限制在 120-180 秒
资源分配监控
- 上下文窗口使用率:实时监控每轮上下文占用,确保不超过预设上限(通常为 8K tokens)
- 工具调用频率:搜索 API 调用应控制在每轮 3-5 次,避免资源过度消耗
- 奖励信号稳定性:通过 GRPO 算法监控策略熵,维持在 0.8-1.2 区间以确保充分探索
故障恢复机制
- 断点续传:每轮结束后自动保存状态快照,支持从任意轮次重启
- 异常检测:实时监测格式崩溃(format collapse)现象,触发自动回滚
- 降级策略:当并行 Agent 多数失败时,自动切换至单 Agent ReAct 模式
实际性能表现与优化建议
在 BrowseComp-zh 测试集上,IterResearch 模式相比原始 ReAct 提升准确率达 46.7%,其中动态规划机制贡献了约 60% 的性能增益。关键优化点包括:
- 状态表示优化:采用层次化报告结构,优先保留证据链而非原始数据
- 转移函数校准:基于历史轨迹学习最优的状态压缩策略
- 并行度调优:根据任务复杂度动态调整并行 Agent 数量(2-4 个)
值得注意的是,当前开源的 DeepResearch 代码库尚未包含状态转移函数的具体实现细节,这为后续研究和工程化带来了挑战。建议在实际部署时:
- 建立完善的轨迹日志系统,收集状态转移样本
- 开发基于强化学习的自适应压缩策略
- 设计跨轮次的注意力机制,避免重要信息丢失
IterResearch 的动态规划实现为长周期 AI 研究任务提供了可扩展的解决方案。通过将大问题分解为可管理的子问题,并在每个步骤中做出局部最优决策,该系统在保持推理质量的同时显著降低了计算和存储开销。这种设计范式不仅适用于信息检索任务,也为其他需要多步决策的 AI 应用提供了宝贵参考。