当前大语言模型在多跳推理任务中面临的核心瓶颈,并非单纯算力或参数规模的不足,而是认知架构的固有缺陷:当所有中间状态、工具响应与历史轨迹被线性堆叠进单一膨胀的上下文窗口时,模型极易陷入 “认知窒息”—— 关键信息被淹没在噪声洪流中,推理质量随步数增加而指数级衰减。通义 DeepResearch 提出的 IterResearch 范式,正是针对这一根本性问题的架构级革新。它不再依赖无限扩展上下文长度的暴力方案,而是通过将复杂研究任务解构为多个结构清晰的 “研究轮次”,在每一轮中动态重建一个仅包含最必要信息的精简工作空间,从而强制模型维持认知焦点,确保每一步决策都建立在高度提炼的核心证据之上。
IterResearch 的运作机制可拆解为三个核心阶段:重构、综合与行动。在每一轮开始时,模型并非继承完整的前序上下文,而是仅接收上一轮生成的 “核心报告” 与本轮工具调用返回的最新观测结果。这一 “重构” 步骤是认知聚焦的关键 —— 它迫使模型主动舍弃冗余细节,仅保留对当前决策最具指导意义的摘要性信息,构建一个轻量且高信噪比的工作区。随后进入 “综合” 阶段,模型在此空间内进行深度内省与逻辑推演,分析当前问题状态、评估已有证据的充分性,并将新的洞察整合进不断演化的中央报告。这一过程并非简单拼接,而是对信息进行批判性重组与语义压缩,确保报告始终代表当前认知的精华。最后是 “行动” 决策:基于综合分析,模型决定是继续调用工具收集更多证据,还是输出最终答案。这种 “综合 - 重构” 的迭代循环,本质上是一种动态的上下文管理策略,它用结构化的认知压缩替代了原始的信息堆砌,使模型即使在百轮交互后仍能保持推理的清晰度与一致性。
为进一步突破单智能体的认知边界,IterResearch 与 Research-Synthesis 框架深度耦合,形成多智能体协同验证机制。在 Heavy Mode 下,系统可并行启动多个独立的 IterResearch 智能体,各自从不同角度或使用不同工具集探索同一复杂问题。每个智能体遵循相同的 “重构 - 综合 - 行动” 循环,独立生成一份结构化的研究子报告。最终,一个专门的 “合成智能体” 负责整合所有子报告,交叉验证结论的一致性,识别并解决潜在冲突,输出一份经过多视角校验的终极答案。这种架构不仅显著提升了答案的鲁棒性与全面性,更通过并行化探索大幅缩短了整体研究耗时。例如,在法律条文交叉引用或跨学科文献综述场景中,不同智能体可分别聚焦法条演变、案例援引或学术流派,其结论经合成后能覆盖单一智能体难以企及的认知广度。
工程落地时,需配置关键参数并建立监控体系以保障架构效能。首先,每轮工作空间的 Token 预算应严格限制(建议初始值为总上下文的 15%-20%,即 19K-25K),强制信息压缩;核心报告长度阈值设为 8K-12K,超出则触发自动摘要。其次,启用 “负样本过滤” 机制:若某轮行动导致轨迹长度超限(如 > 100K)且未生成有效答案,该轨迹应从强化学习的损失计算中排除,避免训练信号污染。监控层面,必须追踪两项核心指标:1)“认知聚焦度”,即每轮工作空间中新增内容与核心报告的语义重合率(理想值应 > 65%),低于阈值则报警提示信息提炼失效;2)“并行分歧率”,在 Research-Synthesis 模式下,各子报告关键结论的冲突比例(安全阈值 < 15%),超标需人工介入或调整探索策略。最后,为应对 128K 上下文的固有局限,建议在超长任务中预置 “上下文快照” 机制 —— 每 5 轮自动将核心报告存档并清空历史,仅保留最新快照作为后续轮次的输入锚点,以此实现认知状态的接力传递,突破单次上下文长度的物理限制。