2025年09月23日 ai-systems

DeepResearch：开源深度研究AI代理的模块化框架开发

DeepResearch 开源框架集成规划、检索与评估模块，支持自主多步 AI 研究任务，提供工程化部署参数与扩展指南。

内容加载中...

在构建自主多步 AI 研究任务的开源框架时，DeepResearch 项目提供了一个模块化的架构设计，该设计将规划、检索和评估三大核心模块有机整合，实现代理在复杂信息求索环境中的高效自治。这一框架的核心观点在于，通过模块化分离和标准化接口，不仅提升了系统的可维护性和扩展性，还能显著降低开发门槛，使开发者能够快速迭代出适用于特定领域的深度研究代理。证据显示，这种设计已在多个基准测试中验证了其有效性，例如在处理长时序任务时，框架支持 128K 上下文长度，确保代理在多轮交互中保持推理连贯性。

规划模块是框架的决策中枢，负责分解复杂任务为可执行的子步骤，并动态调整策略以适应环境变化。DeepResearch 采用双范式支持：ReAct 模式用于基础的多轮 Thought-Action-Observation 循环，强调模型内在推理能力；IterResearch 模式则引入“重构工作空间”机制，每轮仅保留核心输出，避免上下文膨胀导致的噪声干扰。这一观点的支撑来自于框架的训练管道，其中通过 Agentic Continual Pre-training (CPT) 和 Supervised Fine-Tuning (SFT) 注入规划行为，确保代理在面对不确定性时能生成高质量的行动序列。例如，在合成数据生成管道中，规划模块利用实体锚定知识图谱和历史轨迹重构，产生多阶行动合成数据，帮助模型探索广阔的推理-行动空间，而无需实时调用外部工具 API，从而加速开发迭代。

检索模块聚焦于信息获取的精确性和时效性，集成多种工具接口以覆盖网页搜索、页面阅读和文件解析等功能。框架的核心观点是，检索不应是孤立步骤，而是与规划紧密耦合，形成闭环反馈机制：在规划阶段预判检索需求，并在观察后精炼查询以减少冗余调用。证据源于框架的工具沙箱设计，该沙箱通过缓存结果、重试机制和备用提供商（如 Serper.dev 用于搜索，Jina.ai 用于阅读）确保检索稳定性和效率。在实际部署中，这一模块支持 Dashscope API 用于文件解析，以及 OpenAI-compatible 接口用于页面摘要生成，允许代理在多源数据融合中实现精确匹配。例如，对于一个涉及学术研究的任务，代理可先通过 Google Scholar 检索种子论文，然后使用 Jina 阅读全文，并提取关键实体以指导后续规划，从而构建出多跳检索链条。

评估模块则提供客观的性能度量和迭代指导，确保框架的输出符合研究任务的标准。观点强调，评估不止于最终答案正确性，还需覆盖中间过程的鲁棒性，如轨迹完整性和工具使用效率。DeepResearch 通过内置基准脚本支持多种评估数据集，包括 BrowseComp、xbench-DeepSearch 和 WebWalkerQA，这些基准模拟真实世界的信息求索场景。证据显示，在 Reinforcement Learning (RL) 阶段，框架采用 Group Relative Policy Optimization (GRPO) 算法，进行 on-policy 训练，使用 leave-one-out 优势估计和负样本过滤来稳定非平稳环境下的学习动态。此外，评估模块集成自动数据 curation 管道，根据训练动态实时优化合成数据集，避免数据分布偏移导致的泛化失败。

将三大模块集成是 DeepResearch 框架实现自主多步任务的关键。通过标准化接口，如 JSONL 格式的评估数据准备和 .env 配置的 API 密钥管理，框架确保模块间无缝通信。观点在于，这种集成允许代理自主执行从任务分解到结果合成的全流程，例如在 Heavy Mode 下，多代理并行研究路径后由合成代理整合报告，提升复杂任务的处理上限。工程证据包括 offline Wikipedia 模拟环境，用于低成本训练迭代，以及步级异步 RL 框架，支持并行轨迹生成而无需动态采样，从而在保持高熵探索的同时降低方差。

在开源实现方面，DeepResearch 的 GitHub 仓库提供了完整的工程实践指南，包括环境搭建（Python 3.10.0，conda 隔离）、依赖安装（pip install -r requirements.txt）和推理脚本（run_react_infer.sh）。开发者可自定义 MODEL_PATH 以加载 HuggingFace 或 ModelScope 模型，并通过 OUTPUT_PATH 保存评估结果。这一实现强调可扩展性：支持添加自定义工具，如 Python 解释器沙箱（SandboxFusion），并允许修改 react_agent.py 以集成 OpenRouter API，实现无 GPU 推理。进一步，框架的 Misc 部分包括星标历史和人才招募信息，体现了社区驱动的开源精神。

落地部署时，以下参数和清单至关重要。首先，环境配置：复制 .env.example 为 .env，并填写 SERPER_KEY_ID（Serper.dev 密钥，用于搜索）、JINA_API_KEYS（Jina.ai 密钥，用于阅读）、API_KEY/API_BASE（OpenAI-compatible，用于摘要）和 DASHSCOPE_API_KEY（阿里云，用于文件解析）。建议监控 API 调用频率，设置阈值如每日 1000 次搜索以控制成本。其次，数据准备：使用 JSONL 格式，每行包含 {"question": "...", "answer": "..."}，文件置于 eval_data/，引用文档前缀文件名于 question（如 "report.pdf 关键发现"），置于 file_corpus/。评估数据规模控制在 100-500 条，避免过载。第三，推理参数：在 run_react_infer.sh 中设置 MAX_TURNS=20（最大轮次，防无限循环）、TEMPERATURE=0.7（平衡探索与确定性）和 BATCH_SIZE=8（并行处理，提升效率）。对于 RL 训练，启用 GRPO 时设置 GROUP_SIZE=16 以最小化方差，负样本过滤阈值 LENGTH_LIMIT=128K。监控要点包括：轨迹熵（>0.5 表示健康探索）、奖励曲线（持续上升，无震荡）和工具成功率（>90%）。回滚策略：若稳定性下降，切换至 ReAct 模式或回退至 SFT 检查点。

扩展框架时，开发者可聚焦子模块优化。例如，规划模块添加动态大纲生成（参考 WebWeaver 思想），检索模块集成多模态工具（如 WebWatcher 的视觉语言支持），评估模块引入 PhD-level 合成 QA 引擎，通过迭代复杂度升级生成高难度任务。风险管理：外部 API 依赖可能导致延迟，建议备用本地检索（如 FAISS 索引 Wikipedia）；大模型计算需求高，推荐 A100 集群或 OpenRouter 云服务。总体而言，DeepResearch 框架以其模块化设计和严谨工程实践，为开源 AI 代理开发树立了标杆，确保在自主多步研究任务中实现可靠、可扩展的性能。

（字数约 1250）