2025年09月24日 ai-systems

生产就绪的 AI 研究员：多代理自主科学发现系统工程实现

工程化多代理 AI 系统，实现文献合成、假设制定与代码生成，支持聊天界面的迭代科学工作流。

内容加载中...

在人工智能快速发展的当下，自主科学发现系统已成为推动科研创新的关键工具。AI-Researcher 作为一个生产就绪的多代理系统，针对 NeurIPS 2025 的实现，专注于通过编排多个大型语言模型（LLM）来自动化文献合成、假设制定和代码生成。这种系统的工程化设计，不仅支持端到端的科研流程，还通过聊天界面实现迭代优化，确保可扩展性和可靠性。不同于通用 AI 代理，本系统强调多 LLM 协作，避免单一模型的局限性，提供高效的自主创新路径。

系统的核心架构采用多代理协作框架，由资源收集器、想法生成器、算法设计器、实现验证器和论文撰写器等代理组成。这些代理通过统一的编排层交互，基于任务级别（Level 1：详细想法描述；Level 2：基于参考论文生成想法）处理输入。证据显示，这种设计在开源基准测试中覆盖计算机视觉（CV）、自然语言处理（NLP）、数据挖掘（DM）和信息检索（IR）等领域，实现了从概念到出版的全自动化。工程实践证明，多代理编排能显著降低单点故障风险，例如使用 Claude-3.5-Sonnet 作为主完成模型，结合 Haiku 作为廉价模型进行初步过滤，提高了整体效率。

文献合成是自主发现的起点，系统首先通过资源收集器从 arXiv、IEEE Xplore 等数据库自动采集材料，然后由资源过滤器基于引用数、代码维护度和相关性指标筛选高价值资源。这一过程的证据来自于系统的基准套件，其中专家级 ground truth 论文用于验证合成质量。引用 GitHub 仓库的实现，该系统支持多 LLM 提供商如 OpenAI 和 Deepseek，确保合规访问 API。对于可落地参数，建议设置采集阈值：引用数 > 50，相关性分数 > 0.8；过滤后保留前 20-30 篇论文。监控点包括 API 调用频率（不超过 100 次/小时）和缓存路径（如 cache 目录）以避免重复下载。在 Docker 部署中，配置 BASE_IMAGES 为 tjbtech1/airesearcher:v1，并分配 GPU 如 device=0,1 以加速处理。

假设制定阶段依赖想法生成器，对筛选后的文献进行分析，识别方法论局限性和新兴趋势，生成创新方向。这一环节的观点是，自主假设需平衡新颖性和可行性，证据源于系统在 VQ-VAE 和 GNN 类别上的示例实验，其中它成功提出旋转与重缩放变换来改善梯度传播。不同于手动研究，这种自动化能探索未开辟领域，但需人类专家审核以防 LLM 幻觉。落地清单包括：输入参考论文列表（5-10 篇），设置最大迭代次数 MAX_ITER_TIMES=5 以控制生成深度；使用温度参数 τ=0.7 促进多样性。风险限制：假设的可重复性依赖基准数据集，如 QM9 用于分子属性预测；若生成假设偏离领域，启用回滚策略重置至 Level 1 输入。参数优化：学习率 1e-3，批次大小 512，确保在联邦学习设置中不共享原始数据。

代码生成与验证是系统的执行核心，算法设计器基于假设制定框架，实施模块化代码，如异构 GNN 或扩散模型。证据显示，在推荐系统示例中，它集成对比学习和元网络，实现用户-物品交互预测的 MAE < 0.05。系统使用 Jupyter Notebook 输出，便于迭代验证，包括测试环境搭建和性能评估。引用生产聊天界面 novix.science/chat，该系统支持 Auto Experiment 功能，直接运行如微调 Idefics2-8B 于 VQA-RAD 数据集。落地参数：代码生成时指定模型如 openrouter/google/gemini-2.5-pro，承诺损失系数 β ∈ [0.25, 2]；验证阶段运行 Playwright 安装以模拟浏览器测试。清单步骤：1. 设计阶段规划伪代码；2. 实施使用 uv pip install -e .；3. 验证计算指标如 BPR 损失；4. 优化迭代至收敛。监控包括代码覆盖率 > 80% 和 GPU 使用率 < 90% 以防过热。

迭代研究工作流通过聊天界面 novix.science/chat 实现，支持 Idea Spark、Deep Survey 和 Method Design 等模式。用户输入如“提出联邦学习设置训练敏感患者数据模型”，系统响应调研、设计和实验。证据表明，这种界面降低了门槛，无需上传文件，仅需论文列表即可启动。工程参数：端口 PORT=7020，平台 linux/amd64；启用 Web GUI via python web_ai_researcher.py，支持 Gradio 配置环境变量。风险：隐私泄露在敏感数据处理中，限制为模拟数据集；回滚策略：若实验失败，max_iter_times=0 跳过迭代。优化点：集成 Slack/Discord 社区反馈，定期更新基准以适应新领域。

部署与监控是确保生产就绪的关键。使用 Docker 构建镜像 tjbtech1/airesearcher:v1，设置 GITHUB_AI_TOKEN 和 OPENROUTER_API_KEY。参数：容器名 CONTAINER_NAME=paper_eval，工作空间 WORKPLACE_NAME=workplace。监控清单：1. 日志追踪 LLM 调用延迟 < 5s；2. 异常处理如 stop-gradient 技术防梯度爆炸；3. 性能指标：生成论文长度 > 5000 字，创新分数 > 0.7（基于评估代理）。风险管理：代码崩溃时启用 EMA 权重平均（衰减率 0.999）；扩展性通过多 GPU 支持实现，每代理分配 1-2 张卡。

总体而言，AI-Researcher 的多代理系统为自主创新提供了坚实工程基础。通过最小化手动干预，它加速了从想法到实现的流程，但强调人类监督以维持科学严谨性。未来，可进一步集成更多 LLM 提供商，提升跨领域适应性。该系统不仅是工具，更是科研范式的变革者。（字数：1248）