202509
ai-systems

生产就绪的 AI 研究员:多代理自主科学发现系统工程实现

工程化多代理 AI 系统,实现文献合成、假设制定与代码生成,支持聊天界面的迭代科学工作流。

在人工智能快速发展的当下,自主科学发现系统已成为推动科研创新的关键工具。AI-Researcher 作为一个生产就绪的多代理系统,针对 NeurIPS 2025 的实现,专注于通过编排多个大型语言模型(LLM)来自动化文献合成、假设制定和代码生成。这种系统的工程化设计,不仅支持端到端的科研流程,还通过聊天界面实现迭代优化,确保可扩展性和可靠性。不同于通用 AI 代理,本系统强调多 LLM 协作,避免单一模型的局限性,提供高效的自主创新路径。

系统的核心架构采用多代理协作框架,由资源收集器、想法生成器、算法设计器、实现验证器和论文撰写器等代理组成。这些代理通过统一的编排层交互,基于任务级别(Level 1:详细想法描述;Level 2:基于参考论文生成想法)处理输入。证据显示,这种设计在开源基准测试中覆盖计算机视觉(CV)、自然语言处理(NLP)、数据挖掘(DM)和信息检索(IR)等领域,实现了从概念到出版的全自动化。工程实践证明,多代理编排能显著降低单点故障风险,例如使用 Claude-3.5-Sonnet 作为主完成模型,结合 Haiku 作为廉价模型进行初步过滤,提高了整体效率。

文献合成是自主发现的起点,系统首先通过资源收集器从 arXiv、IEEE Xplore 等数据库自动采集材料,然后由资源过滤器基于引用数、代码维护度和相关性指标筛选高价值资源。这一过程的证据来自于系统的基准套件,其中专家级 ground truth 论文用于验证合成质量。引用 GitHub 仓库的实现,该系统支持多 LLM 提供商如 OpenAI 和 Deepseek,确保合规访问 API。对于可落地参数,建议设置采集阈值:引用数 > 50,相关性分数 > 0.8;过滤后保留前 20-30 篇论文。监控点包括 API 调用频率(不超过 100 次/小时)和缓存路径(如 cache 目录)以避免重复下载。在 Docker 部署中,配置 BASE_IMAGES 为 tjbtech1/airesearcher:v1,并分配 GPU 如 device=0,1 以加速处理。

假设制定阶段依赖想法生成器,对筛选后的文献进行分析,识别方法论局限性和新兴趋势,生成创新方向。这一环节的观点是,自主假设需平衡新颖性和可行性,证据源于系统在 VQ-VAE 和 GNN 类别上的示例实验,其中它成功提出旋转与重缩放变换来改善梯度传播。不同于手动研究,这种自动化能探索未开辟领域,但需人类专家审核以防 LLM 幻觉。落地清单包括:输入参考论文列表(5-10 篇),设置最大迭代次数 MAX_ITER_TIMES=5 以控制生成深度;使用温度参数 τ=0.7 促进多样性。风险限制:假设的可重复性依赖基准数据集,如 QM9 用于分子属性预测;若生成假设偏离领域,启用回滚策略重置至 Level 1 输入。参数优化:学习率 1e-3,批次大小 512,确保在联邦学习设置中不共享原始数据。

代码生成与验证是系统的执行核心,算法设计器基于假设制定框架,实施模块化代码,如异构 GNN 或扩散模型。证据显示,在推荐系统示例中,它集成对比学习和元网络,实现用户-物品交互预测的 MAE < 0.05。系统使用 Jupyter Notebook 输出,便于迭代验证,包括测试环境搭建和性能评估。引用生产聊天界面 novix.science/chat,该系统支持 Auto Experiment 功能,直接运行如微调 Idefics2-8B 于 VQA-RAD 数据集。落地参数:代码生成时指定模型如 openrouter/google/gemini-2.5-pro,承诺损失系数 β ∈ [0.25, 2];验证阶段运行 Playwright 安装以模拟浏览器测试。清单步骤:1. 设计阶段规划伪代码;2. 实施使用 uv pip install -e .;3. 验证计算指标如 BPR 损失;4. 优化迭代至收敛。监控包括代码覆盖率 > 80% 和 GPU 使用率 < 90% 以防过热。

迭代研究工作流通过聊天界面 novix.science/chat 实现,支持 Idea Spark、Deep Survey 和 Method Design 等模式。用户输入如“提出联邦学习设置训练敏感患者数据模型”,系统响应调研、设计和实验。证据表明,这种界面降低了门槛,无需上传文件,仅需论文列表即可启动。工程参数:端口 PORT=7020,平台 linux/amd64;启用 Web GUI via python web_ai_researcher.py,支持 Gradio 配置环境变量。风险:隐私泄露在敏感数据处理中,限制为模拟数据集;回滚策略:若实验失败,max_iter_times=0 跳过迭代。优化点:集成 Slack/Discord 社区反馈,定期更新基准以适应新领域。

部署与监控是确保生产就绪的关键。使用 Docker 构建镜像 tjbtech1/airesearcher:v1,设置 GITHUB_AI_TOKEN 和 OPENROUTER_API_KEY。参数:容器名 CONTAINER_NAME=paper_eval,工作空间 WORKPLACE_NAME=workplace。监控清单:1. 日志追踪 LLM 调用延迟 < 5s;2. 异常处理如 stop-gradient 技术防梯度爆炸;3. 性能指标:生成论文长度 > 5000 字,创新分数 > 0.7(基于评估代理)。风险管理:代码崩溃时启用 EMA 权重平均(衰减率 0.999);扩展性通过多 GPU 支持实现,每代理分配 1-2 张卡。

总体而言,AI-Researcher 的多代理系统为自主创新提供了坚实工程基础。通过最小化手动干预,它加速了从想法到实现的流程,但强调人类监督以维持科学严谨性。未来,可进一步集成更多 LLM 提供商,提升跨领域适应性。该系统不仅是工具,更是科研范式的变革者。(字数:1248)