从技能原子化到流程编排
当 Scientific Agent Skills 将 138 个科学技能封装为可复用单元时,Academic Research Skills (ARS) 选择了一条不同的路径:构建端到端的学术研究管道。这不是简单的技能堆砌,而是一个10 阶段编排系统,涵盖从文献检索、研究设计、论文撰写到同行评审的完整生命周期。
Lu et al. (2026) 在《Nature》发表的 "The AI Scientist" 虽然展示了完全自主 AI 研究的可能性,但其局限性章节列举的失败模式 —— 实现缺陷、幻觉结果、方法论伪造、框架锁定 —— 恰恰证明了人类在环 (Human-in-the-Loop) 设计的必要性。ARS v3.9.4.1 的架构正是基于这一前提:AI 作为副驾驶,而非飞行员。
10 阶段管道架构
ARS 的管道编排器将学术写作分解为 10 个严格定义的阶段,每个阶段配备特定的 Agent 团队和可交付物:
| 阶段 | 名称 | Agent 团队 | 核心交付物 |
|---|---|---|---|
| Stage 1 | RESEARCH | 13-agent 研究团队 | 研究计划摘要、文献矩阵 |
| Stage 2 | WRITE | 12-agent 写作团队 | 初稿、可视化、LaTeX 源码 |
| Stage 2.5 | INTEGRITY PRE | 完整性验证 Agent | 完整性报告、幻觉引用检测 |
| Stage 3 | PEER REVIEW | 7-agent 评审团队 | 评审报告、修订建议矩阵 |
| Stage 3' | RE-REVIEW | 修订验证 Agent | R&R 可追溯性矩阵 |
| Stage 4 | REVISION | 修订指导 Agent | 修订后稿件、回应信 |
| Stage 4.5 | INTEGRITY POST | 最终完整性检查 | 回归验证报告 |
| Stage 5 | FINALIZE | 格式化 Agent | APA 7.0 PDF、DOCX |
| Stage 6 | PROCESS SUMMARY | 协作质量评估 | 6 维度协作质量评价 |
这种编排的核心洞见在于:研究不是线性过程,而是需要检查点和回滚机制的迭代循环。Stage 2.5 和 Stage 4.5 的完整性门 (Integrity Gates) 是强制性的 —— 它们不能跳过,且会运行 7 种 AI 研究失败模式的阻断检查清单。
Material Passport:跨阶段数据契约
在分布式 Agent 系统中,阶段间的数据传递是故障高发区。ARS 通过Material Passport (Schema 9+) 解决了这一问题,这是一个跨阶段的数据契约机制,包含:
核心字段:
literature_corpus[]: 用户拥有的文献语料库,支持 CSL-JSON 格式style_profile: 从用户过往论文学习的写作风格指纹contamination_signals: 预印本 / LLM 污染检测信号compliance_history[]: PRISMA-trAIce 合规报告reset_boundary[]: 会话重置边界记录
数据访问级别:每个技能声明data_access_level(raw/redacted/verified_only),由scripts/check_data_access_level.py强制执行。这一模式借鉴自 Anthropic 的 automated-w2s-researcher (2026),确保 Agent 只能访问其被授权的数据层级。
Material Passport 的设计遵循仅追加 (append-only) 原则,配合repro_lock子块提供配置级可复现性声明。需要注意的是,由于 LLM 输出的非字节确定性,这并非执行重放的保证,而是审计轨迹的完整记录。
Integrity Gates:防幻觉的质量门
Zhao et al. (2026) 对 arXiv、bioRxiv、SSRN 和 PMC 的审计发现,2025 年存在约 146,932 个幻觉引用。ARS v3.7.3 + 通过三层防御机制应对这一挑战:
三层引用锚点系统:
- Quote Anchor: 最多 25 字的直接引用片段
- Page Anchor: 页码定位
- Section/Paragraph Anchor: 章节或段落定位
每个引用标记为<!--ref:slug-->,携带<!--anchor:<kind>:<value>-->元数据。当启用ARS_CLAIM_AUDIT=1时,Claim-Reference Alignment Audit Agent 会获取被引用源的锚定段落,判断主张是否实际获得支持。
HIGH-WARN 阻断类别:
- CLAIM-NOT-SUPPORTED: 主张与引用源不符
- NEGATIVE-CONSTRAINT-VIOLATION: 违反否定性约束
- FABRICATED-REFERENCE: 完全虚构的引用
- ANCHORLESS: 缺少定位锚点
- CONSTRAINT-VIOLATION-UNCITED: 未引用的约束违反
这些类别会触发 Formatter Agent 的硬门阻断 (hard-gate refusal),阻止输出到达用户。
跨索引三角测量 (v3.9.0):通过 Semantic Scholar + OpenAlex + Crossref 三索引验证,检测引用污染信号。当k=3(三个索引均不匹配)时,标记为CONTAMINATED-TRIANGULATION-UNMATCHED。
Human-in-the-Loop 设计哲学
ARS 明确拒绝完全自动化。其设计基于 Wang & Zhang (2026) 关于 AI 协作学习的研究,包含以下机制:
检查点类型:
- FULL: 完整检查点,需显式用户确认,可选上下文重置
- SLIM: 轻量检查点,仍需用户确认但开销更低
- MANDATORY: 强制性门(Stage 2.5/4.5),不可跳过
反谄媚协议 (v3.0+):Devil's Advocate Agent 必须在回应前对反驳进行 1-5 分评分,仅在≥4 分时才允许让步。这防止了 "用户反驳即证据" 的谄媚行为 —— 模型训练倾向于对话和谐,但学术研究需要坚持有根据的批评。
意图检测层:Socratic Mentor 在对话开始时及每 3 轮重新分类用户意图为 "探索性" 或 "目标导向"。探索性模式禁用自动收敛,最大轮次提升至 60,禁止 "需要我总结吗?" 式的过早关闭提示。
协作深度观察员 (v3.5.0):在每个 FULL/SLIM 检查点及管道完成时,4 维度评估用户 - AI 协作质量(委托强度、认知警觉、认知重分配、区域分类)。这是纯建议性的,从不阻断流程 —— 与强制性完整性门形成对比。
可复现性保障机制
学术研究的可复现性要求 ARS 在多个层面提供保障:
Sprint Contract 硬门 (v3.6.2+):Reviewer Agent 采用两阶段硬门协议 ——Phase 1(论文内容盲)预提交评分计划,Phase 2(论文可见)执行评分。Phase 1 输出被包裹在<phase1_output>数据定界符中,缩小自我注入攻击面。
反泄漏协议:知识隔离指令优先使用会话材料而非 LLM 参数记忆。当内容缺失时标记[MATERIAL GAP],而非从记忆填充 —— 这降低了 Mode 5/6 的幻觉风险。
VLM 图表验证:可选的闭环验证,使用视觉能力 LLM 对渲染图表进行 10 点检查,最多 2 轮细化迭代。
分数轨迹跟踪:跨修订轮次跟踪 7 维度评分变化,检测回归(delta < -3)并触发强制性检查点。
实践配置建议
基于 v3.9.4.1 的实践经验,以下是可落地的参数配置:
环境变量配置:
# 启用Claim审计(增加约15-20% token成本)
export ARS_CLAIM_AUDIT=1
# 跨模型验证(推荐用于关键论文)
export ARS_CROSS_MODEL=1
export ARS_CROSS_MODEL_SAMPLE_INTERVAL=5 # 每5个样本验证一次
# 会话重置边界(长会话防上下文腐烂)
export ARS_PASSPORT_RESET=1
# Socratic阅读诚实探针
export ARS_SOCRATIC_READING_PROBE=1
模型路由策略:
opus: Deep Research (full)、Academic Paper (full, revision-coach)—— 需要架构深度和评审解释能力sonnet: 其他所有模式 —— 成本效益平衡- 禁用 Haiku:项目策略禁止用于学术写作
成本估算:15,000 词论文的完整管道约需 $4-6(Claude 3.5 Sonnet 费率),启用跨模型验证时翻倍。
长会话管理:
- 使用
resume_from_passport=<hash>从 Material Passport 恢复会话 - 在 systematic-review 模式下,启用
ARS_PASSPORT_RESET会在每个 FULL 检查点强制重置 - 监控
collaboration_depth_rubric评分,Zone 3(过度依赖)触发重新审计
局限性与权衡
ARS 的设计明确承认以下结构性限制:
-
引用锚点覆盖:v3.7.3 引入的三层锚点要求引用源可获取。对于闭源内容或离线资源,系统降级为
[UNVERIFIED CITATION — NO QUOTE OR PAGE LOCATOR]标记。 -
校准门槛:Claim Audit 的校准要求 FNR<0.15 且 FPR<0.10,但 20-tuple 黄金集的覆盖率有限。v3.8 的 ramp-on 计划被推迟到校准证据充分后。
-
时序验证 (v3.9.4):5 种时序失败模式(回顾性算术、时代错置引用、比较器未物化、因果倒置、指示性现在时)的验证是建议性的,依赖 Crossref
issued日期和 pdftotext 封面提取的 M6-minimal 实现。 -
完全自动化的边界:ARS 明确不追求 Lu et al. (2026) 的完全自主路径。Stage 2.5/4.5 的完整性门需要人类判断,修订决策由人类研究者做出。
结语
学术研究 Agent 的流程编排不是简单的步骤串联,而是质量门控、数据契约和人类判断的精密平衡。ARS 的 10 阶段管道展示了如何在 AI 能力边界内构建可复现的研究工作流 —— 不是通过消除人类,而是通过结构化的人机协作。
对于希望实施类似系统的团队,关键 takeaway 是:从完整性门开始,而非从自动化开始。Stage 2.5 和 4.5 的强制检查是管道可信度的基石;Material Passport 的数据契约确保阶段间不丢失关键上下文;而反谄媚协议和意图检测则保护研究者免受 AI 结构性偏差的误导。
在 AI 科学家与人类科学家的光谱上,ARS 选择了增强而非替代 —— 这或许是目前技术条件下最务实的路径。
资料来源:
- Academic Research Skills v3.9.4.1 (2026-05-19)
- Scientific Agent Skills - 技能标准化参考
- Lu et al. (2026). "The AI Scientist". Nature, 651:914-919.
- Zhao et al. (2026). "Corpus-scale audit of hallucinated citations". arXiv:2605.07723.
- Song et al. (2026). "PaperOrchestra". arXiv:2604.05018.
- Wang, S., & Zhang, H. (2026). "Pedagogical partnerships with generative AI". IJETHE, 23:11.
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。