Hotdry.

Article

构建可复现的学术写作流水线:从文献检索到同行评审的闭环自动化

解析Academic Research Skills的10阶段Agentic Pipeline,探讨三层引用锚点、声明审计与Sprint Contract硬门在学术写作可复现性中的工程实现。

2026-05-18ai-systems

AI 辅助学术写作正在从 "智能补全" 走向 "全流程协作"。然而,Zhao et al. (2026) 对 arXiv 等平台的审计发现,仅 2025 年就存在约 146,932 条幻觉引用,其中大量 "真实引用被用于支持原文并未陈述的论断"。这一发现揭示了 AI 学术工具的核心风险:模型可能生成看似合理的引用,却与源文献的真实主张存在偏差。

在此背景下,开源项目 Academic Research Skills (ARS) 提出了一种人在回路的 Agentic 学术工作流,通过 10 阶段 Pipeline 将文献检索、草稿生成、同行评审整合为可审计的闭环系统。本文解析其可复现性机制的工程实现。

架构概览:10 阶段 Pipeline 与 Material Passport

ARS 的核心架构由四个技能模块构成:Deep Research(13 个 Agent)、Academic Paper(12 个 Agent)、Academic Paper Reviewer(7 个 Agent)以及作为编排器的 Academic Pipeline。整个流程被划分为 10 个阶段,从研究问题界定(Stage 1)到最终发表(Stage 6),并在关键节点设置完整性验证门(Stage 2.5 和 4.5)。

Material Passport是贯穿 Pipeline 的数据传递机制。它采用 Schema 9 规范,包含literature_corpus[](用户自有文献库)、contamination_signals(污染信号)、claim_audit_results[](声明审计结果)等字段。每个阶段产生的中间产物(如文献矩阵、评审报告、修订响应)都被追加到 Passport 中,形成完整的溯源链条。这种设计使得跨会话恢复成为可能 —— 用户可以在任意检查点中断后,通过 Passport 的哈希值在新会话中恢复进度。

三层引用锚点与声明审计

针对幻觉引用问题,ARS v3.7.3 引入了三层引用锚点机制。每个引用必须携带<!--anchor:<kind>:<value>-->标记,其中<kind>可以是 quote(引用片段,限 25 词)、page(页码)、section(章节)或 paragraph(段落)。这些锚点与引用 slug 绑定,构成后续审计的检索坐标。

v3.8 进一步推出了声明 - 引用对齐审计(Claim-Reference Alignment Audit)。当启用ARS_CLAIM_AUDIT=1时,系统会在 Stage 4→5 阶段执行以下操作:

  1. 提取草稿中所有带引用的声明
  2. 根据锚点从源文献检索对应段落
  3. 由独立 Agent 判断该段落是否支持声明
  4. 对未引用声明进行约束违反检测

审计结果分为五类 HIGH-WARN:claim-not-supported(声明无支持)、negative-constraint-violation(负面约束违反)、fabricated-reference(伪造引用)、anchorless(无锚点)、constraint-violation-uncited(未引用约束违反)。任何 HIGH-WARN 都会触发 Formatter 的硬门拒绝,阻止输出进入下一阶段。

完整性验证门与 Sprint Contract

Pipeline 在 Stage 2.5 和 4.5 设置了强制性完整性验证门,不可跳过。验证 Agent 执行 7 种 AI 研究失败模式检查清单:implementation bugs(实现缺陷)、hallucinated results(幻觉结果)、shortcut reliance(捷径依赖)、bug-as-insight(将缺陷重构为洞见)、methodology fabrication(方法伪造)、frame-lock(框架锁定)、citation hallucinations(引用幻觉)。

v3.6.2 引入的Sprint Contract 硬门则针对同行评审阶段。评审 Agent 必须在阅读论文前(Phase 1)预提交评分计划,包括评审维度、接受阈值、失败条件等。该计划被包装在<phase1_output>数据分隔符中,确保评审者在 Phase 2 看到论文内容后,无法随意调整评分标准。这种 "内容盲预提交" 机制有效防止了评审漂移。

落地实践:配置参数与运行清单

要在 Claude Code 中部署 ARS,建议按以下步骤配置:

环境变量配置

# 启用声明审计(默认关闭)
export ARS_CLAIM_AUDIT=1

# 启用跨模型验证(可选,增加成本)
export ARS_CROSS_MODEL=1

# 启用Passport重置边界(长会话推荐)
export ARS_PASSPORT_RESET=1

Pipeline 运行检查清单

  • Stage 1: 确认研究问题表述清晰,避免范围蔓延
  • Stage 2.5: 检查完整性报告,关注contamination_signals中的semantic_scholar_unmatched标记
  • Stage 3: 评审阶段确认 Sprint Contract 已预提交
  • Stage 4.5: 二次完整性验证,确认修订未引入回归
  • Stage 5: 验证声明审计报告无 HIGH-WARN
  • Stage 6: 审查 Collaboration Quality Evaluation 的 6 维度评分

引用质量监控阈值

  • 引用锚点覆盖率:目标≥90%(无锚点引用会被标记为[UNVERIFIED CITATION]
  • 声明支持率:通过审计的声明应≥95%
  • 污染信号:关注preprint_post_llm_inflection标记的文献

局限与权衡

ARS 明确声明其repro_lock子块仅提供配置文档,不保证字节级可复现——LLM 输出的非确定性意味着同一提示可能产生不同结果。此外,声明审计和跨模型验证均为 opt-in 功能,默认关闭以控制成本。人在回路的设计也意味着无法完全自动化,每个 FULL 检查点都需要用户确认。

结语

ARS 展示了 Agentic Workflow 在学术写作中的可行路径:不是追求全自动,而是通过结构化数据流(Material Passport)、分层验证(三层锚点 + 声明审计)和强制检查点(完整性验证门 + Sprint Contract)将 AI 的不可预测性约束在可管理范围内。对于需要处理大量文献、保持引用准确性的研究者,这种工程化的可复现性机制提供了比单次提示更可靠的协作框架。


资料来源

  • Imbad0202/academic-research-skills (GitHub)
  • Zhao et al. (2026) 对 arXiv 等平台 146,932 条幻觉引用的语料级审计

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com