构建可复现的学术写作流水线：从文献检索到同行评审的闭环自动化

AI 辅助学术写作正在从 "智能补全" 走向 "全流程协作"。然而，Zhao et al. (2026) 对 arXiv 等平台的审计发现，仅 2025 年就存在约 146,932 条幻觉引用，其中大量 "真实引用被用于支持原文并未陈述的论断"。这一发现揭示了 AI 学术工具的核心风险：模型可能生成看似合理的引用，却与源文献的真实主张存在偏差。

在此背景下，开源项目 Academic Research Skills (ARS) 提出了一种人在回路的 Agentic 学术工作流，通过 10 阶段 Pipeline 将文献检索、草稿生成、同行评审整合为可审计的闭环系统。本文解析其可复现性机制的工程实现。

架构概览：10 阶段 Pipeline 与 Material Passport

ARS 的核心架构由四个技能模块构成：Deep Research（13 个 Agent）、Academic Paper（12 个 Agent）、Academic Paper Reviewer（7 个 Agent）以及作为编排器的 Academic Pipeline。整个流程被划分为 10 个阶段，从研究问题界定（Stage 1）到最终发表（Stage 6），并在关键节点设置完整性验证门（Stage 2.5 和 4.5）。

Material Passport是贯穿 Pipeline 的数据传递机制。它采用 Schema 9 规范，包含literature_corpus[]（用户自有文献库）、contamination_signals（污染信号）、claim_audit_results[]（声明审计结果）等字段。每个阶段产生的中间产物（如文献矩阵、评审报告、修订响应）都被追加到 Passport 中，形成完整的溯源链条。这种设计使得跨会话恢复成为可能 —— 用户可以在任意检查点中断后，通过 Passport 的哈希值在新会话中恢复进度。

三层引用锚点与声明审计

针对幻觉引用问题，ARS v3.7.3 引入了三层引用锚点机制。每个引用必须携带标记，其中<kind>可以是 quote（引用片段，限 25 词）、page（页码）、section（章节）或 paragraph（段落）。这些锚点与引用 slug 绑定，构成后续审计的检索坐标。

v3.8 进一步推出了声明 - 引用对齐审计（Claim-Reference Alignment Audit）。当启用ARS_CLAIM_AUDIT=1时，系统会在 Stage 4→5 阶段执行以下操作：

提取草稿中所有带引用的声明
根据锚点从源文献检索对应段落
由独立 Agent 判断该段落是否支持声明
对未引用声明进行约束违反检测

审计结果分为五类 HIGH-WARN：claim-not-supported（声明无支持）、negative-constraint-violation（负面约束违反）、fabricated-reference（伪造引用）、anchorless（无锚点）、constraint-violation-uncited（未引用约束违反）。任何 HIGH-WARN 都会触发 Formatter 的硬门拒绝，阻止输出进入下一阶段。

完整性验证门与 Sprint Contract

Pipeline 在 Stage 2.5 和 4.5 设置了强制性完整性验证门，不可跳过。验证 Agent 执行 7 种 AI 研究失败模式检查清单：implementation bugs（实现缺陷）、hallucinated results（幻觉结果）、shortcut reliance（捷径依赖）、bug-as-insight（将缺陷重构为洞见）、methodology fabrication（方法伪造）、frame-lock（框架锁定）、citation hallucinations（引用幻觉）。

v3.6.2 引入的Sprint Contract 硬门则针对同行评审阶段。评审 Agent 必须在阅读论文前（Phase 1）预提交评分计划，包括评审维度、接受阈值、失败条件等。该计划被包装在<phase1_output>数据分隔符中，确保评审者在 Phase 2 看到论文内容后，无法随意调整评分标准。这种 "内容盲预提交" 机制有效防止了评审漂移。

落地实践：配置参数与运行清单

要在 Claude Code 中部署 ARS，建议按以下步骤配置：

环境变量配置

# 启用声明审计（默认关闭）
export ARS_CLAIM_AUDIT=1

# 启用跨模型验证（可选，增加成本）
export ARS_CROSS_MODEL=1

# 启用Passport重置边界（长会话推荐）
export ARS_PASSPORT_RESET=1

Pipeline 运行检查清单

Stage 1: 确认研究问题表述清晰，避免范围蔓延
Stage 2.5: 检查完整性报告，关注contamination_signals中的semantic_scholar_unmatched标记
Stage 3: 评审阶段确认 Sprint Contract 已预提交
Stage 4.5: 二次完整性验证，确认修订未引入回归
Stage 5: 验证声明审计报告无 HIGH-WARN
Stage 6: 审查 Collaboration Quality Evaluation 的 6 维度评分

引用质量监控阈值

引用锚点覆盖率：目标≥90%（无锚点引用会被标记为[UNVERIFIED CITATION]）
声明支持率：通过审计的声明应≥95%
污染信号：关注preprint_post_llm_inflection标记的文献

局限与权衡

ARS 明确声明其repro_lock子块仅提供配置文档，不保证字节级可复现——LLM 输出的非确定性意味着同一提示可能产生不同结果。此外，声明审计和跨模型验证均为 opt-in 功能，默认关闭以控制成本。人在回路的设计也意味着无法完全自动化，每个 FULL 检查点都需要用户确认。

结语

ARS 展示了 Agentic Workflow 在学术写作中的可行路径：不是追求全自动，而是通过结构化数据流（Material Passport）、分层验证（三层锚点 + 声明审计）和强制检查点（完整性验证门 + Sprint Contract）将 AI 的不可预测性约束在可管理范围内。对于需要处理大量文献、保持引用准确性的研究者，这种工程化的可复现性机制提供了比单次提示更可靠的协作框架。

资料来源

Imbad0202/academic-research-skills (GitHub)
Zhao et al. (2026) 对 arXiv 等平台 146,932 条幻觉引用的语料级审计

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。