学术研究领域正面临 AI 辅助工具的治理难题:如何在不牺牲学术诚信的前提下,系统性地提升研究效率?Academic Research Skills (ARS) 作为 Claude Code 的学术研究技能包,通过模块化的技能封装、集中式的模式注册表治理,以及严格的版本控制机制,为这一问题提供了工程化的解决方案。截至 v3.9.4.1,该套件已演化出 4 个核心技能、25 种操作模式,以及覆盖 research → write → review → revise → finalize 的 10 阶段流水线。
模块化技能架构:职责分离与组合
ARS 采用技能级模块化设计,将学术研究流程拆解为四个独立但可组合的能力单元:
| 技能 | 版本 | Agent 数量 | 核心职责 |
|---|---|---|---|
deep-research |
v2.9.4 | 13 | 研究设计、文献综述、PRISMA 系统综述 |
academic-paper |
v3.1.2 | 12 | 论文撰写、格式转换、修订辅导 |
academic-paper-reviewer |
v1.9.1 | 7 | 多视角同行评审、修订验证 |
academic-pipeline |
v3.9.4.1 | 5 | 10 阶段流水线编排、完整性门控 |
每个技能通过独立的 SKILL.md 文件声明其元数据(data_access_level、task_type)、触发关键词和模式路由逻辑。这种设计使得开发者可以按需加载特定技能,而非加载整个套件。例如,仅需文献综述时可单独调用 deep-research 的 lit-review 模式,无需启动完整的论文写作流水线。
技能间的依赖关系通过 shared/ 目录中的共享契约解耦,包括引用格式标准、协作深度评估量表、跨模型验证协议等。这种共享契约层确保了不同技能在处理相同概念时的一致性,同时避免了代码级耦合。
技能注册表治理:25 模式的集中式管理
MODE_REGISTRY.md 作为单一事实来源,集中管理套件内全部 25 种操作模式。每个模式条目包含五个维度的元数据:
- Spectrum:Fidelity(忠实度)/ Balanced(平衡)/ Originality(原创性)三档,指示该模式偏向执行精确性还是探索开放性
- Output:预期产出物的类型与规模
- Oversight:监督级别(Very High/High/Medium/Low),决定人机交互密度
- Triggers:激活该模式的自然语言触发词
注册表采用先注册后实现的治理流程:任何新增或修改模式的 PR 必须首先更新 MODE_REGISTRY.md,随后 SKILL.md 和 CLAUDE.md 才能引用该注册项。这一机制通过 CI 工作流中的 check_spec_consistency.py 强制执行,防止文档漂移。
模式的监督级别直接映射到流水线的决策检查点密度。Very High 级别(如 socratic、plan)要求用户在每个阶段确认;Low 级别(如 format-convert、citation-check)则允许自动执行。这种监督级别契约使用户能够根据任务风险自主选择合适的介入深度。
10 阶段流水线编排:状态机与检查点
academic-pipeline 作为编排器,将研究流程形式化为10 阶段状态机,其中包含两类关键检查点:
决策型检查点(🧑):用户必须选择分支或批准材料决策
- Stage 1:RQ Brief + Methodology Blueprint 确认
- Stage 2:大纲批准后方可进入起草
- Stage 3:Editorial Decision(Accept/Minor/Major/Reject)
- Stage 4:修订变更确认
- Stage 5:输出格式选择(MD/DOCX/LaTeX/PDF)
完整性门控(✓):机器验证先行,用户确认后行
- Stage 2.5:7 模式 AI 失败检查清单(Lu 2026 taxonomy)
- Stage 4.5:零容忍深度验证 + Material Passport 最终确认
流水线支持中途进入(mid-entry):用户可携带已完成的手稿从 Stage 2.5 启动,或从 Stage 4 开始处理审稿意见。这种灵活性通过 Material Passport 实现。
Material Passport:跨阶段状态传递
Material Passport 是 ARS 的跨阶段状态容器,采用 Schema 9 规范,承载以下关键数据:
literature_corpus[]:用户 curated 的文献库(v3.6.4+)verification_status:验证状态(VERIFIED/UNVERIFIED)repro_lock:可复现性锁定声明(v3.3.5+)compliance_history[]:合规报告历史(v3.4.0+)reset_boundary[]:上下文重置边界(v3.6.3+)
数据访问级别(data_access_level)在技能间形成信任边界:deep-research 操作原始数据(raw),academic-paper 处理脱敏材料(redacted),academic-paper-reviewer 和 academic-pipeline 仅访问已验证数据(verified_only)。Stage 2.5 和 4.5 作为实际的强制执行点,确保数据在向下游传递前满足完整性要求。
v3.6.4 引入的 literature_corpus[] 输入端口允许用户通过适配器(Zotero/Obsidian/ 文件夹扫描)将既有文献库注入流水线。消费者代理(bibliography_agent、literature_strategist_agent)遵循corpus-first, search-fills-gap 流程,优先使用用户提供的文献,不足部分再调用外部数据库。
版本治理机制:语义化与 CI 验证
ARS 采用语义化版本控制(SemVer),版本号格式为 主版本.次版本.修订版本.补丁版本(如 v3.9.4.1)。版本演进遵循以下原则:
- 破坏性变更必须提升主版本号
- 新功能提升次版本号
- 缺陷修复提升修订版本号
- 热修复提升补丁版本号
每个版本发布伴随详细的 CHANGELOG 条目,记录功能变更、模式新增、Agent 调整和治理机制更新。CI 工作流通过多个 lint 脚本强制执行规范一致性:
| Lint 脚本 | 验证内容 |
|---|---|
check_data_access_level.py |
SKILL.md 必须声明有效的 data_access_level |
check_sprint_contract.py |
Schema 13 Sprint Contract 结构完整性 |
check_corpus_consumer_protocol.py |
文献库消费者协议的 9 项不变量 |
check_v3_6_7_pattern_protection.py |
下游 Agent 幻觉模式防护条款 |
完整性门控:反幻觉的工程实践
Stage 2.5 和 4.5 的完整性门控是 ARS 的质量保证核心。基于 Lu et al. (2026, Nature) 对全自动 AI 研究系统失败模式的分析,门控检查以下 7 种风险:
- M1:实现 bug 通过 AI 自审
- M2:引用幻觉
- M3:实验结果幻觉
- M4:捷径依赖
- M5:将 bug 重新包装为新发现
- M6:方法论伪造
- M7:早期阶段框架锁定
v3.8.0 引入的声明审计层(Claim-Faithfulness Locator)通过三层引用锚点(<!--anchor:kind:value-->)和可选的 ARS_CLAIM_AUDIT=1 审计模式,验证每个声明是否被引用的来源实际支持。审计结果通过 8 行终结器矩阵路由,HIGH-WARN 类别触发格式化 Agent 的拒绝规则(REFUSE rules 6-10)。
可落地配置参数
安装(Claude Code v3.7.0+):
/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills
环境变量:
ARS_CROSS_MODEL=1:启用跨模型验证(GPT-5.4/Gemini-3.1)ARS_CLAIM_AUDIT=1:启用声明审计(v3.8+,默认关闭)ARS_PASSPORT_RESET=1:在每个 FULL 检查点重置上下文(v3.6.3+)ARS_SOCRATIC_READING_PROBE=1:启用苏格拉底式阅读检查探针(v3.5.1+)
典型调用:
# 启动完整流水线
/academic-pipeline "I want to write a complete research paper"
# 从已有护照恢复
/academic-pipeline resume_from_passport=<hash>
# 文献综述模式
/ars-lit-review "your topic"
成本估算:15,000 词论文的完整流水线约需 $4–6(Claude Code token 计费)。
结语
ARS 技能包展示了如何在 Claude Code 生态中构建可治理的 AI 辅助研究系统。其核心贡献不在于自动化程度的提升,而在于通过模块化封装、注册表治理、版本控制和完整性门控,建立了人机协作的结构性约束。这些约束使 AI 的局限性(幻觉、谄媚、框架锁定)变得可见且可管理,而非隐藏于自动化黑箱之中。对于需要处理高 stakes 学术写作的研究者而言,这种 "显式治理优于隐式信任" 的设计哲学,或许比任何单一功能更具长期价值。
参考来源:
- GitHub: Imbad0202/academic-research-skills (v3.9.4.1)
- 架构文档: docs/ARCHITECTURE.md
- 模式注册表: MODE_REGISTRY.md
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。