2026 年 5 月 14 日,arXiv 正式明确了针对引用幻觉(hallucinated references)类 LLM 生成内容的处罚框架:一旦提交物中出现「无可辩驳的证据」表明作者未核实 LLM 生成的内容,将触发为期一年的提交禁令;解禁后再次提交,还须先在经同行评审的正式学术会议上获得接收。这一政策并非临时收紧,而是 arXiv moderation 团队在系统性评估信号噪声比(signal-to-noise ratio)后得出的治理结论。本文从工程实现视角拆解该政策的判定逻辑、证据类型与治理框架,为论文作者和平台开发者提供可操作的参考。
一、不可逆证据的判定边界
arXiv moderation 团队将「无可辩驳的证据」(incontrovertible evidence)定义为两类明确的违规形态,作者只要在提交物中出现其中任意一种,即触发一年封禁。
第一类是有据可查但完全不存在的引用,即幻觉引用本身。典型表现包括:作者声称引用了某篇论文,但该论文的 DOI、arXiv ID 或 URL 在任何学术数据库中均无法检索到;或者 BibTeX 条目中的作者姓名、发表年份、卷期页码与实际出版记录完全不符。Thomas G. Dietterich 在公开说明中指出,这类幻觉引用的危害在于其不可逆性 —— 读者如果信任了这些虚假引用,可能会在错误的基础上继续推进研究。更关键的是,当一篇论文中出现幻觉引用时,评审者无法确信论文其他部分的任何声明是否经过人工核实,因此整篇论文的科学可信度受到根本质疑。
第二类证据是 LLM 在生成过程中遗留的显式元注释(meta-comments)。典型例子包括模型在回复中直接写入的「Here is a 200 word summary; would you like me to make any changes?」,以及「The data in this table is illustrative, fill it in with the real numbers from your experiments」。这类元注释说明作者在提交前并未真正审阅 LLM 的输出内容,而是将未经检查的生成文本直接复制进论文。无论论文的实际技术贡献如何,这种行为表明作者对提交内容的真实性缺乏基本承诺。
需要特别强调的是,政策针对的是「未核实 LLM 生成内容」这一行为本身,而非论文的学术质量。arXiv moderation 的核心目标是防止非科学性内容(non-scientific papers)进入平台,而非对论文的正确性下结论。这一区分在社区讨论中至关重要:即使一篇论文包含某些 LLM 辅助撰写的段落,只要作者完整审阅并核实了所有内容,就不触发封禁。触发封禁的前提是模型生成内容中的不可逆错误未被作者发现和纠正。
二、自动检测与人工复核的协同流程
从平台工程角度看,一年封禁政策的落地依赖一套自动检测与人工复核协同工作的流水线。尽管 arXiv 官方未公开完整的审查系统架构,但结合社区讨论与现有研究线索,可以推导出以下关键模块。
引用幻觉的自动检测通常基于多源交叉验证。主流方案是首先解析论文的 BibTeX 或参考文献列表,提取每条引用的 DOI、arXiv ID、URL 等唯一标识符;随后通过 CrossRef API、Semantic Scholar API 或 arXiv 自身的元数据接口逐一查询匹配状态。如果某条引用在所有可用数据源中均无匹配记录,系统将其标记为潜在幻觉引用。为降低误报率,检测系统通常会设置置信度阈值:单次 API 查询无结果不足以触发违规判定,需要多源验证均失败或人工抽检确认后,才会提升为「无可辩驳」级别。
元注释的自动检测则依赖文本模式匹配与语义分类的混合策略。模式匹配层面,系统维护一个小型但高精确度的元注释词库,涵盖 LLM 常见的引导性短语(如「here is a summary」「fill in」「illustrative data」等),在论文正文和辅助文件中进行正则匹配。语义分类层面,部分检测系统引入二分类模型判断文本片段是否具有「LLM 生成引导语」的特征。这类模型的训练数据通常来自公开的 LLM 输出语料库与真实学术写作的对比,目标是高召回率地捕获可疑片段。
自动检测完成后,所有标记结果进入人工复核环节。根据 arXiv moderation 团队在讨论中透露的信息,人工复核由受过专业培训的版主执行,复核重点不在技术正确性,而在证据的确凿性。换言之,复核者需要确认论文中确实存在上述两类「无可辩驳」的证据,而非仅凭推测或不确定的引用异常作出封禁决定。这一设计原则确保了一年封禁作为最高级别处罚的严肃性 —— 它不是自动执行的机械规则,而是经过人工确认的治理决策。
三、双门槛处罚机制的设计意图
一年封禁并非终点,而是双门槛处罚机制的第一道门槛。第二道门槛是:封禁期满后,作者的后续 arXiv 提交必须先获得在正式同行评审会议或期刊上的接收证明,方可上传至 arXiv。
这一设计的治理意图可以从三个层面理解。首先,它建立了一种递进的责任体系。首次违规后的一年封禁给作者提供了充分的时间反思和修正行为;解禁后的第二道门槛则确保重获提交权的作者已经过外部评审机制的检验,降低了再次提交未经核实内容的风险。其次,它防止了「批量注册账号绕过封禁」的攻击路径。如果第二道门槛不存在,被封禁的作者可能通过虚假身份重新注册并继续提交低质量内容;而要求提交前提供其他会议的接收证明,实质上引入了第三方信任背书。最后,它平衡了开放访问与质量控制之间的张力。arXiv 作为预印本服务器,其核心价值在于开放的学术交流渠道;但当信号噪声比低到威胁平台可用性时,适度的质量门槛成为必要手段。双门槛机制在不设置全面事前审查的前提下,通过事后追溯和第三方验证实现了有限的治理目标。
从作者合规的角度看,双门槛机制意味着一次严重的引用幻觉违规将导致至少一年以上的 arXiv 发表中断,并且即便封禁解除,也需要先在其他平台积累学术声誉才能重新使用 arXiv。对于高度依赖 arXiv 进行快速学术交流的研究者而言,这一代价远超简单的论文被拒,而是对个人学术声誉的实质性损害。
四、检测工具与预防实践建议
针对引用幻觉问题,学术界已涌现出一批可操作的检测和预防工具。其中最具代表性的是 Delip Rao 等人发布的 clibib,这是一个 Python 包和 agent skill,专门用于缓解 BibTeX 引用幻觉。clibib 的核心思路是将引用发现与验证流程集成到 AI agent 的工作流中:作者在撰写论文时通过自然语言或 /clibib 命令调用 clibib,工具会主动查询真实数据库中的引用记录,自动检测当前稿件中已有的引用是否真实存在,并在发现可疑引用时即时预警。
clibib 支持与主流 AI coding assistant 集成,包括 Claude Code、Codex CLI、Gemini CLI、OpenHands 和 GitHub Copilot 等。其设计理念是「预防优于治理」—— 与其在论文提交后被 moderation 团队发现幻觉引用,不如在写作过程中就实时验证每一条引用的真实性。对于论文作者而言,在提交前使用 clibib 或类似工具进行一次全量引用验证,是规避一年封禁风险的最低成本手段。
此外,arXiv 官方也建议作者在使用 AI 辅助工具时保持全程审阅习惯。具体而言,作者应在 AI 生成初稿后逐条核查所有引用记录的实际存在性,同时删除所有可能的 LLM 元注释段落。如果论文使用了 AI 进行实验结果汇总或图表生成,作者应确保生成的内容与实际实验数据一致,而非仅凭 AI 的「illustrative」输出作为最终呈现。
五、对学术预印本生态的更广泛影响
一年封禁政策的推出反映了学术预印本平台在 LLM 时代面临的系统性挑战。2025 年 NeurIPS 接收论文中被发现超过 100 处幻觉引用,ICLR 2026 提交物中至少 50 处类似问题,这一数据表明引用幻觉并非个别作者的偶发失误,而是随着 LLM 写作辅助工具普及而规模化蔓延的质量风险。arXiv 作为全球最大的学术预印本托管平台之一,其治理决策具有显著的示范效应:如果一年封禁机制有效降低引用幻觉的发生率,其他预印本平台很可能跟进采用类似框架。
然而,社区中也存在对这一政策的审慎质疑声音。反对者认为 arXiv 的核心价值在于作为开放仓库而非受控发表平台,其优势恰恰在于无门槛的开放访问;引入主观性的 moderation 判断可能加速平台的质量分化,最终削弱开放学术生态的活力。Thomas G. Dietterich 本人在讨论中也承认了这一张力,指出 moderation 的目标是维护信号噪声比的可接受下限,而非追求全面正确性。这一表态在某种程度上为政策的适用范围划定了边界:它针对的是明显的非科学内容和无可辩驳的虚假引用,而非对论文技术路线的评判。
资料来源
- Thomas G. Dietterich(arXiv moderation)在 X(Twitter)平台发布的政策说明(2026 年 5 月 14 日),描述了一年封禁与双门槛处罚机制的核心逻辑。
- Digg AI 频道整理的社区讨论汇编,包含了引用幻觉与 LLM 元注释的典型案例示例。
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。