引用幻觉检测：从 NeurIPS 到 ACL 的学术验证技术演进

问题背景：当 LLM 开始 "编造" 参考文献

2025 年初，GPTZero 发布的一份分析报告在学术界引发震动：在对 NeurIPS 2025 接收的 4841 篇论文进行扫描后，他们发现至少 100 篇论文包含幻觉引用（HalluCitation）—— 即引用了并不存在的论文或包含错误元数据的参考文献。几乎同时，NAIST 的研究人员在 arXiv 上发表的 "HalluCitation Matters" 研究显示，ACL、NAACL 和 EMNLP 会议中近 300 篇论文存在类似问题。

这些发现揭示了一个严峻的技术现实：随着 LLM 辅助写作的普及，学术文献的引用质量正在面临系统性风险。与传统的人工笔误不同，LLM 生成的幻觉引用往往具有高度逼真性—— 正确的作者命名格式、合理的标题结构、看似正规的期刊名称 —— 这使得传统的审稿流程难以有效识别。

幻觉引用的技术特征

根据 "HalluCitation Matters" 研究的定义，幻觉引用可分为三类：

完全虚构型：引用的论文根本不存在，常见于作者使用 LLM 生成文献综述时未进行事实核查。例如，NeurIPS 2025 中被标记的一篇论文引用了 "Samuel LeCun Jackson" 关于深度学习的论文，该作者和论文均为虚构。

元数据错位型：引用的论文存在，但关键元数据（作者、年份、页码）错误。这类错误可能源于 LLM 训练数据的噪声，或作者从 Google Scholar 等二手数据库复制时未核对原始来源。

传播污染型：最为隐蔽的一类。当一篇包含幻觉引用的论文被发表后，后续研究者可能通过文献管理工具（如 Paperpile、Zotero）直接导入这些错误引用，导致虚假引用在学术网络中扩散。研究显示，Google Scholar 和 Semantic Scholar 等数据库中已存在大量错误的引用条目。

检测方法：从模糊匹配到人工验证

面对海量文献，"HalluCitation Matters" 团队设计了一套分层检测流程，其核心思路值得工程化借鉴。

第一层：OCR 提取与结构化解析

使用 MinerU 从 PDF 中提取参考文献条目，再通过 GROBID 解析为结构化数据（标题、作者、年份、DOI 等）。这一步骤的挑战在于处理多页参考文献和复杂的格式变体。

第二层：模糊匹配与候选生成

将提取的引用标题与 ACL Anthology 和 arXiv 数据库进行字符级模糊匹配，使用 RapidFuzz 库计算归一化 Levenshtein 距离。当相似度低于 0.9 阈值时，标记为候选幻觉引用。

关键洞察：当一篇论文包含 4 个及以上候选幻觉引用时，其实际包含幻觉的概率高达 75%。这一发现为自动化初筛提供了量化依据。

第三层：人工验证与多源交叉

对候选引用进行人工核查，结合原始 PDF 中的链接、DOI、arXiv ID 等信息，通过 Web 搜索验证论文存在性。若关键属性（标题、作者、 venue）中至少两项无法匹配可靠来源，则确认为幻觉引用。

工程化验证的技术难点

将上述方法转化为可部署的验证系统，需要解决三个核心工程问题。

阈值调优的精度 - 召回权衡

模糊匹配的 0.9 阈值是一个经验参数。阈值过高会导致漏检（false negative），过低则引入大量误报（false positive）。研究显示，2024 至 2025 年间，候选引用比例从 0.44% 上升至 0.69%，表明幻觉问题正在加剧，但这也可能包含方法噪声。生产系统需要引入动态阈值机制，根据领域和会议类型自适应调整。

多源数据库的一致性校验

研究发现，Google Scholar 和 Semantic Scholar 等二手数据库本身存在错误条目。例如，一篇关于安全探索的强化学习论文在 Semantic Scholar 中缺失第一作者信息，在 Google Scholar 中则关联了错误的 arXiv ID。验证系统必须实现多源交叉验证，优先使用 ACL Anthology、arXiv 等一手数据源，而非依赖聚合型数据库。

增量检测与版本追溯

学术文献持续更新，已发表论文可能通过 erratum 修正引用错误。验证系统需要支持版本管理，区分初稿、camera-ready 和修正版本，避免对已经修复的论文重复标记。

可落地的验证策略

基于现有研究，以下技术方案具备工程可行性：

预提交检查（Pre-submission Lint）

将引用验证集成到论文提交流程中，类似于代码提交前的 lint 检查。作者上传 BibTeX 文件后，系统自动标记无法验证的引用，要求作者提供 DOI 或原始 PDF 作为佐证。NeurIPS 2025 的审稿指南已要求审稿人标记幻觉引用，但将检查前置到提交阶段更为高效。

分层置信度标记

不采用二元判定（合法 / 非法），而是为每个引用分配置信度分数：

高置信度：匹配 DOI 且元数据完全一致
中置信度：标题匹配但部分元数据缺失
低置信度：无法找到对应论文或关键属性冲突

这种细粒度标记为审稿人提供了决策依据，同时避免了自动拒稿的刚性机制。

社区驱动的验证反馈

建立公开的引用纠错平台，允许读者标记可疑引用。类似于 PubPeer 的评论机制，但专注于引用准确性。这种众包模式可以补充自动化检测的盲区，特别是对于新发表或预印本论文。

局限与风险

当前检测方法存在明显局限。首先，人工验证成本高昂——HalluCitation 研究仅覆盖 6 个会议，已需数人月的核查工作量。扩展至整个计算机科学领域，需要自动化程度的显著提升。

其次，检测工具本身可能产生幻觉。GPTZero 的检测算法基于概率模型，存在误报风险。研究显示，某些 "幻觉引用" 实为作者使用占位符（如 "John Doe"）未替换所致，而非 LLM 生成。

最后，惩罚机制的设计困境。NeurIPS 2025 的组织方明确表示，单一引用错误不会导致论文被拒，因为 "论文内容本身未必无效"。如何在学术宽容与质量控制之间取得平衡，仍是开放问题。

结语

引用幻觉问题本质上是学术出版流程与 AI 辅助写作工具之间的不匹配。传统的同行评审假设作者已核实所有引用，但 LLM 的介入打破了这一假设。技术解决方案 —— 自动化验证、多源交叉检查、预提交 lint—— 可以显著降低幻觉引用的发生率，但最终的解决方案需要人机协作：工具负责初筛和标记，人类负责判断和修正。

对于工程团队而言，这一领域提供了清晰的技术切入点：构建引用验证 API、开发文献管理插件、设计审稿辅助工具。随着 AI 生成内容的普及，学术诚信基础设施的建设将成为一个重要的垂直赛道。

资料来源

Sakai et al., "HalluCitation Matters: Revealing the Impact of Hallucinated References with 300 Hallucinated Papers in ACL Conferences," arXiv:2601.18724, 2026.
GPTZero, "GPTZero finds 100 new hallucinations in NeurIPS 2025 accepted papers," gptzero.me/news/neurips/, 2025.
Hacker News Discussion on NeurIPS Hallucinations, news.ycombinator.com/item?id=46720395, 2025.

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。