2026 年 1 月 21 日,AI 检测公司 GPTZero 发布了一份引发学术界广泛关注的调查报告。该报告指出,在全球最具影响力的机器学习会议 NeurIPS 2025 已发表的论文中,存在至少 100 例经人工确认的幻觉引用(hallucinated citations),这些论文来自 Google、哈佛大学、Meta、剑桥大学等知名机构的研究团队,且均已通过会议的三至五名同行评审专家审核。这一发现揭示了生成式人工智能对学术出版生态系统的深层渗透,也将学术论文质量保障的工程化治理问题推至聚光灯下。
规模困境:论文激增与审查能力的剪刀差
理解这一事件需要首先把握其宏观背景。NeurIPS 会议在过去五年间经历了 submission tsunami—— 论文投稿的海啸式增长。官方数据显示,2020 年至 2025 年间,投稿数量从 9,467 篇飙升至 21,575 篇,增幅超过 220%。与此同时,NeurIPS 2025 的主轨道录取率仅为 24.52%,意味着每篇被录用的论文都经过了与另外约 15,000 篇落选论文的竞争筛选。
这种指数级增长带来的直接后果是审稿人团队的急剧扩张。然而,审稿人的招募速度远远跟不上论文增长的速度,导致审稿质量参差不齐、专家匹配度下降,甚至出现了审稿人使用 AI 工具替代人工阅读的消极应对现象。GPTZero 在报告中坦言,他们发布这份调查结果的目的并非指责 NeurIPS 的组织者或审稿人,而是揭示一个系统性的脆弱性:一个旨在保障学术严谨性的机制,正在被其从未设计应对的挑战所击穿。
GPTZero 的分析覆盖了 4,841 篇已录用的论文(占 NeurIPS 2025 总录用数 5,290 篇的 91.5%),发现了 100 例以上的幻觉引用,分布于 51 篇论文中。这些引用之所以能够通过层层审查,正是因为当前同行评审流程中存在一个关键缺口:审稿人通常不具备、也没有时间对每篇论文的所有引用进行溯源验证。
检测算法:Hallucination Check 的工程设计
GPTZero 用于发现这些幻觉引用的核心工具是 Hallucination Check,这是一套专门针对学术引用进行自动化验证的 AI 代理系统。从工程角度看,该系统的设计理念体现了准确性、透明性与谨慎性的三重平衡。
在准确性层面,Hallucination Check 的假阴性率(false negative rate)极低,能够捕获 99% 的存在问题的引用。其工作原理是扫描文档中的所有引用条目,通过搜索引擎和学术数据库尝试在线匹配每个引用的要素 —— 包括作者姓名、论文标题、出版机构、年份、DOI 或 URL 等。对于无法在任何在线资源中找到匹配的引用,系统将其标记为待人工复核的候选对象。
然而,这种设计也带来了较高的假阳性率。因为许多合法的引用确实无法在线找到来源,例如古文献、预印本未公开的引用、非英文文献或者仅以私人通信形式存在的引用。系统采取的策略是宁可多报也不漏报,将所有无法验证的引用呈现给人类专家进行最终判断。这种设计哲学与安全领域常见的「宁可误报不可漏报」原则一致,但在实际部署中需要配套完善的误报治理机制。
GPTZero 将「幻觉引用」定义为包含以下特征的引用:合并或改写自一个或多个真实来源的标题和作者;完全虚构作者、标题、URL、DOI 或发表容器(如期刊、会议名称);通过从名字首字母推断完整姓名、删除或添加作者、对标题进行意译等方式修改真实来源。这些标准刻意排除了明显的拼写错误、死链接、缺失的定位符等常规人类写作错误,因为这些错误在人工撰写的论文中也普遍存在,不应被归咎于 AI 生成。
幻觉模式分类:100 例引用的类型学分析
GPTZero 公开的详细表格揭示了幻觉引用的多种具体形态,为理解这一现象提供了第一手素材。从工程检测的角度,这些模式可以归纳为若干典型类型。
第一类是完全虚构型引用,即引用中的所有信息都是凭空捏造的。例如在一篇关于视觉 Transformer 的论文中,出现了「John Doe and Jane Smith. Webvoyager: Building an end-to-end web agent with large multimodal models. arXiv preprint arXiv:2401.00001, 2024」这样的引用。GPTZero 核实后发现,确实存在一个相似标题的 arXiv 论文,但作者名单和 arXiv 编号均与该引用不符。这属于典型的 AI 幻觉模式 —— 模型生成了一个看似合理但完全不存在的学术引用。
第二类是半虚构型引用,即引用的一部分要素是真实的,另一部分是捏造的。例如某论文中出现了「Mario Paolone, Trevor Gaunt, Xavier Guillaud 等. A benchmark model for power system stability controls. IEEE Transactions on Power Systems, 35 (5):3627-3635, 2020」这一引用。核实显示作者名单确实匹配一篇真实论文,但标题、期刊卷号、期号和页码均存在错误。这种模式说明 AI 在生成引用时可能「记住」了某些真实论文的片段信息,然后错误地组合了不匹配的其他信息。
第三类是来源嫁接型引用,即引用看起来像是真实存在的某篇论文,但所有作者都是虚构的。例如「Chuang Fan, Shipeng Liu, Seyed Motamed 等. Expectation maximization pseudo labels. arXiv preprint arXiv:2305.01747, 2023」这一引用。经查证,arXiv 编号对应的论文确实存在,但所有列出的作者都与实际作者不符。这表明 AI 可能在学习过程中「发明」了作者姓名,将其与真实存在的论文标题错误关联。
第四类是 DOI 或 URL 伪造型引用,即引用格式看似规范,但其中的数字对象标识符或网址链接指向不存在的资源。例如某论文引用了「https://ieeexplore.ieee.org/document/307123」这一 DOI,核实后发现该文档编号在 IEEE 数据库中并不存在。这类引用往往具有高度的欺骗性,因为普通读者不太可能逐一点击验证每个链接的有效性。
值得注意的是,GPTZero 的分析还发现了一个值得警惕的相关性:在存在幻觉引用的论文中,相当比例同时呈现出 AI 生成文本的特征(标记为「AI」或「AI*」)。标记「AI*」表示该论文很可能是人类与 AI 混合撰写的文本,而「AI**」则表明论文可能完全由 AI 生成。这暗示幻觉引用与 AI 辅助写作之间存在深层的关联机制。
误报治理:平衡灵敏度与精确率的工程挑战
任何检测系统都面临灵敏度(Sensitivity)与精确率(Precision)之间的权衡取舍。Hallucination Check 选择高灵敏度策略必然带来假阳性问题,而如何高效地治理这些误报,成为该工具能否规模化部署的关键。
GPTZero 采取的治理策略是分层处理。第一层是系统自动分类,根据引用的完整程度、格式规范性、来源可追溯性等因素进行初步风险评分。第二层是人工复核流程,由领域专家对系统标记的候选引用进行最终判定。第三层是透明化输出,系统不仅呈现标记结果,还提供其推理过程和匹配尝试的细节,使人类审核者能够理解系统为何对特定引用产生怀疑。
从误报治理的技术细节来看,系统需要建立一套精细的排除规则来处理合法但难以在线验证的引用场景。例如,针对预印本论文(arXiv 论文),系统需要特别处理那些已被撤回、重新编号或者尚未公开的版本引用。针对会议论文,系统需要考虑到不同年份、不同出版商、甚至同一会议不同 workshop 的论文可能采用不同的文献格式。针对非英语文献,系统需要具备识别罗马化姓名和翻译标题的能力。
GPTZero 在报告中提到的「vibe citing」(氛围引用)概念,为理解误报问题提供了新的视角。这个术语类比了「vibe coding」(氛围编程)和「vibe writing」(氛围写作),用来描述 AI 模型生成的引用 —— 它们在第一眼看起来似乎是准确的,但经不起仔细审视。这种引用具有高度的隐蔽性,因为它们往往与真实存在的某篇论文存在某种「模糊的相似性」,使得简单的字符串匹配难以区分,而需要更深入的语义理解。
在治理实践层面,误报问题还需要考虑时间维度的动态变化。一篇论文在投稿时无法在线验证的引用,可能在发表时已经可以通过开放获取仓库或作者个人主页获取。因此,同一检测系统在不同时间点对同一引用可能产生不同的判定结果。这种动态性要求系统建立更新机制,定期重新验证之前标记的引用,及时解除误报状态。
学术质量保障:多层次的工程化解决方案
GPTZero 的发现为学术会议和期刊的论文质量保障提供了重要的警示。从工程实现的角度,可以从以下几个层次构建更完善的治理体系。
在技术工具层面,会议和期刊应当将引用验证工具纳入标准化的投稿与审稿流程。具体而言,可以在论文提交系统(CMT 或类似平台)中集成 Hallucination Check 或同类工具,在审稿人分配论文之前自动扫描所有引用。对于系统标记为高风险的引用,可以要求作者提供原始文献或说明引用来源;对于审稿人,则可以在评审界面中显示引用验证结果作为辅助参考。这种前置检查机制能够在论文进入同行评审流程之前拦截大部分明显的问题引用。
在流程设计层面,可以考虑引入多阶段验证机制。第一阶段是形式审查,由自动化工具完成引用格式规范性和可追溯性检查。第二阶段是抽样深度审查,由人工专家对一定比例的论文进行引用溯源抽查。第三阶段是争议仲裁,对于作者与审稿人存在分歧的引用判定,建立专家委员会进行最终裁决。这种分层设计既控制了人力成本,又保证了审查的覆盖面和深度。
在制度规范层面,学术会议需要明确 AI 辅助写作和 AI 生成引用的边界规则。当前 NeurIPS 和 ICLR 等顶会虽然已明确禁止使用 AI 工具生成论文内容,但对 AI 辅助的边界定义仍然模糊。GPTZero 发现的案例表明,许多幻觉引用并非作者主观造假,而是 AI 辅助写作的意外产物。因此,制度规范需要在禁止与允许之间建立清晰的灰度空间,明确何种程度的 AI 辅助是合规的,何种情况下的引用错误将被视为学术不端。
在文化建设层面,学术界需要建立对引用验证的重视态度。当前许多审稿人将引用视为论文的「装饰性」元素而非核心内容,审稿报告中很少涉及对引用准确性的评价。GPTZero 的调查显示,100 例幻觉引用平均分布在来自不同机构、不同研究方向的论文中,说明这一问题具有普遍性。扭转这一局面需要从教育和激励两个维度入手:一方面在研究生培训中强调引用的学术伦理和规范要求;另一方面在审稿评价体系中增加对引用质量的显性权重,使审稿人有动力花时间验证引用的准确性。
技术演进:从检测到预防的范式转变
GPTZero 的 Hallucination Check 代表了当前 AI 辅助学术规范检测的最高水平,但更值得关注的是这一技术演进的方向。未来的学术出版生态需要的不只是事后检测工具,更是事前预防机制。
从技术路径看,预防机制的核心是建立引用生成的约束框架。当前 AI 模型生成幻觉引用的根本原因在于其训练目标 —— 预测下一个最可能的 token—— 与引用真实性的约束目标并不一致。解决这一问题需要在模型层面引入检索增强生成(RAG)或者知识图谱约束机制,使模型在生成引用时必须实时查询可验证的知识库,而非依赖训练语料中的记忆片段。
从系统集成看,未来的写作辅助工具(如 Overleaf、Grammarly 等)可以在用户输入引用时实时进行验证,在引用格式不完整或者无法匹配任何已知文献时即时警告用户。这种集成式的保护机制能够将引用验证从「事后检查」转变为「事中预防」,从源头上减少幻觉引用的产生。
从治理生态看,学术出版机构、学术社交平台(如 Google Scholar、Semantic Scholar)、AI 检测公司之间需要建立数据共享和协同治理机制。GPTZero 在发布 NeurIPS 调查后宣布正与 ICLR 团队协调审查未来投稿,这种跨机构的合作模式值得推广。通过建立统一的引用验证标准和黑名单数据库,可以形成对学术不端行为的系统性威慑。
结语:学术信任的技术重建
GPTZero 在 NeurIPS 2025 论文中发现的 100 例幻觉引用,揭示了生成式人工智能对学术生态系统的深层侵蚀。讽刺的是,这个发现本身就是 AI 帮助人类维护学术诚信的典型案例。然而,这一事件也提醒我们:AI 带来的问题,最终可能需要更多的 AI 来应对。
从工程实践的角度,Hallucination Check 的成功部署证明了自动化检测工具在学术质量保障中的可行性和必要性。但工具只是手段,真正的挑战在于建立一套涵盖技术、流程、制度、文化多个层次的综合治理体系。在这个体系中,自动化工具负责高效筛查,人类专家负责最终判断,制度规范负责明确边界,学术文化负责塑造共识。
最终,学术共同体的信任基础依赖于每一位研究者对真理的诚实追求。AI 可以成为放大这种诚实的工具,也可以成为掩盖欺骗的面纱。技术治理的目标不是将学术规范的成本转嫁给作者和审稿人,而是通过智能化手段降低合规成本、提升违规成本,让诚实成为学术竞争的理性选择。
资料来源:GPTZero 官方调查报告《GPTZero finds 100 new hallucinations in NeurIPS 2025 accepted papers》(2026 年 1 月 21 日)。