数学界对AI渗透的警示：当形式验证遇上可重复性危机

数学界正在经历一场静默而深刻的焦虑。当 Science 杂志报道数学家们集体发出警告时，这个以严谨著称的领域正面临一个根本性问题：AI 生成的数学证明正在以难以验证的方式涌入学术体系，而传统的同行评审机制对此几乎束手无策。

这场焦虑的核心并非技术本身，而是验证权的转移。长期以来，数学证明的权威性建立在人类专家的逐行审查之上 —— 一位审稿人需要耗费数周甚至数月时间，跟随作者的思路穿越复杂的逻辑迷宫。然而，当 AI 能够在几分钟内生成看似严密的证明文本时，这种基于人类认知带宽的验证模式开始显露其局限性。

可验证性危机的实质

约翰霍普金斯大学数学家 Emily Riehl 指出了一个关键问题：大型语言模型生成的证明文本 "可能听起来正确、看起来正确、使用了正确的术语"，但 "其设计机制中没有任何东西能够保证它是正确的"。这是因为 LLM 基于概率生成响应，而非追求逻辑必然性。在数学领域，99% 的正确率意味着 100% 的不可信 —— 一个关键步骤的幻觉足以摧毁整个论证链条。

这种特性与数学的本质形成了尖锐冲突。帝国理工学院的 Kevin Buzzard 教授在 2017 年经历了一次 "数学中年危机"：他在审阅一篇论文时，经过与作者的长时间交流，仍然无法确定论证是否严谨。这促使他投身于 Lean 定理证明器的学习与推广，试图用机器验证替代人工审查的不确定性。

然而，形式验证本身也面临元层次的风险。Buzzard 警告说，即使 Lean 报告 AI 生成的代码是准确的，"它可能实际上并不代表数学家认为自己正在证明的那个定理"。验证工具只能检查形式正确性，无法判断形式化目标本身是否与数学家的意图一致。

人机协作的边界争议

Rutgers 大学的 Patrick Shafto 预测，五年内每位年轻数学家都将使用 AI。DARPA 在 2025 年初启动了名为 "指数级数学"(expMath) 的项目，旨在通过 AI 加速数学发现，将证明的细节构建工作卸载给机器。这种愿景描绘了一个数学家的角色从 "证明构造者" 转变为 "探索方向引导者" 的未来。

但南加州大学的 Aravind Asok 教授提出了根本性的质疑。他发现研究生们越来越多地使用 AI 生成作业答案，因此不再布置课后作业 ——"他们需要挣扎并以某种方式参与其中，才能真正建立自己的直觉"。Asok 的担忧触及了一个深层矛盾：如果学生通过 AI 绕过思维挣扎的过程，未来的数学家可能缺乏发现真正新前沿所需的创造力。

这种担忧超越了教学方法论，触及数学研究的本质。Asok 指出，错误在数学史上扮演了重要角色 —— 许多突破恰恰源于对先前错误的修正。如果 AI 驱动的证明追求 "一次性正确"，这种通过试错学习的机制可能被削弱。

形式验证的经济学转变

Martin Kleppmann 在 2025 年底的观察提供了一个工程化视角。他指出，传统形式验证的成本极其高昂：以 seL4 微内核为例，8700 行 C 代码的证明需要 20 人年和 20 万行 Isabelle 代码 —— 相当于每行实现代码需要 23 行证明和半个人日的工作量。

然而，LLM 正在改变这一经济算式。AI 不仅能够生成实现代码，还能在各种证明语言（Rocq、Isabelle、Lean、F*、Agda）中编写证明脚本。虽然仍需要专家指导，但完全自动化的路径已经清晰可见。Kleppmann 认为，当形式验证成本大幅下降时，"预期的 bug 成本低于验证成本" 的传统权衡将被打破。

更重要的是，AI 创造了一种对形式验证的需求。与其让人类审查 AI 生成的代码，不如让 AI 证明其生成的代码满足规约。证明检查器作为一小段经过验证的代码，能够拒绝任何无效证明，迫使 AI 代理重试 —— 这种机制天然抵消了 LLM 的概率性和不精确性。

可落地的人机协作参数

面对这场变革，数学界需要建立新的操作框架：

验证分层策略：将 AI 生成证明分为 "草稿验证" 和 "形式验证" 两个阶段。草稿阶段允许快速迭代，形式阶段使用 Lean 等工具进行机器检查。这种分层既保留了探索效率，又确保了最终输出的可靠性。

人机职责边界定义：明确划分机器与人类的分工 ——AI 负责 "填充细节" 和 "模式识别"，人类负责 "定义问题" 和 "验证意图"。正如 Kleppmann 所言，挑战将从 "编写证明" 转移到 "正确定义规约"。

学术伦理披露标准：建立 AI 辅助证明的披露规范，要求作者明确标注 AI 参与的程度和方式。这不仅关乎学术诚信，也为审稿人提供评估证明可靠性的必要上下文。

教育适应性调整：在研究生培养中重新平衡 "效率工具使用" 与 "基础能力训练" 的比重。Asok 的困境提示我们，完全禁止 AI 使用可能不现实，但完全依赖 AI 将削弱数学直觉的形成。

结论

数学界对 AI 渗透的警示，本质上是一场关于知识权威来源的辩论。当机器能够生成形式正确的证明时，人类数学家需要重新定义自己的价值 —— 不是作为计算的执行者，而是作为意义的诠释者和方向的把控者。

形式验证成本的下降为解决可重复性危机提供了技术路径，但它无法自动解决 "验证什么" 和 "为何验证" 的问题。人机协作的边界不是固定的技术参数，而是需要在实践中不断协商的社会契约。数学界正在书写的，不仅是一套新的验证标准，更是一种与智能机器共存的学术文化。

参考来源

Science News: "Math long resisted a digital disruption. AI is poised to change that" (2026-04)
Martin Kleppmann: "AI will make formal verification go mainstream" (2025-12)

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。