非数学家借助 LLM 形式化 Erdős 问题与证明生成的工程化流水线

2026 年 4 月，一个令数学界瞩目的消息从 Erdős 问题网站传出：23 岁的业余数学爱好者 Liam Price 仅凭一次 ChatGPT 提示，便成功解决了一个困扰数学界长达 60 年的 Erdős 猜想。这一事件不仅刷新了人们对 AI 数学能力的认知，更展示了一条从问题形式化、策略搜索到证明生成的完整工程化流水线。与此前专注于「验证已证明结果」的角度不同，本文聚焦于这一 pipeline 的核心工程环节，探讨非数学家如何借助大语言模型实现数学发现的突破。

问题背景与形式化挑战

此次被解决的问题是 Erdős 编号第 1196 号猜想，涉及素数理论中的「原始集」（primitive set）概念。原始集是指一组正整数，其中任意两个不同的数之间不存在整除关系。Erdős 为此定义了一个名为「Erdős 和」的计分函数，用于衡量原始集的「密集程度」。他证明了这个分数存在一个上界约 1.6，并猜想这一上界在所有素数的集合中达到。进一步地，Erdős 猜测当集合中的数趋向无穷大时，这个分数的最小值恰好为 1，这一猜想在此后六十年间难倒了众多杰出数学家。

对于非数学专业人士而言，理解并形式化这类问题本身就是第一道门槛。传统上，解决此类开放问题需要深厚的数论背景、丰富的文献阅读经验以及对前沿研究动态的敏锐把握。然而，Price 的方法展示了另一种可能：他并未深入研究该问题的历史脉络，而是在一个闲置的周日下午，随机将 Erdős 问题网站上的开放问题输入 ChatGPT，尝试看看 AI 能给出什么结果。这种「试探式」的问题形式化方式，依赖于 AI 具备将自然语言描述转换为形式化数学命题的能力。

提示工程与策略搜索

在 Price 的工作流程中，提示工程起到了关键作用。他仅向 GPT-5.4 Pro 发送了一个关于原始集的简单问题描述，未提供任何额外背景或提示。根据 Scientific American 的报道，Price 本人并不了解这个问题的历史地位和研究价值，他的目标纯粹是测试 AI 的能力边界。这种看似随意的操作方式，实际上体现了一种工程化思维：将问题以最原始的形式提交给模型，观察其输出能否产生有价值的数学洞察。

AI 在收到提示后，生成了一套完整的证明框架。值得注意的是，生成的原始证明文本质量较差，需要专业人士进行筛选和理解。正如斯坦福大学的数学家 Jared Lichtman 所描述的那样，「ChatGPT 证明的原始输出实际上相当糟糕，需要专家进行筛选并理解其真实意图。」这揭示了当前 AI 辅助数学发现的第二个关键工程环节：输出后处理与专家介入。尽管 AI 能够提供正确的结论和方向性的证明思路，但证明的严谨性和完整性仍需经过专业数学家的检验和润色。

证明生成与新方法的诞生

AI 生成的证明之所以引起数学界的极大关注，不仅因为它给出了正确答案，更因为它采用了一种此前无人想到的全新方法。洛杉矶加州大学的著名数学家 Terence Tao 评价道：「此前研究这个问题的人都有一个标准的起始步骤序列，而大语言模型走了一条完全不同的路，使用了一个在相关数学领域广为人知但从未有人想到应用于此类问题的公式。」

具体而言，AI 使用了「向下马尔可夫链」方法，引入 von Mangoldt 函数作为权重，构建了一套概率论框架。该方法的核心思想是将原始集问题重新诠释为概率论中的不变测度问题：通过构建一个从任意数 n 向下走到其约数 n/q（其中 q≥2）的 canonical 链，并以 von Mangoldt 函数 Λ(q) 作为转移权重，将问题转化为分析这个马尔可夫链的遍历性质。由于所有满足不可整除条件的集合都对应着该链的某个不变测度，分析测度的性质即可得到原始集分数的全局上界。

这一方法的创新之处在于，它将组合数学问题转换为分析 / 概率问题，避开了传统数论方法中常见的算术复杂性困难。关键的代数恒等式 ∑_{q|n} Λ(q) = log n 在这一框架中扮演了核心角色，使得原本棘手的除数图问题得以被简洁地处理。Tao 指出：「我们发现了一种思考大数及其结构的新方式，这是一个不错的成果，但我认为其长期意义仍有待观察。」

专家验证与流程闭环

从工程角度审视，整个流水线的最后一个关键环节是专家验证与闭环。Price 将 AI 生成的证明发送给了他在剑桥大学数学系读二年级的合作伙伴 Kevin Barreto，两人此前曾发起过「用 AI 解决随机 Erdős 问题」的合作实验。Barreto 意识到他们可能得到了特别的东西，随即联系了领域内的专家。Terence Tao 和 Jared Lichtman 很快介入，对证明进行了审查、验证和精简。

专家的角色在此流程中不可替代。Lichtman 成功将 AI 的原始证明压缩为一个更加精炼的版本，使其核心洞察更加清晰。这一过程类似于软件工程中的代码重构：将 AI 生成的「原型」打磨为可维护、可复用的「生产级」成果。更重要的是，专家的参与确保了证明的正确性和可发表性 ——AI 可能给出正确答案，但其推理过程可能存在漏洞或不够严格，必须经过专业数学家的检验。

这一验证环节也体现了当前 AI 辅助数学发现的现实状态：AI 可以提供强大的灵感来源和方向性指导，但人的专业知识仍然是确保数学严谨性的最后防线。正如 Tao 所言：「这个问题可能比人们预期的要简单，但似乎存在某种心理障碍。」AI 的价值恰恰在于突破这种由人类思维惯性形成的障碍，提供全新的视角和路径。

工程化参数与可复现要素

从这一案例中，可以提炼出若干可工程化的参数和实践要点。首先，问题形式化阶段应保持最小化输入原则 —— 仅提供问题的自然语言描述，不添加额外背景或提示，让模型自行推理所需的背景知识。其次，提示策略可以采用随机抽样式的大规模试探方法：非专家无需精挑细选问题，而是批量将开放问题提交给 AI，借助模型的搜索能力覆盖更大的解空间。第三，输出筛选需要建立有效的反馈机制：AI 生成的证明需要经过专家或有经验的合作者进行快速评估，判断其方向是否正确、证明是否完备。第四，专家介入的时机和深度需要根据任务复杂度动态调整 —— 对于相对简单或 AI 熟悉的领域，可能无需专家介入；对于高难度的开放问题，则必须引入领域专家进行验证和精简。

此外，这一案例也展示了跨角色协作的价值。Price 负责问题提交和初步筛选，Barreto 负责判断结果的重要性和传播渠道，Tao 和 Lichtman 负责验证和理论提升。这种分布式协作模式有效弥补了个人在数学专业知识和工程实现两方面的不足，形成了「非专家发起、AI 生成、专家验证」的高效流水线。

监控指标与质量保障

在实际工程部署中，可以引入若干可量化的监控指标来保障流水线的可靠性。输出正确性是最直接的指标，可通过与已知答案或形式化证明助手（如 Lean、Coq）的自动验证进行对比。输出可读性则需要专家评分，评估 AI 生成的证明是否清晰、逻辑是否连贯。新颖性指标用于衡量 AI 方案是否突破了传统方法的思维定式，可通过与历史文献的对比来量化。时间效率指标记录从问题提交到获得有用输出的完整周期，用于优化提示策略和后处理流程。

对于 AI 生成的数学证明，还应建立版本管理和可追溯机制。每一版证明都应保存完整的提示上下文、AI 输出、专家修改意见以及验证状态，形成完整的审计链条。这不仅有助于后续的学术发表和同行评审，也为改进流水线提供了宝贵的训练数据。

局限性反思

尽管这一案例令人振奋，但必须清醒认识到其局限性。Erdős 问题库包含超过一千个未解决的问题，难度和重要性差异悬殊。许多被 AI 解决的问题在数学界的重要性相对有限，可能只是巧合一类的问题。AI 当前的强项在于在巨大的解空间中进行搜索和模式匹配，这对于某些类型的数学问题有效，但对于需要深层概念突破的猜想，其能力仍有待检验。此外，AI 生成证明的可解释性仍然不足 —— 即使专家能够帮助验证和精简，也往往需要从 AI 的原始输出中反向推理出其核心思想，这种「知其然而不知其所以然」的状态对于数学理解而言是一个隐患。

小结

Liam Price 借助 ChatGPT 解决 Erdős 问题 #1196 的案例，为 AI 辅助数学发现提供了一条可参考的工程化流水线：最小化问题形式化、随机化策略搜索、专家驱动的输出验证与精简。这条流水线展示了非数学专业人士借助 AI 突破数学难题的可能性，同时也揭示了当前技术的边界和需要改进的方向。随着大语言模型在数学推理能力上的持续进化，这一工程范式有望在更多学科领域得到推广和应用。

资料来源：本文核心事实来源于 Scientific American 2026 年 4 月 24 日报道《Amateur armed with ChatGPT 'vibe-maths' a 60-year-old problem》以及 Rényi 研究所 2026 年 1 月 23 日新闻《Erdős problems solved with ChatGPT》。

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。