Hotdry.

Article

ChatGPT 5.5 Pro 的数学研究能力实测:从指数级到多项式级的边界突破

通过菲尔兹奖得主蒂姆·高尔斯的第一手测试报告,分析 ChatGPT 5.5 Pro 在加性组合数论中的研究能力边界与创新贡献。

2026-05-09ai-systems

当我们谈论大语言模型的数学能力时,往往会陷入两个极端:要么认为它们只是在重复已知结果,要么对它们解决实际问题的能力感到惊讶。剑桥大学数学家、菲尔兹奖得主蒂姆・高尔斯(Tim Gowers)近日发布的一份详细报告,为我们提供了一个极为难得的客观视角。他的结论可能会改变我们对人工智能辅助数学研究的整体认知。

研究背景与方法

高尔斯选择测试的对象是 ChatGPT 5.5 Pro,这是 OpenAI 最新的模型版本。他选择的测试问题来自梅尔・纳森森(Mel Nathanson)发表在 arXiv 上的论文《Diversity, Equity and Inclusion for Problems in Additive Number Theory》。这些问题的核心在于研究集合的 h 重和集的大小上界 —— 这是一个在加性组合数论中既基础又深刻的未完全解决问题。

具体而言,高尔斯询问的是:给定一个包含 k 个元素的整数集合 A,其 h 重和集 hA(即所有 h 个元素之和的集合)能够取得的最小直径 N (h,k) 应该有多大?这个问题的难度在于,我们需要构造一个集合 A,使其 h 重和集达到特定大小,同时整个集合 A 本身分布在一个尽可能小的区间内。

在此之前,纳森森给出了一个指数级的上界。而麻省理工学院的本科生艾萨克・拉贾戈帕尔(Isaac Rajagopal)已经在其论文中给出了 R (h,k) 的完整描述。当高尔斯让 ChatGPT 尝试改进这些上界时模型展现出的能力远远超出了预期。

二次数情况:第一次突破

在 h=2 的情况下,纳森森证明对于每个 t∈[2k-1, C (k+1,2)],都存在一个 A⊆{0,1,2,...,2^k-1},使得 |A|=k 且 |A+A|=t。他问的核心问题是:这个指数级的上界 2^k-1 是否能够改进?

ChatGPT 5.5 Pro 经过 17 分 5 秒的深度思考后,给出了一个二次型的上界。这已经是指数级改进的极限,因为下界本身就是二次型的。这不仅仅是找到了答案 —— 更重要的是,模型采用了一种更高效的 Sidon 集构造方式。模型写出的论证虽然风格上带有一些 “车轱辘话” 的典型 LLM 特征,但核心数学思路是正确的。高尔斯请求模型将论证重写为标准的数学预印本格式,模型在 2 分 23 秒后完成了这项工作。

核心突破:h² 离散集的关键创意

真正令高尔斯感到震惊的是接下来的进展。当他询问模型是否能够将一般 h 的上界从指数级改进为多项式级时,模型首先给出了一个从指数级改进到指数为 k^α(其中 α>1/2)的结果,这被他评价为对拉贾戈帕尔工作的 “常规修改”。

然而,当高尔斯进一步 “得寸进尺” 地要求模型尝试多项式级上界时,真正的惊喜出现了。经过总计约一小时的 “思考” 后,模型不仅提出了一个看似合理的论证,还真的找到了一个关键的技术创意。高尔斯将这个结果发送给拉贾戈帕尔进行验证,这位年轻的数学家回复说:“这看起来几乎可以确定是正确的。” 更重要的是,拉贾戈帕尔强调这不仅是在行文层面的正确,而是在思想层面上的正确。

这个关键创意究竟是什么?模型提出了使用 h² 离散集(h²-dissociated sets)来控制阶数不超过 h 的加性关系。在此之前,拉贾戈帕尔的构造依赖于几何级数 S={0,1,m,m^2,...,m^ℓ-2},但这种方法产生的元素是指数级大的。ChatGPT 意识到,如果能够使用有限域中的 Singer(1938)和 Bose-Chowla(1963)构造方法,构建一个 h² 离散集 U,就能得到一个只具有多项式大小元素但保持类似求和性质的集合。

最终构造的集合 G 和 H 只需要 O (k^{10h³}) 的直径就已经足够了,相比之前的指数级上界,这是一个质的飞跃。拉贾戈帕尔本人对这个创意的评价极高:“这是一个完全原创的想法。它的那种精巧程度会让我花上一两周时间思考后才想出来并证明出来,而 ChatGPT 不到一个小时就找到了。”

能力边界的重新评估

高尔斯在报告中给出了一个极为重要的定性评价:他认为 ChatGPT 在不到两小时内找到的这个结果,其水平相当于 “一位 combinatorics(组合学)博士论文中相当不错的一章”。这一定性判断值得我们深入思考。

首先,这并不意味着该结果是 “平凡的”。高尔斯指出,一位博士生要获得这个结果,需要投入大量时间消化拉贾戈帕尔的论文、寻找可能的优化点、熟悉其中使用的各种代数技术。而 ChatGPT 在几乎没有人类数学输入的情况下完成了这项工作。

其次,这揭示了当前 LLM 在数学研究中的真正能力边界。它们不仅仅能够解决那些已经存在于文献中的问题或者可以被轻易推导出的问题,而是能够在一个已经建立的理论框架内找到真正的改进空间,并提出原创性的技术创意。

当然,这种能力目前还有其局限性。高尔斯提到,他的 “数学输入是零”—— 也就是说,他并没有给予模型任何实质性的数学提示。模型的表现虽然令人印象深刻,但仍然依赖于已有的人类数学工作(特别是拉贾戈帕尔的框架)。对于真正的 “从零开始” 发现全新定理,当前的 LLM 可能还有相当的距离。

对数学研究生态的深层影响

这份报告最发人深省的部分,可能不是技术细节,而是高尔斯对数学研究未来的思考。他指出,训练入门级博士生的方式可能需要重新调整了 —— 过去一种常见的引导方式就是给出一个 “相对温和” 的问题,如果 LLM 已经能够解决这类问题,那么这条路就不再生效。

数学研究的门槛正在发生变化。高尔斯认为,未来的贡献标准将是证明 LLM 无法独立证明的定理,而不仅仅是证明一个此前未被证明的问题。他也提到,组合学领域尤其容易受到影响,因为这个领域的问题导向性很强,LLM 擅长在明确目标的引导下进行推理。而在那些更强调 “正向推理”—— 从一系列想法出发、逐步探索其可能的发展方向 —— 的数学领域,LLM 的表现如何还有待观察。

更重要的是,高尔斯提出了一个深刻的问题:如果一位数学家通过与 LLM 的长时间对话来解决一个难题,其中数学家起到了有用的引导作用,但所有技术工作和主要思路都由 LLM 完成,这将如何被评价?他的答案是:“我不认为我们会认为这是数学家的重大成就。”

参数化的能力边界与可复现要素

从工程实践的角度看,高斯的报告为我们提供了几个可量化的参考指标。ChatGPT 5.5 Pro 在这类数学研究任务上的表现,呈现出以下特征:模型能够持续 “思考” 的时间尺度在数十分钟到一小时这个量级;能够处理涉及指数级与多项式级上界这样复杂的优化问题;能够主动使用有限域、离散数学等专业工具构建新的数学对象;最终产出的结果能够通过专业数学家的验证。

然而,这种能力目前对提示方式有一定的依赖性。高斯明确指出他的 “数学输入是零”,这说明在足够简单的初始提示下,模型能够自主完成从问题理解到技术方案再到结果验证的完整链条。但对于更加开放或者完全未曾有人探索过的数学领域,模型的表现仍有待进一步测试。

无论如何,这份来自菲尔兹奖得主的实测报告,已经为大语言模型的数学能力研究树立了一个重要的基准。ChatGPT 5.5 Pro 证明自己不仅仅是解决标准数学问题的工具,而是一个能够在已有数学框架内进行有意义原创贡献的研究 “伙伴”—— 这一事实本身,就值得我们重新审视人工智能与人类数学家之间的关系。

资料来源:本文主要参考蒂姆・高尔斯发布于其个人博客的报告《A recent experience with ChatGPT 5.5 Pro》(2026 年 5 月 8 日),以及艾萨克・拉贾戈帕尔对该工作的客座评价。

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com