AI 在 Lean4 中形式化 Erdős 问题 #124 证明：提示工程与验证管道实践

AI 系统在 Lean4 中形式化生成并验证 Erdős 问题 #124 的证明，标志着自动化定理证明（ATP）进入新阶段。该问题由 Burr、Erdős、Graham 和 Li 提出：给定整数序列 (3 \leq d_1 < d_2 < \cdots < d_k) 满足 (\sum_{i=1}^k \frac {1}{d_i - 1} \geq 1)，是否存在足够大的整数皆可表示为 (\sum c_i a_i)，其中 (c_i \in {0,1})，(a_i) 在基 (d_i) 下仅含 0 和 1 数字？Pomerance 证明该条件必要性，原作证明了 ({3,4,7}) 情况成立。

DeepMind 等团队已将该猜想形式化为 Lean4 代码（github.com/google-deepmind/formal-conjectures），Hacker News 热议 “AI just proved Erdos Problem #124”。本文聚焦单一技术点：提示工程驱动的 Lean4 验证管道，结合 Erdos #707 先例（GPT-5 生成 6000 行代码，含 26 定义、169 引理、4 定理，验证 <30s），提供可落地参数与清单。

观点：提示工程是 ATP 核心，迭代反馈优于零样本

传统 ATP 如 LeanDojo 依赖监督数据，而提示工程通过 “vibe coding”（人类 - AI 交互）生成复杂证明。Erdos #124 形式化需分解为：(1) 翻译自然语言为 Lean 语句；(2) 导入 mathlib；(3) tactic 搜索证明路径。证据：DeepMind repo 显示 Lean 代码精确捕捉 sum 条件与表示形式；类似 #707，GPT-5 经一周迭代（人类反馈修正 hallucination）输出可编译证明。

优势：减少数据依赖，适应新问题。DeepSeek-Prover 等模型在 MiniF2F 达 70%+ 成功率，证明迭代提示有效。

证据：Lean4 管道实证

Lean4 编译器提供精确反馈（类型错误、未闭合目标），远超 LLM 内在不确定性。#707 案例：26 定义 + 169 引理，笔记本验证 <30s。#124 形式化类似，利用 Mathlib.Combinatorics 等库。

关键步骤：

语句形式化：Prompt “将以下猜想翻译为 Lean4 theorem，使用 Mathlib： [问题描述]”。输出如：

theorem erdos_124 (d : ℕ → ℕ) (hd : ∀ i, 3 ≤ d i) (hsum : ∑ i in Finset.range k, 1 / (d i - 1) ≥ 1) : ∃ N, ∀ n ≥ N, ∃ c : Fin k → Bool, n = ∑ i, if c i then a_i else 0 ∧ ∀ i, a_i.digits (d i).toNat ⊆ ({0,1}) ...

迭代 3-5 次修正类型。

证明生成：Prompt “使用 tactic 模式证明上述 theorem，优先 rw、simp、ring 等”。分 lemma 构建：先证必要性，再充分大 N。
验证：lake verify 检查，超时阈值 60s / 文件。

实证：#707 证明通过普通 PC 验证，零错误。

可落地参数与清单

提示模板清单（复制即用）：

分解提示： “Step 1: 定义 Sidon-like 结构。Step 2: 证明 sum 条件蕴涵表示。使用 exact、simp。”
反馈循环： “上步错误：[Lean 报错]。修正 tactic。”
搜索提示： “探索 5 条路径，使用 aesop 或 eblast，预算 2048 tokens。”

管道参数：

参数	值	理由
Max iterations	10	防循环，#707 用 7 次收敛
Timeout/step	30s	平衡速度，笔记本友好
Lemma granularity	5-20 / 证明	易生成，mathlib 重用率高
Model	GPT-5 / DeepSeek-Prover	数学专用，pass@1 >70%
Retry on fail	3x	随机性补偿

监控点：

编译率：目标 >95%，低于 80% 换 prompt。
Proof length：<5000 行，超长拆分。
Coverage：mathlib 依赖 <50%，防黑箱。

部署清单：

安装 Lean4 + lake。
VSCode + Lean4 extension。
Git clone DeepMind repo，lake build。
脚本：while ! lake verify; do gpt-prompt-fix; done。
回滚：手动 lemma，若 3 迭代失败，转人类。

风险：(1) Hallucinated lemma，限：Lean 即验；(2) 搜索爆炸，限：预算 2048×2×600 tactics。回滚：fallback 到 LeanDojo SFT 模型。

此管道适用于任意 Erdos 问题，扩展至 PFR 等。未来，Lean-GPT 插件将无缝集成。

资料来源：

erdosproblems.com/124
HN: news.ycombinator.com/item?id=419... (AI proved #124)
DeepMind: github.com/google-deepmind/formal-conjectures/124.lean
#707 论文: borisalexeev.com/pdf/erdos707.pdf（类似实践）