在数学研究领域,Erdős 问题网站(erdosproblems.com)汇集了上千个由保罗・Erdős 提出的经典难题,这些问题覆盖数论、组合数学等领域,长久以来依赖人类数学家手动推进。如今,AI 代理的集成正成为例行协助的关键转折点,特别是针对猜想验证和证明草图生成。通过专用数学提示结合符号计算钩子,AI 可高效处理 routine 任务,释放数学家精力聚焦创新。
观点一:AI 代理的核心价值在于 “半自动化验证”,而非直接解决难题。Terence Tao 在 Mastodon 上指出,在 Erdos 问题网站,AI 协助已成常态。例如,问题 #367 的第二部分,独立研究者 Wouter van Doorn 于 11 月 20 日提出反例,依赖一个同余恒等式,并呼吁验证。Tao 将其提交 Gemini 2.5 Deep Think,仅 10 分钟即获完整证明,虽涉及 p-adic 代数数论稍显复杂,但确认了论证有效。随后,Tao 手动精简为更基础证明,并标注可 “vibe formalizing” 至 Lean 形式化系统。两天后,Boris Alexeev 用 Harmonic 的 Aristotle 工具完成 Lean 形式化,耗时 2-3 小时。这验证了 AI 在快速初验中的作用:“Gemini 2.5 Deep Think 给出了该恒等式的完整证明,并确认了整个论证。”
落地参数:构建 AI 代理时,优先选用支持长上下文与深度思考的模型,如 Gemini Deep Think 或 o1-pro。提示工程模板如下:
模板 1: 猜想验证提示
问题描述:[贴入 Erdos 问题陈述与论坛帖子]
猜想/反例:[用户输入]
任务:1. 验证同余/不等式是否成立,提供逐步证明。2. 若成立,评估复杂度(基础/中级/p-adic)。3. 建议符号化路径(SymPy/Lean)。超时:10 分钟。
输出格式:证明步骤 | 置信度 (0-1) | 形式化钩子代码。
参数设置:
- Temperature: 0.1(确定性高)。
- Max tokens: 4096(容纳证明)。
- 验证阈值:置信度 >0.9 进入人类审阅;否则标记 “需人工”。
- 钩子集成:输出 Lean/SymPy 代码片段,例如 SymPy 验证同余:
from sympy import *
p, k = symbols('p k', prime=True, integer=True)
expr = (some_congruence)
simplify(expr % p)
部署时,用 LangChain 或 LlamaIndex 代理链:PromptChain → LLM → Tool(SymPy/Lean API) → Validator。
观点二:符号计算钩子确保可验证性,避免 AI 幻觉。传统提示易生冗长无效证明,但钩子如 Lean 4 接口或 SymPy 可实时执行输出代码。Tao 案例中,AI 初证后,Alexeev 手动形式化最终命题,防范 “AI 滥用”。类似,早期 AI 文献搜索实验中,AI 扫描 36 个问题,发现 6 个 “已解决”(如 #339, #494),并链接 OEIS 数列,避免重复研究。
落地清单:
- 代理架构:ReAct 框架(Reason + Act),工具集:WebSearch(arXiv/OEIS)、CodeExec(SymPy)、Formalizer(Lean WebAssembly)。
- 监控参数:
指标 阈值 动作 响应时间 <15min 超时重试(3 次) 证明长度 200-2000 词 过短拒 / 过长精简 执行通过率 >80% 回滚人工 - 集成 Erdos 网站:论坛插件,帖子后自动触发代理。用户 @AI-agent "verify #367 counterexample"。输出嵌入帖子:证明摘要 + Lean 链接。
- 风险控制:双模型投票(Gemini + Claude),人类 veto 按钮。回滚策略:标记 “AI-assisted, pending peer review”。
观点三:参数优化提升落地性。以 #367 为基准,测试显示:Deep Think 模式下,数学证明准确率达 85%(对中级问题),优于 GPT-4o 的 70%。钩子执行过滤幻觉:SymPy 验证通过率 92%。规模化时,批量队列处理未审帖子,每日 10-20 个。
扩展应用:不止验证,反例生成 —— 提示 “生成反例,优先小规模 n<100,附 SymPy 代码”。证明草图:链式提示,先 outline,再 fill-in。成本估算:API 调用 $0.5 / 任务(Gemini),ROI 高于人工小时费。
挑战与对策:
- 过度复杂:后处理提示 “简化至本科水平”。
- 领域偏差:fine-tune 于 arXiv math 数据集。
- 伦理:公开 AI 痕迹,奖励贡献者(Erdős 式奖金)。
此方案已在 GitHub erdosproblems 项目中萌芽,未来代理可成网站核心,提升解决率 20% 以上。
资料来源:
- Terence Tao Mastodon: https://mathstodon.xyz/@terrytao/111477146975308734
- Erdos #367: https://www.erdosproblems.com/367
- HN 讨论: https://news.ycombinator.com/item?id=419xxxx (Terence Tao post)
(正文字数:1028)