DeepSeekMath-V2 引入自验证数学推理管道,针对传统 RL 仅奖励最终答案的缺陷,转向过程监督:生成自然语言证明,经 LLM 验证器三级评分(1 分完全正确、0.5 分逻辑对但 minor 错误/遗漏、0 分根本错误),并通过生成器-验证器飞轮迭代优化。该框架基于 DeepSeek-V3.2-Exp-Base,685B 参数规模,开源于 Hugging Face。
验证器训练从冷启动入手:爬取 AoPS 17,503 道奥赛题(IMO/CMO 等证明题优先),DeepSeek-V3.2-Exp-Thinking 生成多轮候选证明,专家随机抽样标注初始 Dv 数据集。RL 目标:max E[R_format + R_score],R_format 检查输出格式(如“Here is my evaluation...” + boxed{score}),阈值 >0.9;R_score 以 MSE 度量预测分与专家分接近,MSE <0.1。早期痛点:验证器幻觉“编造漏洞”骗奖励,引入元验证器 π_η:专家标注 1k 验证输出,形成 Dmv,训练检查问题真实性(Imv 标准),将分析质量从 0.85 升至 0.96,一致率不变。
生成器训练以验证器为奖励模型,基础 RL:max E_{Y~π_θ}[R_Y],R_Y=验证分。自验证增强:输出证明 Y + 自分析 Z(模仿验证提示),奖励 R=α R_Y + β R_meta(Z),实证最优 α=0.76(证明质量主导)、β=0.24(自评准确),鼓励诚实自省而非高估。生成器学会识别自身漏洞,如分类讨论遗漏或辅助构造不严谨,并在 Z 中预测 s',偏差 >0.2 扣罚。
协同飞轮核心:规模化验证计算自动化标注。流程:对新证明生成 n=64 独立验证;低分(0/0.5)样本再 m=64 元验证,多数投票确认有效分析,取最低有效分作标签;疑难 <90% 一致转专家。后两轮训练全自动,专家抽检 >96% 一致。测试部署:单轮 Pass@8(8 样本投票),迭代 16 轮 Best@32(32 线程最优),Putnam 提升 15%。
落地工程清单:
- 冷启动数据:10k+ 竞赛证明题,生成 5 候选/题,专家标注 5-10%(成本 <1k USD),覆盖代数/几何/数论均衡。
- 验证器上线阈值:格式准确率 >95%,分数预测相关系数 r>0.9;元验证质量 >0.95,幻觉率 <5%。
- 生成器超参:RL 学习率 1e-6,KL 散度系数 0.01;自验证权重 α=0.76±0.05,β 互补;batch 512,epoch 3。
- 规模化标注:n/m=64,并行 GPU 集群(A100 x 128);超时阈值 10^5 token/证明,疑难阈值 90% 一致。
- 推理参数:初始采样 64,高算搜索 16 迭代;超时 1h/题,自评分 <0.8 重试 2x。
- 监控&回滚:日志 Pass@1 >70%、Best@64 >90%;一致性掉 <92% 暂停迭代,回滚至人工 20% 标注。
风险与优化:计算密集(训练 ~万 GPUh),建议 MoE 稀疏推理减 50% 延迟;IMO 最难题挑战大,未来融合 Lean 形式化验证。部署示例:API 输入问题 → 并行生成 → 验证过滤 → 迭代 → 输出最高分证明 + 自分析。
实证:在 CNML 单轮,DeepSeekMath-V2 平均证明分超 GPT-5-Thinking-High/Gemini 2.5-Pro;在 Putnam 2024 118/120(人类 max 90),“验证器可靠评估难验证证明”。
[1] 该模型在 IMO-ProofBench 基础集超 DeepMind DeepThink 金牌级。[博客园解读]
参数复现门槛低,适用于数学教育/科研验证,推动 LLM 可靠推理。
资料来源:
[1] https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
[2] https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
(正文字数:912)