DeepSeekMath-V2 自验证数学推理管道：验证器训练与生成器奖励工程化参数

DeepSeekMath-V2 引入自验证数学推理管道，针对传统 RL 仅奖励最终答案的缺陷，转向过程监督：生成自然语言证明，经 LLM 验证器三级评分（1 分完全正确、0.5 分逻辑对但 minor 错误 / 遗漏、0 分根本错误），并通过生成器 - 验证器飞轮迭代优化。该框架基于 DeepSeek-V3.2-Exp-Base，685B 参数规模，开源于 Hugging Face。

验证器训练从冷启动入手：爬取 AoPS 17,503 道奥赛题（IMO/CMO 等证明题优先），DeepSeek-V3.2-Exp-Thinking 生成多轮候选证明，专家随机抽样标注初始 Dv 数据集。RL 目标：max E [R_format + R_score]，R_format 检查输出格式（如 “Here is my evaluation...” + boxed {score}），阈值 >0.9；R_score 以 MSE 度量预测分与专家分接近，MSE <0.1。早期痛点：验证器幻觉 “编造漏洞” 骗奖励，引入元验证器 π_η：专家标注 1k 验证输出，形成 Dmv，训练检查问题真实性（Imv 标准），将分析质量从 0.85 升至 0.96，一致率不变。

生成器训练以验证器为奖励模型，基础 RL：max E_{Y~π_θ}[R_Y]，R_Y = 验证分。自验证增强：输出证明 Y + 自分析 Z（模仿验证提示），奖励 R=α R_Y + β R_meta (Z)，实证最优 α=0.76（证明质量主导）、β=0.24（自评准确），鼓励诚实自省而非高估。生成器学会识别自身漏洞，如分类讨论遗漏或辅助构造不严谨，并在 Z 中预测 s'，偏差 >0.2 扣罚。

协同飞轮核心：规模化验证计算自动化标注。流程：对新证明生成 n=64 独立验证；低分（0/0.5）样本再 m=64 元验证，多数投票确认有效分析，取最低有效分作标签；疑难 <90% 一致转专家。后两轮训练全自动，专家抽检>96% 一致。测试部署：单轮 Pass@8（8 样本投票），迭代 16 轮 Best@32（32 线程最优），Putnam 提升 15%。

落地工程清单：

冷启动数据：10k+ 竞赛证明题，生成 5 候选 / 题，专家标注 5-10%（成本 <1k USD），覆盖代数 / 几何 / 数论均衡。
验证器上线阈值：格式准确率 >95%，分数预测相关系数 r>0.9；元验证质量 >0.95，幻觉率 <5%。
生成器超参：RL 学习率 1e-6，KL 散度系数 0.01；自验证权重 α=0.76±0.05，β 互补；batch 512，epoch 3。
规模化标注：n/m=64，并行 GPU 集群（A100 x 128）；超时阈值 10^5 token / 证明，疑难阈值 90% 一致。
推理参数：初始采样 64，高算搜索 16 迭代；超时 1h / 题，自评分 <0.8 重试 2x。
监控 & 回滚：日志 Pass@1 >70%、Best@64 >90%；一致性掉 <92% 暂停迭代，回滚至人工 20% 标注。

风险与优化：计算密集（训练～万 GPUh），建议 MoE 稀疏推理减 50% 延迟；IMO 最难题挑战大，未来融合 Lean 形式化验证。部署示例：API 输入问题 → 并行生成 → 验证过滤 → 迭代 → 输出最高分证明 + 自分析。

实证：在 CNML 单轮，DeepSeekMath-V2 平均证明分超 GPT-5-Thinking-High/Gemini 2.5-Pro；在 Putnam 2024 118/120（人类 max 90），“验证器可靠评估难验证证明”。

[1] 该模型在 IMO-ProofBench 基础集超 DeepMind DeepThink 金牌级。[博客园解读]

参数复现门槛低，适用于数学教育 / 科研验证，推动 LLM 可靠推理。

资料来源： [1] https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf [2] https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

（正文字数：912）