DeepSeekMath-V2 通过自验证数学推理管道,突破了传统最终答案奖励的局限,转向过程监督的证明验证。这种管道的核心在于生成器与验证器的协同优化:生成器输出自然语言证明,验证器按三级标准(1=完全正确、0.5=次要错误、0=根本错误)评分,并通过元验证机制过滤幻觉标注,确保反馈可靠。
验证器的训练从冷启动数据开始:采集 AoPS 平台 17,503 道竞赛题,使用 DeepSeek-V3.2-Exp-Thinking 生成候选证明,经专家标注形成初始数据集。强化学习目标函数结合格式奖励(R_format,确保输出“Here is my evaluation...” + boxed 分数)和分数奖励(R_score,预测分与标注分接近度)。早期验证器易产生虚假问题标注,引入元验证器:专家标注 1k 份验证输出,训练 π_η 检查问题真实性与评分合理性,将验证分析质量从 0.85 提升至 0.96。
生成器的 RL 训练以验证器为奖励模型,目标 max E[R_Y],其中 R_Y 为验证分数。自验证增强要求生成器输出证明 Y 后附加自分析 Z(模仿验证标准),奖励扩展为 R = α R_Y + β R_meta(Z),实证 α=0.76、β=0.24,确保生成器诚实自省而非盲目自信。这种设计鼓励模型主动识别漏洞,如逻辑跳跃或假设遗漏,并在迭代中修正。
协同循环是管道的关键飞轮:生成器强化后产生“难验证证明”,通过规模化验证计算自动标注。新证明生成 n 份独立验证分析,对低分(0/0.5)样本再生成 m 份元验证,若多数一致则采最低有效分作为标签;疑难转人工,但后两轮训练完全自动化,专家一致性 >96%。落地参数:n=64、m=64,16 轮迭代无漏洞视为解决;测试时 Best@32(32 线程最优)提升 Pass@1 达 15%。
工程化部署清单:
- 数据准备:优先 IMO/CMO/Putnam 级证明题,生成 10k+ 候选证明,专家抽样 5% 标注(三级分)。
- 验证器阈值:格式奖励阈值 >0.9,分数预测 MSE <0.1;元验证质量 >0.95 方上线。
- 生成器奖励权重:α=0.76(证明分主导)、β=0.24(自评准确);自评分偏差 >0.2 触发回滚。
- 规模化验证:并行 64 生成 + 64 验证/元验证;超时 16 迭代,预算控制在 10^5 token/题。
- 监控指标:迭代中 Pass@1 >70%、Best@64 >90%;幻觉率 <5%(元验证过滤)。
- 回滚策略:若验证一致性 <90%,降级至人工标注 20% 样本;推理时若自评分 <0.8,强制多线程重试。
风险控制:高计算开销(训练需数万 GPU 时),建议 MoE 架构下稀疏激活;最难 IMO 题仍存挑战,结合外部形式化工具如 Lean 混合验证。实际部署中,集成到推理服务:输入数学问题 → 64 初始采样 → 验证过滤 → 迭代精修 → 输出最高验证分证明。
性能证据印证管道有效性:在 CNML 级单轮生成,DeepSeekMath-V2 跨代数/几何/数论等超 GPT-5-Thinking-High 与 Gemini 2.5-Pro;在 Putnam 2024,118/120 分超人类 90 分,“生成器能可靠区分高质量证明并系统改进”。[1]
此管道参数可直接复现于 DeepSeek-V3 基座,适用于教育/科研场景,推动 LLM 向可靠数学 AI 演进。
资料来源:
[1] DeepSeekMath-V2 技术报告:https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
[2] 模型仓库:https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
(正文字数:1028)