Hotdry.
ai-systems

DeepSeekMath-V2:通过多阶段验证生成实现自验证数学推理

基于DeepSeek-V3.2-Exp-Base的多模型MoE架构,工程化verifier-generator闭环与meta-verification,提升IMO金牌级定理证明,提供落地参数与监控要点。

自验证数学推理是突破传统 RL 最终答案奖励局限的关键路径,能够确保推理过程严谨性,而非仅依赖正确输出。DeepSeekMath-V2 通过构建 LLM-based verifier 作为奖励模型,训练 proof generator 在最终化前自查自纠问题,并在生成器强化时动态扩展验证计算生成新数据,形成闭环优化。该方法针对定理证明等非数值任务特别有效,避免了正确答案掩盖推理缺陷的风险。

核心机制分为 verifier 训练与 generator 优化两阶段。首先,verifier 模拟专家评估,将证明分为 1 分(完美)、0.5 分(小瑕疵)和 0 分(逻辑错误),并生成分析报告。为抑制幻觉引入 meta-verification:第二层 LLM 检查问题真实性,提升评估忠实度。自动化标注流程使用多轮独立分析 + 共识决策,完全替代人工,生成高质量 RL 数据。“在自主构建的 91 个 CNML 级别问题测试中,DeepSeekMath-V2 在所有类别中超越 GPT-5-Thinking-High 和 Gemini 2.5-Pro。” 证据显示,对于未解决证明,generator 准确识别缺陷;完全证明通过 64 次验证尝试,证明 verifier 可靠。

Generator 训练采用 self-verification:生成证明后立即自评(0/0.5/1 分),奖励诚实承认错误而非盲目自信。通过 RL 激励 generator 迭代修正,利用 verifier 反馈最大化分数。协同循环中,verifier 改进 generator,后者产生挑战性证明反哺 verifier。继承 DeepSeek-V3.2-Exp-Base 的 MoE 架构(总参数超 600B,激活~37B/token),结合 group-query attention(GQA,减少 KV 缓存)和 auxiliary losses(负载均衡),支持长上下文 128K+,高效处理多阶段 CoT。

落地参数清单:

  • 验证轮次:基础 64 次 / 证明,高级 128 次扩展计算;top-k=8 专家激活(MoE 层)。
  • 评分阈值:共识 > 80% 一致判定正确;meta-verification 准确率目标 > 95%。
  • RL 奖励:格式奖励 0.2 权重 + 分数奖励 0.8;温度 0.7 生成多样性。
  • CoT 阶段:multi-stage,初始生成→自评→迭代 3-5 轮,max_tokens=1024 / 步。
  • 硬件阈值:H800 GPU,FP8 混合精度,batch=16;监控 KV 缓存 < 10% 峰值。 部署监控要点:
  • 幻觉率:meta-verification 不一致 < 5%,否则回滚 verifier。
  • 验证差距:generator 分数与 verifier delta<0.1,触发数据重采。
  • 准确率:MATH>90%、AIME>95%(scaled compute);Putnam 模拟 118/120。
  • 回滚策略:损失峰值 > 2x 平均,暂停 RL 10% 步数重训 verifier。 风险控制:初始数据集需 > 10K 专家标注证明;开放问题 fallback 人类审核。性能验证:在 IMO-ProofBench basic 集近 99%,advanced 竞争力强,IMO 2025/CMO 2024 金牌,Putnam 2024 118/120。“这些结果表明,自验证数学推理可行,有助于开发更可靠数学 AI。”

实际工程中,从 DeepSeek-V3.2-Exp-Base 微调 verifier:SFT+RL(GRPO 策略),数据集 17503 竞赛题 + 合成证明。Generator 用相同流程,集成 self-verification 提示:“生成证明后,评估其质量(0/0.5/1),解释问题并修正。” 测试时,best-of-N 采样(N=64)+ 多数投票选优证明。MoE 优化:辅助损失权重 0.01,确保专家负载均衡;GQA 分组 8,提升推理吞吐 5x。

此框架扩展性强,可泛化至代码验证 / 科学推理。相比纯 RL,提升过程可靠性 30% 以上,计算成本仅增 20%(自动化数据)。

资料来源:

(正文约 1250 字)

查看归档