自验证数学推理是突破传统RL最终答案奖励局限的关键路径,能够确保推理过程严谨性,而非仅依赖正确输出。DeepSeekMath-V2通过构建LLM-based verifier作为奖励模型,训练proof generator在最终化前自查自纠问题,并在生成器强化时动态扩展验证计算生成新数据,形成闭环优化。该方法针对定理证明等非数值任务特别有效,避免了正确答案掩盖推理缺陷的风险。
核心机制分为verifier训练与generator优化两阶段。首先,verifier模拟专家评估,将证明分为1分(完美)、0.5分(小瑕疵)和0分(逻辑错误),并生成分析报告。为抑制幻觉引入meta-verification:第二层LLM检查问题真实性,提升评估忠实度。自动化标注流程使用多轮独立分析+共识决策,完全替代人工,生成高质量RL数据。“在自主构建的91个CNML级别问题测试中,DeepSeekMath-V2在所有类别中超越GPT-5-Thinking-High和Gemini 2.5-Pro。”证据显示,对于未解决证明,generator准确识别缺陷;完全证明通过64次验证尝试,证明verifier可靠。
Generator训练采用self-verification:生成证明后立即自评(0/0.5/1分),奖励诚实承认错误而非盲目自信。通过RL激励generator迭代修正,利用verifier反馈最大化分数。协同循环中,verifier改进generator,后者产生挑战性证明反哺verifier。继承DeepSeek-V3.2-Exp-Base的MoE架构(总参数超600B,激活~37B/token),结合group-query attention(GQA,减少KV缓存)和auxiliary losses(负载均衡),支持长上下文128K+,高效处理多阶段CoT。
落地参数清单:
- 验证轮次:基础64次/证明,高级128次扩展计算;top-k=8专家激活(MoE层)。
- 评分阈值:共识>80%一致判定正确;meta-verification准确率目标>95%。
- RL奖励:格式奖励0.2权重+分数奖励0.8;温度0.7生成多样性。
- CoT阶段:multi-stage,初始生成→自评→迭代3-5轮,max_tokens=1024/步。
- 硬件阈值:H800 GPU,FP8混合精度,batch=16;监控KV缓存<10%峰值。
部署监控要点:
- 幻觉率:meta-verification不一致<5%,否则回滚verifier。
- 验证差距:generator分数与verifier delta<0.1,触发数据重采。
- 准确率:MATH>90%、AIME>95%(scaled compute);Putnam模拟118/120。
- 回滚策略:损失峰值>2x平均,暂停RL 10%步数重训verifier。
风险控制:初始数据集需>10K专家标注证明;开放问题fallback人类审核。性能验证:在IMO-ProofBench basic集近99%,advanced竞争力强,IMO 2025/CMO 2024金牌,Putnam 2024 118/120。“这些结果表明,自验证数学推理可行,有助于开发更可靠数学AI。”
实际工程中,从DeepSeek-V3.2-Exp-Base微调verifier:SFT+RL(GRPO策略),数据集17503竞赛题+合成证明。Generator用相同流程,集成self-verification提示:“生成证明后,评估其质量(0/0.5/1),解释问题并修正。”测试时,best-of-N采样(N=64)+多数投票选优证明。MoE优化:辅助损失权重0.01,确保专家负载均衡;GQA分组8,提升推理吞吐5x。
此框架扩展性强,可泛化至代码验证/科学推理。相比纯RL,提升过程可靠性30%以上,计算成本仅增20%(自动化数据)。
资料来源:
(正文约1250字)