拆解 Mistral Devstral 2 的 SWE-Bench 微调配方：数据构造、强化学习奖励与推理时 patch 验证流水线

1. 配方总览：三段式递进

Mistral 在官方博客与访谈中把 Devstral 2 的 SWE-Bench 训练流程拆成三步：

下面逐段给出可复现参数与踩坑点，并估算继续放大到 72.2% 所需阈值。

维度	公开值	建议放大值	备注
源仓库数	128（SWE-Smith 集合）	600+	优先选近 18 个月、单元测试覆盖 >70% 的 Python 仓库，降低数据污染风险
特征描述长度	平均 35 token	60–80 token	用 Claude 3.5 生成「用户故事」式描述，逼代理做跨文件修改
成功造 bug 率	41%（FeatAdd）	≥50%	若低于 45%，把代理从 4-shot 提到 8-shot，并给「运行测试」工具加 30s 超时重试
轨迹过滤	只留测试失败样本	再加「补丁 >2 文件且含新增文件」过滤	得到多文件、多模块耦合的 Hard 样本，SWE-Bench Verified 的 Frontier 子集对此类样本最敏感

经验：把「有意造 bug」Prompt 改成「实现新功能」Prompt 后，bug 分布更接近真实 commit，训练效率提升 2%（Microsoft BugPilot 结果）。

Mistral 沿用 rLLM 框架，把奖励稀疏问题拆成两步：

估算：若把 FeatAdd 数据从 3k 扩到 12k，并按上表调参，RL 阶段可再提 6–7 个百分点。

Devstral 2 在推理阶段用「最短路径」策略：并行跑 3 条轨迹，选 patch 最短且通过测试者。该策略可把 67.4% pass@3 压缩成 54.6% pass@1（FrogBoss 结果）。继续放大到 72.2% 需再提升两项指标：

patch 语法通过率：从 92% → ≥98%
- 在 sandbox 里预跑「git apply --check + ast.parse」即可提前过滤语法错误，减少无谓测试耗时。
测试通过率方差：把 3 条轨迹的标准差从 5.4% 压到 ≤3%
- 给每条轨迹加 2 次重试（温度 0.3），若仍失败再标记为无效；可把低质量轨迹占比降到 1% 以下。

按贝叶斯估计，若 pass@3 能到 82%，则 pass@1 即可稳在 72% 以上。

阶段	数据量	卡时（H100）	关键瓶颈
FeatAdd 造 bug	12k 样本	2k	需要 600 仓库的容器镜像，存储 1.8 TB
SFT（BaseMix + FeatAdd）	9k 轨迹	800	32k 上下文下显存占用 640 GB，需 8×H100
RL 微调	25 step×128×12	4k	每步 reward 评估 2–10 min，用 Ray 分布式可把 CPU 开销降 70%
推理验证	500 题 ×3×2 重试	200	主要瓶颈是 Docker 冷启动，用 warm pool 可压到 5s / 题

总成本 ≈ 7k H100 小时，按 2 USD / 小时算约 1.4 万美元，相当于把 Devstral 2 的分数再抬 25 个百分点，单位成本 560 USD/1%，低于业内平均 1k USD/1%。

下一步，Mistral 透露将发布 Devstral-Large（约 70B），同步开源 20k 轨迹的「FeatAdd-Plus」数据集。若按本文配方继续放大，72.2% 的 SWE-Bench Verified 成绩将在 2026 Q1 前进入开源榜单第一梯队。

Mistral AI 官方博客：Devstral 发布帖（2025-05-22）
Microsoft Research：《BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills》arXiv:2510.19898v1（2025-10-22）
作者对 rLLM、SWE-Bench Verified 子集与奖励设计的独立实测笔记（2025-12）