从 46.8% 到 72.2%：Devstral 2 的代理微调与测试集过滤工程

背景：公开资料中 Devstral2507 系列最高 61.6%，但社区已出现 72% 级别的非官方分数。本文基于 Mistral 与 All Hands AI 在 2025-12 技术分享中的口述细节，还原一条可复现的「46.8% → 72%」工程路径，供团队自建代码代理时参考。

1. 数据：先把测试集 “毒” 降到最低

SWE-Bench Verified 的 500 题是人工二次校验过的 “干净” 子集，但 Devstral 2 仍做了三层过滤，把潜在泄漏率从 1.8% 压到 0.3% 以内：

仓库级去重
- 用 MinHash + Jaccard 阈值 0.85 对训练语料与 500 题所在仓库做整库比对，命中即整库丢弃。
文件级模糊匹配
- 对保留仓库内的 .py 文件，做 token 级 3-gram 重叠检测，重叠率 > 70% 的文件直接剔除。
补丁级精确屏蔽
- 把 500 题对应的 commit diff 做成「 Golden Patch 指纹」，任何训练样本 diff 与该指纹编辑距离 < 5 行即抛弃。

过滤后训练集减少 12%，但验证集分数提升 2.3 pp，证明 “少即是多”。

Devstral 2 仍基于 Mistral-Small-3.1-24B，但做了三处关键改动：

All Hands AI 为 Devstral 2 重写了 OpenHands 的 CodeActAgent，把工具调用做成中间表示（IR）：

Devstral 2 内部不再只看最终分数，而是把 500 题拆成三阶段：

阶段	题量	用途	通过率门槛
A	100	在线调试，实时改 prompt	≥ 60%
B	100	选最佳超参（温度、top-p、max iter）	≥ 70%
C	300	仅跑一次，决定发布	≥ 72%

只有阶段 C 的 300 题分数对外公开，确保「看不见」的题占比 60%，降低信息泄漏。

如果你要在私有代码库复刻类似系统，可直接拿以下配置：

Devstral 2 的 72% 级别分数并非 “炼大模型” 炼出来，而是用更干净的数据、更精确的强化信号、更严格的脚手架堆出来的。对于想在内部构建代码代理的团队，与其盲目加参数，不如先把数据去污染、奖励函数和工具 IR 这三板斧做到极致 ——24 B 也能打出 72 B 的效果。

资料来源 [1] Mistral AI 与 All Hands AI 2025-12 技术分享直播 [2] SWE-Bench Verified 官方说明（https://swe-bench.github.io） [3] Devstral2507 模型卡（HuggingFace, 2025-07）