Hotdry.

Article

DeepSWE:构建无数据污染的长周期代码Agent评估基准

DeepSWE通过Release Notes驱动、跨版本演进任务设计,解决训练集泄漏导致的性能虚高问题,揭示当前代码Agent在长周期软件工程任务中的真实能力边界。

2026-05-27ai-systems

评估基准的 "虚假繁荣"

当前代码 Agent 领域存在一个被长期忽视的问题:主流评估基准如 SWE-Bench 正面临严重的数据污染风险。由于这些基准基于公开的 GitHub Issue 构建,而模型训练数据往往包含大量开源代码库,导致 Agent 在评估时可能 "见过" 类似问题,从而产生性能虚高。SWE-EVO 的研究显示,GPT-5.2 在 SWE-Bench Verified 上可达 72.80% 的通过率,但在更严格的长周期演进任务中骤降至 18.75%。这种性能落差揭示了现有评估体系的结构性缺陷 —— 它们更多测量的是模型的记忆能力,而非真实的软件工程推理能力。

DeepSWE(由 Datacurve 推出)正是针对这一痛点设计的无数据污染评估基准。其核心思路是:基于 Release Notes 而非公开 Issue 构建任务,要求 Agent 在跨版本演进场景下完成多文件协调修改,从而更真实地反映长周期软件工程能力。

核心设计:三层次防污染机制

DeepSWE 的设计围绕 "防污染" 和 "长周期" 两个核心维度展开,形成三层防护体系:

第一层:时间隔离。任务基于版本间的 Release Notes 构建,而非公开的 GitHub Issue。Release Notes 作为官方发布文档,通常不会以完整形式出现在训练数据中,天然降低了数据泄漏风险。

第二层:复杂度跃升。相比 SWE-Bench 的单 Issue 单 Patch 模式,DeepSWE 任务平均涉及 21 个文件的协调修改,测试套件平均包含 874 个测试用例。这种设计迫使 Agent 必须具备跨文件推理、依赖分析和长期规划能力。

第三层:动态验证。每个任务通过 FAIL_TO_PASS 和 PASS_TO_PASS 两类测试进行验证 —— 前者验证新功能正确实现,后者确保无回归缺陷。这种双重验证机制比单一通过率更能捕捉 Agent 的真实工程能力。

关键发现:能力鸿沟的量化

SWE-EVO(与 DeepSWE 设计哲学高度一致的基准)的实验结果揭示了几个关键洞察:

性能断崖现象。GPT-5.4 在 SWE-EVO 上仅解决 25% 任务,而在 SWE-Bench Verified 上可达 72.80%。这种近 3 倍的性能落差表明,当前 Agent 在长周期任务中存在系统性能力缺陷。

失败模式分化。强模型(如 GPT-5 系列)超过 60% 的失败源于 "指令遵循" 问题 —— 即无法正确理解 Release Notes 中的复杂需求;而弱模型则更多在工具使用和语法层面失败。这说明长周期任务的核心挑战在于语义推理,而非接口操作。

Fix Rate 的价值。传统 Resolved Rate(二元通过率)会丢失部分修复信息。SWE-EVO 引入的 Fix Rate 指标显示,GPT-4.1 和 GPT-OSS-120b 的 Resolved Rate 同为 2.08%,但 Fix Rate 分别为 4.65% 和 2.08%,揭示了前者在部分修复上的优势。

工程实践:如何应用 DeepSWE 思维

对于正在构建或评估代码 Agent 的团队,DeepSWE 的设计原则提供了可落地的参考框架:

评估任务设计清单

  • 优先选择跨版本演进场景,而非孤立 Issue 修复
  • 确保任务涉及多文件协调修改(建议≥10 个文件)
  • 构建包含回归测试的验证套件,防止 "破坏性修复"
  • 使用自然语言规范(如 Release Notes)而非结构化输入

指标体系建议

  • 同时追踪 Resolved Rate 和 Fix Rate,后者能捕捉 Agent 的部分进展
  • 引入难度分层(如按涉及 PR 数量分组),避免单一分数掩盖能力分布
  • 记录失败模式分布,指导 Agent 架构改进方向

防污染检查点

  • 评估前确认任务数据未出现在训练集时间窗口内
  • 对公开基准结果保持审慎,关注训练数据截止时间与基准发布时间的重叠
  • 考虑构建内部私有评估集作为补充

局限与展望

DeepSWE 和 SWE-EVO 当前存在明确局限:仅覆盖 Python 项目,48 个任务实例的统计效力有限,且 Release Notes 格式无法涵盖所有软件演进场景(如安全补丁、依赖升级等)。

但这些局限恰恰指明了方向:未来的代码 Agent 评估需要向多语言扩展、向更大规模数据集演进、向更细粒度的失败分析深入。只有建立在无污染、高难度基准上的评估结果,才能真正反映 Agent 在复杂软件工程场景中的实用价值。


资料来源

  • SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios (arXiv:2512.18470)
  • Together AI Blog: DeepSWE Research
  • Datacurve.ai Official Website

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com