DeepSWE：构建无数据污染的长周期代码Agent评估基准

评估基准的 "虚假繁荣"

当前代码 Agent 领域存在一个被长期忽视的问题：主流评估基准如 SWE-Bench 正面临严重的数据污染风险。由于这些基准基于公开的 GitHub Issue 构建，而模型训练数据往往包含大量开源代码库，导致 Agent 在评估时可能 "见过" 类似问题，从而产生性能虚高。SWE-EVO 的研究显示，GPT-5.2 在 SWE-Bench Verified 上可达 72.80% 的通过率，但在更严格的长周期演进任务中骤降至 18.75%。这种性能落差揭示了现有评估体系的结构性缺陷 —— 它们更多测量的是模型的记忆能力，而非真实的软件工程推理能力。

DeepSWE（由 Datacurve 推出）正是针对这一痛点设计的无数据污染评估基准。其核心思路是：基于 Release Notes 而非公开 Issue 构建任务，要求 Agent 在跨版本演进场景下完成多文件协调修改，从而更真实地反映长周期软件工程能力。

核心设计：三层次防污染机制

DeepSWE 的设计围绕 "防污染" 和 "长周期" 两个核心维度展开，形成三层防护体系：

第一层：时间隔离。任务基于版本间的 Release Notes 构建，而非公开的 GitHub Issue。Release Notes 作为官方发布文档，通常不会以完整形式出现在训练数据中，天然降低了数据泄漏风险。

第二层：复杂度跃升。相比 SWE-Bench 的单 Issue 单 Patch 模式，DeepSWE 任务平均涉及 21 个文件的协调修改，测试套件平均包含 874 个测试用例。这种设计迫使 Agent 必须具备跨文件推理、依赖分析和长期规划能力。

第三层：动态验证。每个任务通过 FAIL_TO_PASS 和 PASS_TO_PASS 两类测试进行验证 —— 前者验证新功能正确实现，后者确保无回归缺陷。这种双重验证机制比单一通过率更能捕捉 Agent 的真实工程能力。

关键发现：能力鸿沟的量化

SWE-EVO（与 DeepSWE 设计哲学高度一致的基准）的实验结果揭示了几个关键洞察：

性能断崖现象。GPT-5.4 在 SWE-EVO 上仅解决 25% 任务，而在 SWE-Bench Verified 上可达 72.80%。这种近 3 倍的性能落差表明，当前 Agent 在长周期任务中存在系统性能力缺陷。

失败模式分化。强模型（如 GPT-5 系列）超过 60% 的失败源于 "指令遵循" 问题 —— 即无法正确理解 Release Notes 中的复杂需求；而弱模型则更多在工具使用和语法层面失败。这说明长周期任务的核心挑战在于语义推理，而非接口操作。

Fix Rate 的价值。传统 Resolved Rate（二元通过率）会丢失部分修复信息。SWE-EVO 引入的 Fix Rate 指标显示，GPT-4.1 和 GPT-OSS-120b 的 Resolved Rate 同为 2.08%，但 Fix Rate 分别为 4.65% 和 2.08%，揭示了前者在部分修复上的优势。

工程实践：如何应用 DeepSWE 思维

对于正在构建或评估代码 Agent 的团队，DeepSWE 的设计原则提供了可落地的参考框架：

评估任务设计清单：

优先选择跨版本演进场景，而非孤立 Issue 修复
确保任务涉及多文件协调修改（建议≥10 个文件）
构建包含回归测试的验证套件，防止 "破坏性修复"
使用自然语言规范（如 Release Notes）而非结构化输入

指标体系建议：

同时追踪 Resolved Rate 和 Fix Rate，后者能捕捉 Agent 的部分进展
引入难度分层（如按涉及 PR 数量分组），避免单一分数掩盖能力分布
记录失败模式分布，指导 Agent 架构改进方向

防污染检查点：

评估前确认任务数据未出现在训练集时间窗口内
对公开基准结果保持审慎，关注训练数据截止时间与基准发布时间的重叠
考虑构建内部私有评估集作为补充

局限与展望

DeepSWE 和 SWE-EVO 当前存在明确局限：仅覆盖 Python 项目，48 个任务实例的统计效力有限，且 Release Notes 格式无法涵盖所有软件演进场景（如安全补丁、依赖升级等）。

但这些局限恰恰指明了方向：未来的代码 Agent 评估需要向多语言扩展、向更大规模数据集演进、向更细粒度的失败分析深入。只有建立在无污染、高难度基准上的评估结果，才能真正反映 Agent 在复杂软件工程场景中的实用价值。

资料来源：

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios (arXiv:2512.18470)
Together AI Blog: DeepSWE Research
Datacurve.ai Official Website

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。