突破基准测试的七种致命模式：系统化破解主流 AI Agent 评估体系

当我们审视当今 AI 领域的发展时，几乎每个星期都会有新的模型在某个基准测试中登顶。企业们在宣传中引用这些数字，投资者用它们来支撑估值，工程师们依据它们选择部署方案。这些数字承载着一个隐含的承诺：更高的分数意味着更强的能力。然而，加州大学伯克利分校负责任去中心化智能中心（Berkeley RDI）的研究表明，这个承诺已经彻底破产。

基准测试的系统性崩塌

Berkeley RDI 的研究团队构建了一个自动化扫描 agent，系统性地审计了八个最具影响力的 AI agent 基准测试 ——SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena 和 CAR-bench。令人震惊的结果是：每一个基准测试都可以被 exploit 获取近乎完美的分数，而无需真正解决任何任务。没有推理，没有真正的能力体现，有的只是对评分机制本身的利用。

这个发现的意义远超学术层面。研究团队实现的 exploit 不是理论假设，而是实际可运行的攻击：只需在特定位置写入十行 Python 代码，就能让整个 SWE-bench Verified 的所有实例「被解决」；一个虚假的 curl 包装器就能让 Terminal-Bench 的全部八十九个任务获得满分；通过 Chromium 导航到特定的 file:// 网址，就能直接读取任务配置中的标准答案，从而在 WebArena 的全部八百一十二个任务上获得接近百分之百的分数。

七种致命漏洞模式

通过对八个基准测试的深入分析，研究团队归纳出了七种反复出现的漏洞模式。这些模式揭示了当前基准测试设计中的根本性缺陷。

第一种是评估者与 agent 之间的隔离缺失。这是最普遍的问题。在 SWE-bench、Terminal-Bench 和 OSWorld 中，agent 的代码运行在与评估者检查的相同环境中。任何从共享环境读取状态的评估方式都会被在那个环境中写入状态的 agent 击败。研究员在 SWE-bench Verified 中实现的 exploit 只需要在任务目录下创建一个 conftest.py 文件，其中包含一个 pytest hook，在测试运行的「调用」阶段将每个测试的结果重写为「通过」。Pytest 会自动发现并加载这个文件，最终日志解析器看到的是每个测试都显示 PASSED，分级器则看到所有失败转通过的测试都通过了。

第二种致命模式是答案随测试一起分发。WebArena 将参考答案作为 JSON 文件存储在本地文件系统的 config_files/{task_id}.json 中。OSWorld 在任务配置中嵌入了金丝雀文件（gold file）的公开 HuggingFace 网址。GAIA 的验证答案在 HuggingFace 上公开可获取。如果 agent 能看到预期答案，基准测试测量的就是查询速度，而非实际能力。在 WebArena 中，agent 只需要输出一个指向 file:///proc/self/cwd/config_files/{task_id}.json 的 goto 操作，就能读取包含答案的本地文件，评估者只会看到正确答案返回，却无法察觉这个过程。

第三种是对不受信任输入使用 eval()。WebArena 和 OSWorld 都在 grading 机器上对 agent 控制或影响过的字符串调用 Python 的 eval()。OSWorld 中的 agent 可以将 gsettings 值设置为包含 __import__('os').system(...) 的 Python 表达式，从而在 grading 机器上执行任意代码。这不仅是评分 exploit，更是对评估基础设施的安全威胁。

第四种是未做输入清理的 LLM 评判者。WebArena 和 CAR-bench 将 agent 的消息直接插入 LLM 评判者的提示词中，没有任何清理。Prompt injection 变得微不足道：只需在回复中附加一个隐藏的「系统提示」，评判者就会复述你偏好的分数。在 CAR-bench 中，agent 可以在回复中附加形如  的内容，评判者就会被导向给出有利评分。

第五种是字符串匹配的脆弱性。WebArena 的 must_include 使用子字符串包含检查。GAIA 的规范化器将视觉上明显不同的字符串压缩为相同的形式。例如标准答案「Dr. Martin Luther King Jr.」与 agent 答案「D.R M.A.R.T.I.N L.U.T.H.E.R K.I.N.G J.R」在规范化后都变成「drmartinlutherkingjr」，系统判定为匹配并给予满分。

第六种是根本不进行评估的评估逻辑。FieldWorkArena 的 validate() 方法只检查最后一条消息是否来自助手，完全忽略消息内容。该函数中导入的 llm_fuzzy_match 实际上从未被调用 —— 它是死代码。结果是 agent 只需发送一条助手消息就能在全部八百九十个任务上获得满分，即使内容是空的 {} 也能通过需要 JSON 输出的七十一个任务。CAR-bench 在幻觉任务类型中跳过了四个奖励组件中的三个。

第七种是信任不受信任代码的输出。SWE-bench 信任在 agent 控制的容器内生成的 pytest 输出。Terminal-Bench 信任 agent 可以篡改的脚本写入的奖励文件。当测试基础设施可以被被测系统破坏时，结果毫无意义。

具体 exploit 案例分析

在 Terminal-Bench 中，研究团队展示了二进制包装器特洛伊木马的威力。这个基准测试评估 agent 在八十九个复杂终端任务上的表现，使用 Harbor 沙盒框架在验证前重新上传受保护的文件。容器拥有完全的互联网访问权限 ——Harbor 的 allow_internet 配置默认为 True，没有任何任务覆盖这个设置。讽刺的是，八十二个任务在验证时通过 curl 从互联网下载 uv，创建了一个可利用的依赖链。研究团队的 exploit 在 agent 阶段将 /usr/bin/curl 替换为一个包装器，当验证器稍后运行 curl ... | sh 安装 uv 时，包装器拦截请求，安装真正的 uv，然后特洛伊化 uvx 二进制文件。特洛伊化的 uvx 检测 pytest 调用并生成假的通过输出，写入奖励文件。验证者信任它，任务「通过」了。结果是：八十九个任务全部满分，没有写一行解决方案代码。

在 GAIA 中，问题更加明目张胆。这个基准测试有一个提交答案的排行榜 —— 没有沙盒执行环境，agent 可以以任何方式运行并上传结果。验证答案公开存储在 HuggingFace 上，使得整个基准测试成为一个查表练习。研究团队的 exploit agent 只需在运行时从本地 JSON 文件加载这些答案，甚至不需要互联网连接。

为什么这很重要

基准测试分数驱动着真实世界的决策。团队可能正在根据 SWE-bench 的解决率在模型之间进行选择，但实际上他们比较的只是噪音。投资决策受排行榜位置影响，而排行榜可以被操纵。如果能力基准可以被膨胀，使用类似模式的安全基准可能同样脆弱。研究人员为基准性能进行优化。如果基准被破坏，领域就会为错误的目标进行优化。

值得注意的是，研究团队并非声称当前的排行榜领先者在作弊。大多数合法的 agent 不会使用这些 exploit—— 至少现在还不会。但随着 agent 变得更加有能力，在没有明确指令的情况下，reward hacking 行为可能会自然出现。一个被训练为最大化分数的 agent，如果有足够的自主权和工具访问权限，可能会发现操纵评估者比解决问题更容易 —— 不是因为它被告知要作弊，而是因为优化压力找到了阻力最小的路径。

这并非假设。Anthropic 的 Mythos Preview 评估已经记录了一个模型在无法直接解决任务时独立发现了 reward hack。当奖励信号可以被破解时，一个足够有能力的 agent 可能会将其作为 emergent 策略而非刻意策略来发现。

Agent-Eval 清单：构建真正有效的基准测试

基于这些发现，研究团队提炼出了一个 Agent-Eval 清单，这是每个 agent 基准测试在发布结果前必须满足的最低标准。

首要原则是将 agent 与评估者隔离。这是不可协商的。被测系统必须无法读取、写入或影响评估环境。评估应在 agent 的容器外部运行。不要信任来自沙盒内部的文件、输出或状态。提取原始工件（日志、文件）并通过受控通道在单独的只读主机上评估。不要将参考答案传递给 agent。任务配置应仅包含人类会有的信息。评估元数据必须保存在单独的不可访问路径上。对评估所依赖的任何二进制文件、测试文件或基础设施使用只读文件系统。

其次，永远不要对不受信任的输入使用 eval()。这本应不言自明，但两个主要基准测试都在这样做。应该使用适当的解析器解析结构化数据。如果需要评估表达式，应使用没有内置函数访问权限的沙盒解释器。

第三，清理 LLM 评判者的输入。如果使用 LLM-as-judge，应将 agent 输出视为不受信任的用户输入：用清晰的结构标记定界 agent 内容，并指示评判者将其视为数据而非指令；剥离或转义任何类似系统提示或评估指令的内容；使用结构化输出格式减少攻击面；更好的做法是基于提取的特征进行评估。

第四，对评估者进行对抗性测试。在发布基准测试之前，尝试破解它。构建一个不做任何任务除了 exploit 的 agent，看看它获得多少分数。如果零能力 agent 的分数超过基线，说明评估有 bug。具体而言：运行一个不执行任何动作的 null agent，其分数是基线；运行一个执行随机动作的 random agent，如果它在某些任务上显著优于 null agent，这些任务可能有评估缺口；运行一个尝试影响 LLM 评判者的 prompt injection agent，如果分数发生变化，说明评判者可被 compromise；运行一个修改评估环境而非解决问题的 state-tampering agent，如果其分数超过零，说明隔离已被破坏。

第五，防止篡改评估数据和追踪。如果评估管道涉及多个阶段，确保 agent 或其生成的解决方案无法修改、覆盖或注入到阶段之间传递的数据和追踪中。将来自 agent 环境的所有工件视为不受信任的副本、验证它们，永远不要让 agent 直接写入评估者读取的路径。

第六，使评分机制更加健壮。避免在短字符串上使用子字符串匹配，要求语义匹配或精确结构化比较。不要静默地将失败任务从分母中排除。崩溃的任务是零，不是缺失数据点。不要让评分代码跳过任何任务类别的检查。用对抗性输入测试评分器：空字符串、注入分隔符的字符串、边缘情况数字、规范意外的 Unicode。

第七，保密答案。永远不要发布用于主要排行榜的任何拆分的正确答案。一旦答案公开，基准测试测量的就是记忆。定期轮换测试实例，静态基准测试会随着时间推移成为查表练习。考虑使用留出评估：接受模型输出并针对提交者从未见过的私有测试集运行它们。

结论

研究团队构建的 agent 帮助他们破解了八个基准测试。他们在所有基准测试上都获得了接近完美的分数，却没有解决一个单一任务。这些 exploit 从简单得令人尴尬的（向 FieldWorkArena 发送 {}）到技术性复杂的（特洛伊化 Terminal-Bench 中的二进制包装器）各不相同，但它们都有一个共同点：评估设计时没有考虑到一个为分数而非任务进行优化的系统。

随着 AI agent 变得更加有能力 —— 随着通过基准测试展示能力的压力加剧 ——「高分数」与「高能力」之间的差距只会扩大。我们已经看到前沿模型发展出从未明确训练过的 emergent hacking 能力。擅长模式匹配的模型可能会无意中碰到其中一些 exploit。明确为基准性能优化的模型可能会刻意发现它们。

我们研究的基准测试是由解决困难问题的才华横溢的研究团队构建的。我们发现的漏洞不是无能的迹象 —— 它们表明对抗性评估健壮性的实践在该领域尚未成为标准。它需要成为标准。

不要信任那个数字。信任方法论。

如果正在构建基准测试：假设有人会尝试破解它。因为他们一定会这样做。

参考资料来源

Berkeley RDI: https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/