当我们说一个模型在某个基准测试上取得了 80% 的分数,我们实际上在测量什么?如果这个分数是通过记忆而非推理得出的,那它对预测模型在真实任务中的表现毫无价值。更令人不安的是,这并不是一个假设场景 —— 大量实证研究已经确认,基准测试数据污染在当前的 LLM 评估体系中是一个结构性问题,而非个别例外。本文从攻击者视角出发,系统解析基准测试被 gaming 的具体手段,以便更清晰地理解为何防御性措施如此困难。
数据污染的三种形态
基准测试污染并非单一机制,而是存在三个递进的层次,理解每一层的特征是识别 gaming 手段的前提。
精确匹配污染是最容易检测的一种形态。当训练语料中包含与测试集完全相同的输入 - 输出对时,模型可以在不理解任务的情况下通过检索完成作答。这种污染在早期研究中最为常见,因为彼时开源社区尚未建立起系统的数据去重意识。研究人员通常使用字符串匹配或 N-gram 重叠度来识别这类污染,检测阈值通常设在 13-gram 以上精确匹配即触发标记。
句法变换污染则更为隐蔽。攻击者并非直接复制测试数据,而是对输入进行同义词替换、句式改写或结构重组,使文本在表层呈现差异,但在语义层面保留与测试集的高度重叠。当前的基于字符或 N-gram 的去重算法对这类污染几乎无效,因为变换后的文本在字符串层面与原始数据无重叠。Xu 等人的研究表明,即使采用多种句法增强手段,污染检测工具仍然会遗漏相当比例的变换匹配实例。
分布级污染是最难量化的形态。在这一层次上,训练数据并未直接包含测试题目,但涵盖了测试题所依赖的知识领域、推理模式或表述风格。模型在预训练阶段接触过大量与测试集分布相似的文本,因此在面对测试题目时表现出高于真实能力的泛化水平。这种污染无法通过简单的数据比对识别,因为它测量的是分布相似性而非具体内容重叠。
前缀补全攻击:验证污染的最直接手段
前缀补全测试是识别数据污染最有力的证据收集方法之一,其原理简洁而有效:向模型提供测试题目解答的前几个 token,观察模型能否以逐字匹配的方式完成剩余部分。如果模型从未见过该解答,其补全行为应接近随机猜测;如果模型在大量实例上表现出显著高于随机的逐字匹配率,则说明训练语料中包含这些解答的直接或间接痕迹。
Liang 等人的研究在 SWE-bench Verified 上系统地执行了这项测试。实验结果表明,前沿模型在前缀补全任务中达到了 11.7% 到 31.6% 的逐字准确率 —— 这远高于随机基线,且差异在统计上高度显著。这一发现具有直接的实践含义:一个从未接触过特定代码仓库的模型,在面对这些仓库的问题解答时,应该表现出接近零的逐字匹配率。实际观察到的匹配率说明前沿模型在预训练阶段已经将这些解答的片段吸收进了参数记忆。
更有说服力的是跨仓库对比实验。同一批模型在 SWE-bench 基准内的代码仓库上表现出 76% 的文件路径预测准确率,但在基准外的仓库上,这一准确率骤降至 53%。23 个百分点的差距不是测量误差,而是模型在区分 “见过” 与 “未见过” 数据时的真实行为特征。这一证据链清晰地表明:模型的高分并非来自对软件工程任务的通用理解,而是来自对特定训练实例的记忆。
超参调优:针对评估协议的过拟合
即使排除了数据污染因素,基准测试仍然面临另一种更微妙的 gaming 手段:针对评估协议的超参数优化。当模型的开发团队可以反复提交到公开排行榜时,每一次提交都提供了一次学习评估协议的机会。这种迭代式调优本质上是在用测试集作为验证集,使得最终报告的性能数字反映的是团队对特定基准的适配程度,而非模型的通用能力。
超参调优的手段包括多个维度。在模型层面,团队可能针对特定任务类型调整模型架构、超参数搜索空间或训练数据配比,使模型在特定基准上表现出超出其真实通用水平的性能。在提示工程层面,团队会系统地探索不同的提示模板、few-shot 示例选择、输出格式约束与解码参数,找到使模型在特定基准上得分最大化的配置。这些调优手段单独看都合理,但当它们被系统性地针对同一个测试集执行时,结果就是对该测试集的过拟合。
MMLU 和 HumanEval 是这种 gaming 手段的重灾区。MMLU 上前沿模型的分数已经压缩到 88% 到 93% 之间,最优模型之间的差距仅有两到四个百分点。这个差距已经小于测量的标准误差,换言之,这些模型在统计意义上无法被区分,但排行榜仍然赋予它们不同的名次。HumanEval 的饱和程度更甚:公开问题自 2021 年发布以来,前沿模型已经突破了 93% 的准确率,各主要实验室的得分差距收敛到几个百分点以内。这不是在测量能力差异,而是在测量谁更擅长针对特定测试集做优化。
评估协议漏洞:LLM-as-a-Judge 的循环问题
当人类评估成本过高时,使用另一个 LLM 来评判目标模型的输出成为一种务实的选择。然而,这种 LLM-as-a-Judge 的范式引入了一个根本性的问题:评判者模型本身可能存在偏见,而这些偏见会系统性地影响评估结果的可靠性。
系统性研究已经记录了 LLM 评判者存在的多种偏见。长度偏好是最常见的:评判者倾向于给更长的回答更高的分数,即使长度与正确性之间的相关性在任务类型间差异很大。风格偏好同样普遍:评判者可能偏好与自身训练分布相似的表达方式,无形中歧视了采用不同风格但同样有效的解决方案。此外,评判者还可能表现出顺序偏好 —— 对更早出现的选项赋予更高权重,或对与自身立场一致的答案给予更高的置信度评分。
当评判者模型与被评判模型来自同一实验室时,问题进一步加剧。评判者的内部偏见与被评判模型的设计哲学可能存在协变量关系,使得评估结果在方向上出现系统性偏移。Arena 的方法论通过引入真实用户投票部分缓解了这一问题 —— 六百万次投票生成的 ELO 评分代表的是群体偏好而非模型自我评估。但即使如此,Arena 的分数也只能衡量用户体验层面的偏好,而非任务完成的技术质量。
结构性的不可根除性
理解了这些 gaming 手段之后,一个更根本的问题浮现出来:这些问题是可修复的吗?答案是悲观的,至少在当前的技术与行业结构下如此。
基准测试数据污染是一个结构性问题,而非偶发事件。训练 pipeline 必须在互联网规模的数据上进行预训练,而基准测试题目同样托管在互联网上并通过 API 或 GitHub 公开分发。这意味着从信息流的角度看,测试数据必然会以某种形式进入训练语料。精确匹配可以通过去重来缓解,但句法变换匹配和分布级污染无法通过简单的数据处理消除,因为训练数据的规模使得穷尽式检查在计算上不可行。
评估协议 gaming 同样具有结构性。公开排行榜的存在本身就创造了针对测试集进行优化的激励,而这种激励在商业竞争中只会强化不会弱化。只要排行榜分数被用于模型排名和商业推广,就一定会有人系统性地探索使分数最大化的手段。这不是道德问题,而是理性行为在特定激励结构下的必然结果。
动态基准和持续更新的评估套件是目前最接近有效的防御手段。LiveBench 和 LiveCodeBench 通过每月引入新题目来保持测试集的新鲜度,使得基于历史数据训练的模型无法获得时间维度的优势。但这种方法的成本同样显著:它需要持续的人工审核来确保新题目的质量、需要防止题目在发布后被快速吸收进训练数据、并且任务覆盖范围必然窄于静态基准。
可操作的评估实践
尽管结构性 gaming 难以根除,从業者仍然可以采取具体措施来提高评估的可信度。首先,对于任何发布超过十二个月的静态基准,应当默认其存在某种程度的污染,不将其分数单独作为模型能力判断的依据。其次,在进行模型选型时,应当组合使用多个基准 —— 包括动态基准、任务特定的内部评估以及人工评审 —— 而非依赖单一数字。第三,关注模型在基准之外的任务上的表现:如果一个模型在 MMLU 上达到 90% 但在专业领域任务上表现平庸,则高基准分可能反映的是数据记忆而非通用推理能力。
最后,对 LLM-as-a-Judge 的结果保持审慎态度。当评判模型与被评判模型来自同一供应商时,尤其需要交叉验证。如果可能的化,使用具有明确 ground truth 的客观评估任务替代开放式生成评估,以减少评判过程中的主观性空间。
基准测试的攻防线与防御线之间是一场持续升级的军备竞赛。理解攻击手段不是为了参与这场竞赛,而是为了更清醒地评估我们现有的测量工具在多大程度上仍然有效。在分数与真实能力之间的差距越来越难以忽视的今天,保持对测量方法本身的批判性审视,是每个依赖这些评估结果做决策的人都需要培养的习惯。
参考资料
- Benchmark Contamination, Metric Gaming, and the Hard Limits of LLM Evaluation — BestAIWeb (2026)
- Liang et al., SWE-bench 前缀补全与跨仓库对比实验
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。