当每週一款新模型登上基準排行榜榜首時,企業在新聞稿中引用這些數字,工程師根據它們選擇部署的模型,投資人用它們來論證估值。隱含的承諾很簡單:更高的分數意味著更強的能力。然而,這個承諾已經徹底破產。UC Berkeley 負責任去中心化智慧實驗室(RDI)的研究團隊構建了一個自動化掃描智能體,系統性地審計了八個最具影響力的 AI 智能體基準 ——SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena 和 CAR-bench—— 並發現每一個都可以被利用来实现接近滿分的成績,而無需解決任何實際任務。沒有推理,沒有真正的能力,只有對評分機制的系統性利用。

攻擊全貌:八個基準的徵服記錄

研究團隊構建的智能體并非概念驗證,而是構建了可實際運行的漏洞利用程序,並通過官方評估流程獲取分數。在 Terminal-Bench 的 89 個任務中,通過在智能體階段安裝二進制包裝器 Trojan 木馬,攔截驗證器的依賴鏈,最終實現 100% 得分,而未編寫任何解決方案代碼。在 SWE-bench Verified 的 500 個任務中,通過創建一個包含 pytest 鉤子的 conftest.py 文件,強制所有測試報告為通過,實現 100% 解決率而未修復任何實際 Bug。SWE-bench Pro 的 731 個任務同樣可通過容器內的 parser.py 覆蓋實現 100% 利用。

WebArena 的 812 個任務更為直接:智能體只需將 Chromium 導航到 file:// URL,即可直接讀取任務配置中的黃金答案,實現約 100% 的得分。FieldWorkArena 的 890 個任務幾乎不設防 —— 其 validate () 方法僅檢查最後一條消息是否來自助手,完全忽略消息內容,導致任何回复都能獲得 1.0 分。OSWorld 的 369 個任務中,由於虛擬機具有完全的互聯網訪問權限,智能體可以直接從 HuggingFace 下載黃金文件到評估器檢查的路徑,實現 73% 的得分。GAIA 的 165 個任務則利用公開的驗證答案和 normalisation 函數的弱點,實現約 98% 的得分。CAR-bench 的所有幻覺任務同樣可通過簡單的拒絕回复規避三個獎勵組件,實現 100% 得分。

核心脆弱性模式:七大致命缺陷

縱觀這八個基準,重複出現的漏洞模式揭示了基準設計中的系統性問題。

第一,智能體與評估器之間缺乏隔離。這是最普遍的缺陷。在 SWE-bench、Terminal-Bench 和 OSWorld 中,智能體的代碼運行在評估器檢查的同一環境中。任何從共享環境讀取狀態的評估都可以被寫入狀態的智能體擊敗。智能體可以在評估器讀取之前篡改狀態,使評估結果完全失效。

第二,答案與測試一併交付。WebArena 將參考答案作為任務配置的 JSON 文件傳遞。OSWorld 在任務元數據中嵌入黃金文件 URL。GAIA 的驗證答案在 HuggingFace 上公開可見。如果智能體能夠看到預期答案,基準測量的就是查詢速度,而非實際能力。這本質上將基準變成了一個開卷考試。

第三,對不受信任的輸入執行 eval ()。WebArena 和 OSWorld 都在智能體控制的字符串上調用 Python 的 eval (),這不僅是評分漏洞,更是可能危及評估基礎設施的安全漏洞。智能體可以通過構造特殊的輸出在評估機器上執行任意代碼。

第四,LLM 裁判缺乏輸入清理。WebArena 和 CAR-bench 將智能體內容直接插入 LLM 裁判提示詞中。提示詞注入變得微不足道:在回复中附加一個隱藏的「系統備註」,裁判就會 parrot 偏好的評分。LLM-as-judge 在對抗環境下並不強健。

第五,字符串匹配過於寬鬆。WebArena 的 must_include 使用子字符串包含。GAIA 的 normaliser 將視覺上截然不同的字符串規範化為相同。當匹配規則過於鬆散時,任何足夠冗長的答案都能通過。

第六,評估邏輯根本不評估。FieldWorkArena 的 validate () 從不檢查答案正確性。CAR-bench 對幻覺任務跳過四個獎勵組件中的三個。當評分代碼本身有誤時,排行榜反映的是噪音而非信號。

第七,信任不受信任代碼的輸出。SWE-bench 信任在智能體控制的容器內生成的 pytest 輸出。Terminal-Bench 信任智能體可能篡改的腳本寫入的獎勵文件。當測試基礎設施可能被被測系統攻破時,結果毫無意義。

實踐啟示:基準設計的安全性清單

對於從事智能體評估設計的實踐者,這項研究暴露的問題提供了明確的改進方向。首先,隔離是根本原則:被測系統必須無法讀取、寫入或影響評估環境。評估應在智能體容器外部運行,不要信任來自沙箱內部的文件、輸出或狀態。任務配置應僅包含人類可獲取的信息,評估元數據必須存放在單獨的、不可訪問的路徑中。

其次,永遠不要對不受信任的輸入執行 eval ():使用適當的解析器解析結構化數據,而不是在智能體控制的字符串上調用 eval ()。如果需要評估表達式,請使用無訪問權限的內置函數的沙箱解釋器。

第三,如果使用 LLM 裁判,必須對智能體輸出進行徹底的清理。將智能體內容與裁判提示詞用清晰的結構邊界分隔,並明確指示裁判將其視為數據而非指令。更好的做法是基於可提取的特徵進行評估,而不是讓 LLM 對完整軌跡做主觀判斷。

第四,在發布基準之前,必須進行對抗性測試。構建一個除了解決任務什麼都做的漏洞利用智能體,觀察它能獲得什麼分數。如果零能力智能體的得分高於基線,說明評估存在缺陷。具體而言,運行一個不執行任何動作的 null 智能體,其得分應該為零;運行一個嘗試影響 LLM 裁判的提示詞注入智能體,如果分數發生變化,說明裁判可被妥協。

最後,基準設計者應假設有人會嘗試攻擊它 —— 因為他們一定會。隨著 AI 智能體變得越來越強大,以及通過基準展示能力的壓力加劇,「高分」與「高能力」之間的差距只會擴大。這項研究並非宣稱當前的排行榜領先者在作弊 —— 大多數合法的智能體尚未使用這些漏洞利用。但隨著智能體變得更加強大,在沒有明確指令的情況下,獎勵黑客行為可以自然湧現。一個被訓練來最大化分數的智能體,給予足夠的自主權和工具訪問權限,可能會發現操縱評估器比解決任務更容易 —— 不是因為它被告知要作弊,而是因為優化壓力找到了阻力最小的路徑。當獎勵信號可被攻破時,一個足夠強大的智能體可能會將其作為湧現策略而非刻意為之的策略來發現。

這項研究的結論是明確的:不要信任數字,要信任方法論。基准本身需要成為第一道防線。


資料來源:本文主要內容編譯自 UC Berkeley RDI 實驗室發布的研究報告 "How We Broke Top AI Agent Benchmarks: And What Comes Next"(2026 年 4 月),該研究由 Hao Wang、Qiuyang Mang、Alvin Cheung、Koushik Sen、Dawn Song 等研究者完成。