AI 代理安全新突破：' 攻击者后手 ' 重塑 LLM 防御评估范式

当 OpenAI、Anthropic、Google DeepMind 三大竞争对手罕见联手，我们看到的不只是技术合作，更是对 AI 安全防御根本性缺陷的集体反思。本文深度解析 "攻击者后手" 理论如何颠覆传统防御评估，并揭示自适应攻击框架对现有 12 种防御机制的系统性突破。

引言：从 "纸上谈兵" 到 "实战对抗"

在 AI 安全领域，我们习惯用静态基准测试来评估防御机制的有效性。HarmBench 用于越狱攻击测试，AgentDojo 用于提示注入评估 —— 这些看似严谨的测试框架，可能正在构建一个安全的假象。

2025 年 10 月，一篇震撼性的论文横空出世：《The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against LLM Jailbreaks and Prompt Injections》。这篇由 OpenAI、Anthropic、Google DeepMind 三大 AI 巨头联手发布的研究，用实验数据告诉我们：现有的防御评估流程存在根本性缺陷，其结果具有严重的误导性。

核心问题在哪里？现有的评估假设攻击者是静态的、反应迟缓的，但实际上攻击者是高度自适应的，他们会根据防御策略调整攻击手法。

核心洞察：' 攻击者后手 ' 的博弈论视角

这篇论文引入了一个重要的理论概念："攻击者后手"（Attacker Moves Second）。这不仅仅是语言游戏，而是对 AI 安全攻防关系的根本性重新定义。

传统防御评估的问题

当前的防御方法评估主要采用两种手段：

静态攻击样本测试：使用一组固定的、有害攻击样本进行测试
弱优化攻击方法：依赖计算能力较弱的优化方法，设计时未考虑具体防御机制

这种评估方式的问题显而易见：防御开发者知道攻击的具体套路，而攻击者却能根据防御的设计策略进行针对性调整。

自适应攻击的真正含义

论文提出的自适应攻击框架，不是简单的 "攻击加强版"，而是一种系统性的攻击方法论：

动态调整能力：根据防御策略的变化调整攻击手段
资源投入优化：能够投入大量计算资源进行攻击优化
策略学习能力：通过反馈机制不断改进攻击效果

这种攻击方式真正模拟了现实世界中的攻击者 —— 他们有动机、有资源、有技术能力来绕过防御机制。

突破性发现：通用自适应攻击框架

论文的核心贡献是一个通用自适应攻击框架（General Adaptive Attack Framework），它统一了许多成功的提示词攻击背后的共同结构。

框架的四个核心步骤

每轮攻击迭代都遵循一个标准的 "PSSU" 循环：

Prepare（准备）：分析当前防御策略，设计攻击方向
Sample（采样）：生成候选攻击 payload
Submit（提交）：向目标系统提交攻击
Update（更新）：根据反馈优化攻击策略

四种典型攻击实例

框架提供了四种具体的攻击实现方法：

1. 基于梯度的方法

输入空间 → 嵌入空间梯度估计 → 投影回有效token → 对抗样本生成

虽然理论上优雅，但实践中可靠性有限，因为输入空间巨大且离散，微小的措辞变化就可能导致模型行为发生不可预测的转变。

2. 强化学习方法

策略网络 → 候选提示词采样 → 奖励反馈 → 策略梯度更新

将提示词生成视为交互式环境，使用 LLM 作为策略网络，通过 GRPO 算法更新权重，在实验中表现出色。

3. 基于搜索的方法

组合探索 → 启发式扰动 → 集束搜索 → 遗传算法 + LLM引导

将问题构建为组合优化，利用遗传算法在巨大离散空间中导航，无需梯度访问即可工作。

4. 人工红队测试

人类创造力 → 上下文推理 → 精心制作 → 迭代优化

虽然人工成本高，但在应对动态变化的防御时往往比自动化方法更有效。

实证结果：现有防御的全面失守

论文对 12 种最新的 LLM 防御方法进行了系统性评估，覆盖了从提示工程到对抗性训练的多种技术。实验结果令人震惊：

基于提示的防御

Spotlighting 和 Prompt Sandwiching

静态基准表现：AgentDojo 上攻击成功率（ASR）低至 1%
自适应攻击表现：ASR 超过 95%
攻击手法：恶意指令伪装成完成用户任务的先决条件

RPO (Robust Prompt Optimization)

技术原理：基于梯度的提示优化，寻找最佳防御提示
静态基准表现：HarmBench 上的低 ASR
自适应攻击表现：RL 攻击 ASR 98%，梯度攻击 ASR 96%

对抗训练的防御

StruQ 和 MetaSecAlign（专注提示注入防御）

静态基准表现：AgentDojo 上 ASR 为 2%
自适应攻击表现：ASR 飙升至 96%
训练缺陷：针对固定、不够强的对抗样本训练，无法泛化到自适应攻击

Circuit Breakers（专注越狱防御）

自适应攻击表现：HarmBench 上 ASR 达到 100%
结论：对抗训练需要动态生成对抗样本才能获得有意义稳健性

过滤模型的防御

检测器技术栈

Protect AI Detector、PromptGuard、Model Armor：ASR 超过 90%
PIGuard：ASR 71%
根本问题：成功的攻击触发器往往不包含明显恶意特征，检测器难以在不产生大量误报的情况下识别

基于秘密知识的防御

Data Sentinel

声称能力：假阴性率接近零的自适应防御
实际表现：RL 攻击以超过 80% 准确率重定向任务意图
攻击原理：巧妙重新定义任务术语绕过检测

MELON

技术原理：运行模型两次比对工具调用检测注入
黑盒攻击表现：偶然 ASR 达 76%
白盒攻击表现：了解机制后 ASR 上升至 95%

深层启示：安全评估的范式转移

从静态基准到动态评估

论文最重要的贡献不是提出了更强的攻击方法，而是重新定义了我们应该如何评估 AI 安全：

传统评估方法的问题：

防御开发者知道测试集，攻击者知道防御策略
评估结果反映了特定的攻防配置，而非通用的安全能力
缺乏对真实世界攻击复杂性的模拟

自适应评估的价值：

假设攻击者是理性的、有资源的对手
通过动态优化模拟真实攻击者行为
提供更可靠的鲁棒性指标

安全研究的 "计算机视觉教训"

论文指出了一个重要历史经验：计算机视觉领域的对抗样本研究早就证明了类似的教训。针对固定、不够强的对抗样本进行训练无法泛化到未见过的自适应攻击。

这个教训在 AI 安全领域同样适用：

静态的防御训练无法应对动态的攻击策略
鲁棒性需要通过与强大对手的反复对抗来验证
安全能力必须在真实的攻防博弈中得到验证

实践意义：对 AI 系统设计的影响

防御策略的重新思考

这篇论文对 AI 系统设计和部署具有重要的实践指导意义：

多层防御的必要性与局限性

检测器作为第一道防线：虽然易被绕过，但能阻止简单攻击
提示工程作为基础防护：增强模型的指令遵循能力
对抗训练提供内化防御：但必须使用动态生成的对抗样本
监控和响应机制：检测异常行为并及时干预

评估方法的改进

引入红队测试：使用专业安全团队进行人工攻击
动态基准更新：定期更新攻击样本和评估标准
多模型交叉验证：在不同架构的模型上测试防御效果

企业部署建议

对于在生产环境中部署 AI 系统的企业，这篇研究提出了几个关键建议：

不要过度依赖单一防御机制：任何防御都可能被自适应攻击绕过
建立动态威胁评估体系：定期评估新的攻击向量和防御效果
投资安全专家团队：自动化工具无法完全替代人类的安全直觉
建立快速响应机制：当发现新的攻击向量时能够快速部署缓解措施

未来方向：构建真正鲁棒的 AI 安全

技术发展路线

基于这篇研究，AI 安全领域应该向以下方向发展：

更强的自适应攻击评估

强化学习攻击框架：开发更智能的自动化攻击系统
多模态攻击测试：扩展到图像、音频等输入模态
跨模型攻击泛化：测试攻击在不同模型架构间的转移能力

新型防御架构探索

主动防御机制：系统能够主动检测并适应新的攻击模式
零信任 AI 架构：假设系统内部和外部都存在威胁
联邦学习安全：在分布式学习环境中保持安全性

评估基准的重构

动态威胁模型：建立能够持续演化的威胁评估框架
真实世界模拟：构建更贴近实际应用场景的测试环境
成本效益分析：量化不同防御策略的成本效益比

研究社区的协作需求

这篇研究强调了跨组织协作的重要性。在 AI 安全这个共同挑战面前：

开源威胁情报：共享攻击向量和防御经验
标准化评估框架：建立行业统一的安全评估标准
监管政策协调：确保 AI 安全研究符合法律法规要求

结语：安全研究的反思与前进

这篇论文不仅仅是技术贡献，更是对 AI 安全研究方法论的深刻反思。我们习惯了用静态基准来证明安全，习惯了用静态威胁来测试防御，但现实世界的攻击者不是这样的。

**"攻击者后手" 这个概念提醒我们：安全是一个动态的博弈过程，而不是一个静态的状态。** 在这个博弈中，防御者必须假设攻击者足够聪明、足够有资源，并且会不断调整策略。

对于 AI 从业者来说，这意味着：

安全设计必须更加系统化：单一的技术手段无法提供足够保护
评估方法必须更加严格：静态测试结果可能具有严重误导性
团队建设必须更加专业化：安全不是普通开发者的副业，而是专门的技能

对于 AI 安全研究者来说，这提出了更高的要求：

攻防并重：不仅要研究防御，还要深入理解攻击
跨学科合作：需要结合博弈论、密码学、社会工程学等多个领域
伦理责任：研究成果必须考虑被滥用的风险

在 AI 能力快速发展的今天，安全问题的复杂性也在快速演化。我们需要的不是更多的安全产品，而是更深的安全理解；不是更强的防护技术，而是更智慧的防护哲学。

"攻击者后手" 告诉我们，在 AI 安全的世界里，防御的智慧比防御的力量更重要。

* 参考资料：

《The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against LLM Jailbreaks and Prompt Injections》(OpenAI, Anthropic, Google DeepMind, 2025)
HarmBench 评估基准
AgentDojo 测试环境
机器之心技术报道 *

关键词标签: #AI 安全 #提示注入 #自适应攻击 #LLM 防御 #安全评估 #AI 治理

attacker moves second prompt injection defense