Hotdry.
general

attacker moves second prompt injection defense

AI 代理安全新突破:' 攻击者后手 ' 重塑 LLM 防御评估范式

当 OpenAI、Anthropic、Google DeepMind 三大竞争对手罕见联手,我们看到的不只是技术合作,更是对 AI 安全防御根本性缺陷的集体反思。本文深度解析 "攻击者后手" 理论如何颠覆传统防御评估,并揭示自适应攻击框架对现有 12 种防御机制的系统性突破。

引言:从 "纸上谈兵" 到 "实战对抗"

在 AI 安全领域,我们习惯用静态基准测试来评估防御机制的有效性。HarmBench 用于越狱攻击测试,AgentDojo 用于提示注入评估 —— 这些看似严谨的测试框架,可能正在构建一个安全的假象。

2025 年 10 月,一篇震撼性的论文横空出世:《The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against LLM Jailbreaks and Prompt Injections》。这篇由 OpenAI、Anthropic、Google DeepMind 三大 AI 巨头联手发布的研究,用实验数据告诉我们:现有的防御评估流程存在根本性缺陷,其结果具有严重的误导性。

核心问题在哪里?现有的评估假设攻击者是静态的、反应迟缓的,但实际上攻击者是高度自适应的,他们会根据防御策略调整攻击手法。

核心洞察:' 攻击者后手 ' 的博弈论视角

这篇论文引入了一个重要的理论概念:"攻击者后手"(Attacker Moves Second)。这不仅仅是语言游戏,而是对 AI 安全攻防关系的根本性重新定义。

传统防御评估的问题

当前的防御方法评估主要采用两种手段:

  1. 静态攻击样本测试:使用一组固定的、有害攻击样本进行测试
  2. 弱优化攻击方法:依赖计算能力较弱的优化方法,设计时未考虑具体防御机制

这种评估方式的问题显而易见:防御开发者知道攻击的具体套路,而攻击者却能根据防御的设计策略进行针对性调整。

自适应攻击的真正含义

论文提出的自适应攻击框架,不是简单的 "攻击加强版",而是一种系统性的攻击方法论:

  • 动态调整能力:根据防御策略的变化调整攻击手段
  • 资源投入优化:能够投入大量计算资源进行攻击优化
  • 策略学习能力:通过反馈机制不断改进攻击效果

这种攻击方式真正模拟了现实世界中的攻击者 —— 他们有动机、有资源、有技术能力来绕过防御机制。

突破性发现:通用自适应攻击框架

论文的核心贡献是一个通用自适应攻击框架(General Adaptive Attack Framework),它统一了许多成功的提示词攻击背后的共同结构。

框架的四个核心步骤

每轮攻击迭代都遵循一个标准的 "PSSU" 循环:

  1. Prepare(准备):分析当前防御策略,设计攻击方向
  2. Sample(采样):生成候选攻击 payload
  3. Submit(提交):向目标系统提交攻击
  4. Update(更新):根据反馈优化攻击策略

四种典型攻击实例

框架提供了四种具体的攻击实现方法:

1. 基于梯度的方法

输入空间 → 嵌入空间梯度估计 → 投影回有效token → 对抗样本生成

虽然理论上优雅,但实践中可靠性有限,因为输入空间巨大且离散,微小的措辞变化就可能导致模型行为发生不可预测的转变。

2. 强化学习方法

策略网络 → 候选提示词采样 → 奖励反馈 → 策略梯度更新

将提示词生成视为交互式环境,使用 LLM 作为策略网络,通过 GRPO 算法更新权重,在实验中表现出色。

3. 基于搜索的方法

组合探索 → 启发式扰动 → 集束搜索 → 遗传算法 + LLM引导

将问题构建为组合优化,利用遗传算法在巨大离散空间中导航,无需梯度访问即可工作。

4. 人工红队测试

人类创造力 → 上下文推理 → 精心制作 → 迭代优化

虽然人工成本高,但在应对动态变化的防御时往往比自动化方法更有效。

实证结果:现有防御的全面失守

论文对 12 种最新的 LLM 防御方法进行了系统性评估,覆盖了从提示工程到对抗性训练的多种技术。实验结果令人震惊:

基于提示的防御

Spotlighting 和 Prompt Sandwiching

  • 静态基准表现:AgentDojo 上攻击成功率(ASR)低至 1%
  • 自适应攻击表现:ASR 超过 95%
  • 攻击手法:恶意指令伪装成完成用户任务的先决条件

RPO (Robust Prompt Optimization)

  • 技术原理:基于梯度的提示优化,寻找最佳防御提示
  • 静态基准表现:HarmBench 上的低 ASR
  • 自适应攻击表现:RL 攻击 ASR 98%,梯度攻击 ASR 96%

对抗训练的防御

StruQ 和 MetaSecAlign(专注提示注入防御)

  • 静态基准表现:AgentDojo 上 ASR 为 2%
  • 自适应攻击表现:ASR 飙升至 96%
  • 训练缺陷:针对固定、不够强的对抗样本训练,无法泛化到自适应攻击

Circuit Breakers(专注越狱防御)

  • 自适应攻击表现:HarmBench 上 ASR 达到 100%
  • 结论:对抗训练需要动态生成对抗样本才能获得有意义稳健性

过滤模型的防御

检测器技术栈

  • Protect AI Detector、PromptGuard、Model Armor:ASR 超过 90%
  • PIGuard:ASR 71%
  • 根本问题:成功的攻击触发器往往不包含明显恶意特征,检测器难以在不产生大量误报的情况下识别

基于秘密知识的防御

Data Sentinel

  • 声称能力:假阴性率接近零的自适应防御
  • 实际表现:RL 攻击以超过 80% 准确率重定向任务意图
  • 攻击原理:巧妙重新定义任务术语绕过检测

MELON

  • 技术原理:运行模型两次比对工具调用检测注入
  • 黑盒攻击表现:偶然 ASR 达 76%
  • 白盒攻击表现:了解机制后 ASR 上升至 95%

深层启示:安全评估的范式转移

从静态基准到动态评估

论文最重要的贡献不是提出了更强的攻击方法,而是重新定义了我们应该如何评估 AI 安全

传统评估方法的问题

  • 防御开发者知道测试集,攻击者知道防御策略
  • 评估结果反映了特定的攻防配置,而非通用的安全能力
  • 缺乏对真实世界攻击复杂性的模拟

自适应评估的价值

  • 假设攻击者是理性的、有资源的对手
  • 通过动态优化模拟真实攻击者行为
  • 提供更可靠的鲁棒性指标

安全研究的 "计算机视觉教训"

论文指出了一个重要历史经验:计算机视觉领域的对抗样本研究早就证明了类似的教训。针对固定、不够强的对抗样本进行训练无法泛化到未见过的自适应攻击。

这个教训在 AI 安全领域同样适用:

  • 静态的防御训练无法应对动态的攻击策略
  • 鲁棒性需要通过与强大对手的反复对抗来验证
  • 安全能力必须在真实的攻防博弈中得到验证

实践意义:对 AI 系统设计的影响

防御策略的重新思考

这篇论文对 AI 系统设计和部署具有重要的实践指导意义:

多层防御的必要性与局限性

  • 检测器作为第一道防线:虽然易被绕过,但能阻止简单攻击
  • 提示工程作为基础防护:增强模型的指令遵循能力
  • 对抗训练提供内化防御:但必须使用动态生成的对抗样本
  • 监控和响应机制:检测异常行为并及时干预

评估方法的改进

  • 引入红队测试:使用专业安全团队进行人工攻击
  • 动态基准更新:定期更新攻击样本和评估标准
  • 多模型交叉验证:在不同架构的模型上测试防御效果

企业部署建议

对于在生产环境中部署 AI 系统的企业,这篇研究提出了几个关键建议:

  1. 不要过度依赖单一防御机制:任何防御都可能被自适应攻击绕过
  2. 建立动态威胁评估体系:定期评估新的攻击向量和防御效果
  3. 投资安全专家团队:自动化工具无法完全替代人类的安全直觉
  4. 建立快速响应机制:当发现新的攻击向量时能够快速部署缓解措施

未来方向:构建真正鲁棒的 AI 安全

技术发展路线

基于这篇研究,AI 安全领域应该向以下方向发展:

更强的自适应攻击评估

  • 强化学习攻击框架:开发更智能的自动化攻击系统
  • 多模态攻击测试:扩展到图像、音频等输入模态
  • 跨模型攻击泛化:测试攻击在不同模型架构间的转移能力

新型防御架构探索

  • 主动防御机制:系统能够主动检测并适应新的攻击模式
  • 零信任 AI 架构:假设系统内部和外部都存在威胁
  • 联邦学习安全:在分布式学习环境中保持安全性

评估基准的重构

  • 动态威胁模型:建立能够持续演化的威胁评估框架
  • 真实世界模拟:构建更贴近实际应用场景的测试环境
  • 成本效益分析:量化不同防御策略的成本效益比

研究社区的协作需求

这篇研究强调了跨组织协作的重要性。在 AI 安全这个共同挑战面前:

  • 开源威胁情报:共享攻击向量和防御经验
  • 标准化评估框架:建立行业统一的安全评估标准
  • 监管政策协调:确保 AI 安全研究符合法律法规要求

结语:安全研究的反思与前进

这篇论文不仅仅是技术贡献,更是对 AI 安全研究方法论的深刻反思。我们习惯了用静态基准来证明安全,习惯了用静态威胁来测试防御,但现实世界的攻击者不是这样的。

**"攻击者后手" 这个概念提醒我们:安全是一个动态的博弈过程,而不是一个静态的状态。** 在这个博弈中,防御者必须假设攻击者足够聪明、足够有资源,并且会不断调整策略。

对于 AI 从业者来说,这意味着:

  • 安全设计必须更加系统化:单一的技术手段无法提供足够保护
  • 评估方法必须更加严格:静态测试结果可能具有严重误导性
  • 团队建设必须更加专业化:安全不是普通开发者的副业,而是专门的技能

对于 AI 安全研究者来说,这提出了更高的要求:

  • 攻防并重:不仅要研究防御,还要深入理解攻击
  • 跨学科合作:需要结合博弈论、密码学、社会工程学等多个领域
  • 伦理责任:研究成果必须考虑被滥用的风险

在 AI 能力快速发展的今天,安全问题的复杂性也在快速演化。我们需要的不是更多的安全产品,而是更深的安全理解;不是更强的防护技术,而是更智慧的防护哲学。

"攻击者后手" 告诉我们,在 AI 安全的世界里,防御的智慧比防御的力量更重要。


* 参考资料:

  • 《The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against LLM Jailbreaks and Prompt Injections》(OpenAI, Anthropic, Google DeepMind, 2025)
  • HarmBench 评估基准
  • AgentDojo 测试环境
  • 机器之心技术报道 *

关键词标签: #AI 安全 #提示注入 #自适应攻击 #LLM 防御 #安全评估 #AI 治理

查看归档