多智能体 LLM 系统通过将复杂任务分解为多个协作代理的协同工作,显著提升了 AI 应用的处理能力。然而,这种分布式架构在带来效率提升的同时,也引入了全新的安全攻击面。与传统单代理 LLM 系统相比,多智能体环境中的攻击者不仅可以针对单个模型发起攻击,还可以通过消息流、工具调用、共享内存和代理间的信任边界进行横向渗透。
攻击机制:Prompt Infection 的逃逸原理
域名伪装注入攻击的核心机制被研究者称为 "Prompt Infection"(提示感染),这是一种能够在多智能体系统中自我复制的攻击方式,其行为模式类似于计算机病毒。攻击者将恶意指令隐藏在看似合法的内容中,如检索文档、电子邮件、工具元数据或代理间通信消息,从而绕过传统的安全检测机制。
这种攻击的逃逸能力源于多智能体系统的固有特性。当系统中的一个代理被攻破后,恶意载荷可以传播到其他互联代理,形成链式反应而非单点故障。跨域协作进一步加剧了这种风险,因为不同组织、工具和策略的参与打破了 "所有参与者共享相同信任级别" 的假设。研究表明,即使代理不公开共享所有通信内容,多智能体系统仍然高度容易受到此类攻击的影响。
跨工具调用攻击面分析
多智能体系统的跨工具调用机制为攻击者提供了多个可利用的攻击向量:
工具投毒(Tool Poisoning):攻击者通过篡改工具描述、Schema 定义或元数据,使模型将这些被污染的内容视为可信指导。由于 LLM 在工具选择阶段依赖这些描述信息,恶意构造的工具定义可以诱导代理执行非预期的操作序列。
间接提示注入(Indirect Prompt Injection):攻击者通过检索内容、外部 API 响应或数据库查询结果注入恶意指令。这种方式特别危险,因为代理通常会将检索到的内容视为事实性信息,而不会对其进行额外的安全验证。
恶意工具调用链(Malicious Tool-Call Chaining):攻击者构造一系列看似无害的独立工具调用,但当这些调用按特定顺序执行时,会产生有害的复合效应。长连接、共享上下文和记忆持久化增加了暴露面,因为一个恶意指令可以在多轮对话中存活,或传播到后续参与的代理。
防御策略架构
针对多智能体 LLM 系统的域名伪装注入攻击,需要建立分层的防御体系:
最小权限原则(Least Privilege):每个代理应仅获得完成其特定任务所需的最小工具访问权限和数据范围。这意味着规划代理不应直接执行操作,执行代理不应访问敏感数据源,数据检索代理不应具备修改权限。通过权限分离,即使单个代理被攻破,攻击者也无法获得系统的完全控制权。
可信内容与不可信内容的分离:使用明确的分隔符、数据标记(Datamarking)或 Spotlight 技术,帮助模型区分系统策略与外部输入。这种分离不仅限于输入内容,还应扩展到代理间通信,确保每个代理能够识别消息的来源和可信度级别。
高风险操作的人工审批门控:对于涉及敏感数据访问、资金操作、权限变更或不可逆操作的工具调用,应强制引入人工审批环节。这种门控机制应在模型执行层之外实现,防止攻击者通过提示注入绕过安全检查。
架构层面的职责分离:将系统拆分为规划代理和执行代理,两者之间建立严格的验证边界。规划代理负责决策制定,执行代理负责具体操作,任何从规划到执行的转换都必须经过策略检查。这种设计遵循 "永远不要让一个代理同时解释不可信内容并基于该内容直接执行特权操作" 的安全准则。
可落地的工程实践
在实际部署中,以下参数和配置可以作为防御域名伪装注入攻击的基准:
工具调用监控清单:
- 记录所有工具调用的完整上下文,包括调用者身份、输入参数、输出结果和执行时间
- 对涉及敏感数据(如用户凭证、支付信息、个人身份信息)的工具调用实施额外的审计日志
- 设置工具调用频率阈值,当单个代理在短时间内发起异常数量的工具调用时触发告警
输入验证参数:
- 对所有外部输入实施长度限制(建议最大 4096 字符)和字符白名单验证
- 对检索内容实施来源可信度评分,拒绝来自未验证域名的内容
- 在提示模板中使用明确的边界标记(如
<system>、<user>、<tool_result>)区分不同来源的内容
代理通信安全:
- 实施代理间消息的签名验证机制,确保消息来源的真实性
- 对跨域代理通信实施端到端加密,防止中间人攻击
- 建立消息传播深度限制,防止恶意提示在系统中无限扩散
持续安全测试:
- 建立针对多智能体系统的红队测试流程,定期模拟 Prompt Infection 攻击
- 使用自动化工具扫描工具描述和 Schema 定义中的潜在注入点
- 对代理协作流程进行模糊测试,识别异常调用链
结论
多智能体 LLM 系统的域名伪装注入攻击代表了 AI 安全领域的新兴威胁向量。与传统的单点攻击不同,这种攻击利用多智能体架构的互联特性,通过跨工具调用实现横向移动和持久化。防御此类攻击需要在架构设计、权限管理和运行时监控等多个层面建立纵深防御体系。
关键的安全准则是:永远不要让一个代理同时解释不可信内容并基于该内容直接执行特权操作。通过在规划和执行之间引入策略检查、确定性验证器和审批门控,可以有效阻断攻击的传播路径。随着多智能体系统在生产环境中的广泛部署,建立针对此类攻击的标准化防御框架将成为 AI 安全工程的重要课题。
参考来源
- Lee, D., & Tiwari, M. (2024). Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems. arXiv:2410.07283.
- Seven Security Challenges That Must be Solved in Cross-domain Multi-agent LLM Systems. arXiv:2505.23847.
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。