Hotdry.
ai-security-architecture

基于Signal警告的Agentic AI安全架构:可信执行环境与行为审计系统设计

针对Signal警告的AI代理安全风险,提出可信执行环境架构与行为审计系统,解决数据库暴露、提示注入和可靠性衰减三大核心威胁。

在 2025 年汉堡举行的第 39 届混沌通信大会(39C3)上,Signal 总裁 Meredith Whittaker 和战略与全球事务副总裁 Udbhav Tiwari 发表了题为 "AI Agent, AI Spy" 的演讲,对当前 agentic AI(代理式人工智能)的部署方式发出了严厉警告。他们指出,AI 代理需要访问敏感数据以代表用户执行任务,但现有的实现方式使其 "不安全、不可靠、易受监控"。这一警告揭示了当前 AI 代理系统的深层安全缺陷,需要我们重新思考整个安全架构。

Signal 警告的核心安全威胁分析

Signal 领导层指出的三大威胁构成了 agentic AI 安全架构设计的起点:

1. 数据库暴露风险

微软 Recall 功能的案例极具代表性。该功能每几秒截屏一次,通过 OCR 提取文本并进行语义分析,最终创建一个包含用户完整数字生活的数据库。Tiwari 指出,这种方法无法抵御恶意软件攻击和间接提示注入攻击,攻击者可以轻易访问这个数据库,从而绕过端到端加密(E2EE)。Signal 不得不在应用中添加标志来防止屏幕被录制,但这只是权宜之计。

2. 提示注入攻击

间接提示注入攻击是当前 AI 代理面临的最隐蔽威胁。恶意网站可以隐藏指令,诱使 AI 执行有害操作。由于 AI 网络浏览器能够读取并作用于网页内容,攻击者可能窃取电子邮件、访问账户、外泄数据、覆盖剪贴板或重定向用户到钓鱼网站。Whittaker 强调:"AI 代理需要访问你的 Signal 联系人和消息... 这种访问本身就是攻击向量,这实际上否定了我们存在的理由。"

3. 可靠性衰减问题

AI 代理的可靠性问题同样严重。Whittaker 指出,AI 代理是概率性的而非确定性的,每个步骤都会降低其准确性和最终行动的质量。如果 AI 代理每个步骤的准确率为 95%(目前还达不到),一个 10 步任务的最终成功率仅为 59.9%。30 步任务的成功率更是降至 21.4%。如果使用更现实的 90% 准确率,30 步任务的成功率仅为 4.2%。研究显示,最佳代理模型的失败率高达 70%。

可信执行环境(TEE)架构设计

针对上述威胁,我们需要构建一个多层次的可信执行环境架构:

硬件级隔离与内存加密

第一层防护必须在硬件层面实现。现代处理器提供的安全飞地(如 Intel SGX、AMD SEV)可以创建隔离的执行环境,确保 AI 代理的代码和数据即使在操作系统被攻破的情况下也能保持机密性和完整性。内存加密技术可以防止冷启动攻击和内存转储分析。

具体实现参数:

  • 飞地大小:最小 256MB,支持动态扩展
  • 内存加密:AES-256-XTS 模式,每页独立密钥
  • 远程证明:支持基于硬件的远程证明协议
  • 安全启动链:从硬件信任根到飞地镜像的完整验证

最小权限访问控制

AI 代理必须遵循最小权限原则,每个代理只能访问完成任务所必需的数据和系统资源。这需要细粒度的权限管理系统:

  1. 数据访问沙箱:为每个 AI 代理创建独立的数据访问沙箱,限制其只能访问特定类型和范围的数据。例如,邮件处理代理只能访问邮件相关数据,不能访问银行账户信息。

  2. 运行时权限监控:实时监控 AI 代理的系统调用和 API 访问,检测异常权限使用模式。使用基于行为的检测算法,识别偏离正常操作模式的访问尝试。

  3. 动态权限调整:根据任务复杂度和风险等级动态调整权限。高风险操作(如金融交易)需要更高的验证级别和更严格的权限限制。

安全数据存储架构

针对 Recall 类功能的数据库暴露风险,需要重新设计数据存储架构:

  1. 分布式加密存储:将用户数据分散存储在多个加密容器中,每个容器使用独立密钥。即使部分数据被泄露,攻击者也无法获得完整信息。

  2. 同态加密处理:对敏感数据使用同态加密,允许 AI 代理在加密状态下处理数据,无需解密即可执行计算任务。

  3. 零知识证明:对于需要验证的操作,使用零知识证明技术,证明某个陈述为真而不泄露任何额外信息。

行为审计系统实现

可信执行环境需要配合全面的行为审计系统,实现端到端的可追溯性和可验证性:

实时监控与异常检测

行为审计系统的核心是实时监控 AI 代理的每个操作步骤:

  1. 操作日志记录:记录每个 AI 代理的完整操作序列,包括输入数据、处理步骤、决策依据和输出结果。日志必须包含时间戳、代理标识符和操作上下文。

  2. 异常行为检测:使用机器学习算法分析操作模式,识别异常行为。检测指标包括:

    • 操作频率异常:短时间内大量相似操作
    • 权限升级尝试:未经授权的权限请求
    • 数据访问模式异常:访问非任务相关数据
    • 输出内容异常:生成不符合预期的输出
  3. 实时告警机制:检测到异常行为时立即触发告警,并根据风险等级采取相应措施:

    • 低风险:记录并通知管理员
    • 中风险:暂停相关操作,等待人工审核
    • 高风险:立即终止代理进程,隔离相关数据

可验证日志与审计追踪

审计系统必须提供不可篡改的可验证日志:

  1. 区块链锚定:将关键操作日志的哈希值定期锚定到公共区块链,确保日志的完整性和不可否认性。

  2. 零知识审计:允许第三方审计员验证系统合规性,而无需访问敏感用户数据。使用零知识证明技术证明系统按照预定策略运行。

  3. 时间戳服务:集成可信时间戳服务,为每个重要操作提供准确的时间证明。

透明度与可解释性

Whittaker 强调 AI 公司必须提供 "激进(或任何)透明度",这要求:

  1. 决策可解释性:AI 代理的每个决策都必须有可解释的依据。使用可解释 AI(XAI)技术,为复杂决策提供人类可理解的解释。

  2. 策略透明度:公开 AI 代理的操作策略和权限模型,允许用户和监管机构审查。

  3. 审计接口标准化:提供标准化的审计接口,支持第三方工具和监管机构的自动化审计。

监控风险防护策略

除了单个代理的安全,还需要考虑系统级风险。Fraunhofer 开放通信系统研究所的研究显示,当 AI 代理交互时,系统级风险可能在没有警告的情况下出现。反馈循环、共享信号和协调模式可能产生影响整个技术或社会系统的结果。

系统级风险识别

需要建立系统级风险识别框架:

  1. 交互模式分析:监控多个 AI 代理之间的交互模式,识别可能产生负面影响的集体行为。

  2. 反馈循环检测:检测可能放大风险的反馈循环。例如,多个交易代理可能无意中创建市场操纵模式。

  3. 资源竞争监控:监控共享资源(如 API 配额、计算资源)的竞争情况,防止资源枯竭导致的系统级故障。

反馈循环管理

针对系统级风险,需要实施反馈循环管理:

  1. 速率限制与配额管理:为每个 AI 代理设置操作速率限制和资源配额,防止单个代理或代理群体过度消耗系统资源。

  2. 协调机制设计:设计代理间的协调机制,避免冲突和竞争。可以使用集中式协调器或去中心化共识算法。

  3. 紧急熔断机制:当检测到系统级风险时,触发紧急熔断机制,暂停高风险操作,防止风险扩散。

实施路线图与技术参数

基于上述架构,我们提出以下实施路线图:

第一阶段:基础安全框架(3-6 个月)

  1. 实现硬件级隔离和内存加密
  2. 建立最小权限访问控制系统
  3. 部署基础的行为审计日志

技术参数:

  • 飞地支持率:目标覆盖 90% 的主流硬件
  • 权限粒度:至少支持 100 个不同的权限类别
  • 日志保留期:最少 180 天

第二阶段:高级防护能力(6-12 个月)

  1. 部署实时异常检测系统
  2. 实现同态加密数据处理
  3. 建立系统级风险监控

技术参数:

  • 异常检测准确率:>95%,误报率 < 5%
  • 加密处理性能:延迟增加 < 30%
  • 系统风险识别:支持至少 10 种风险模式

第三阶段:全面审计与合规(12-18 个月)

  1. 实现零知识审计能力
  2. 建立完整的透明度框架
  3. 通过第三方安全认证

技术参数:

  • 审计覆盖率:100% 的关键操作
  • 透明度评分:达到行业领先水平
  • 合规认证:获得至少 3 项国际安全认证

结论与展望

Signal 的警告为我们敲响了警钟,但不应成为阻碍 AI 代理技术发展的障碍。通过构建可信执行环境与行为审计系统,我们可以在不牺牲安全性的前提下推进 agentic AI 的应用。

关键成功因素包括:

  1. 硬件与软件协同:安全必须从硬件层面开始,延伸到软件架构
  2. 透明度优先:将透明度作为核心设计原则,而非事后添加的功能
  3. 持续演进:安全架构必须能够适应新的威胁和攻击模式

正如 Whittaker 所说,目前还没有 "保护隐私、安全和控制的解决方案,只有分类处理"。但我们相信,通过系统性的安全架构设计,我们可以将 agentic AI 从 "监控噩梦" 转变为可信赖的数字助手。

最终,AI 代理的安全不仅是技术问题,更是信任问题。只有建立真正安全、透明、可控的系统,我们才能赢得用户的信任,推动 agentic AI 技术的健康发展。

资料来源

  1. Signal 在 39C3 的演讲 "AI Agent, AI Spy"(2025 年 12 月)
  2. Coywolf 报道:Signal 总裁和副总裁警告 agentic AI 不安全、不可靠且是监控噩梦(2026 年 1 月 11 日)
查看归档