Glasswing 启示：构建 AI Agent 漏洞发现的可观测性与决策追溯体系

2026 年 4 月，Anthropic 联合 AWS、Google、Microsoft、Cisco 等 12 家科技巨头启动了 Project Glasswing。该项目基于 Claude Mythos Preview 模型，旨在利用前沿 AI 能力主动识别并修复关键基础设施中的安全漏洞。Mythos Preview 在短短数周内已自主发现数千个零日漏洞，其中包括 OpenBSD 中潜伏 27 年的远程崩溃漏洞、FFmpeg 中历经 500 万次自动化测试仍未被发现的 16 年历史漏洞，以及 Linux 内核中可被用于权限提升的漏洞链。

这一突破性进展揭示了一个核心挑战：当 AI Agent 具备超越人类专家的漏洞挖掘能力时，我们如何确保其决策过程可观测、可审计、可追溯？本文从 Glasswing 的实践出发，探讨多智能体系统中安全漏洞发现的可观测性架构设计与工程化实施方案。

AI Agent 漏洞发现的可观测性挑战

传统漏洞挖掘依赖人类安全研究员的经验与直觉，其决策过程天然具备可追溯性 —— 研究员可以解释为何某段代码存在风险、通过何种路径触发漏洞。然而，当 Claude Mythos Preview 以完全自主的方式发现漏洞时，这一透明度消失了。模型能够在无需人工引导的情况下，自主分析代码、识别漏洞模式、构造利用链，但其内部推理过程对运维人员而言是黑盒状态。

Glasswing 项目揭示了一个关键趋势：AI 驱动的漏洞发现正在从 "辅助工具" 向 "自主代理" 演进。Mythos Preview 在 CyberGym 等评估基准上展现出远超前代模型的能力，这意味着未来安全审计将大量依赖 AI Agent 的自主决策。在此背景下，构建覆盖 "感知 - 推理 - 决策 - 执行" 全链路的可观测性体系，成为确保 AI 安全审计可信度的核心命题。

可观测性架构的三层设计

基于 Glasswing 的实践经验，AI Agent 漏洞发现的可观测性架构可分为三层：执行层追踪、推理层解析、意图层对齐。

执行层追踪关注 Agent 的具体行为 —— 访问了哪些代码文件、调用了哪些分析工具、生成了哪些测试用例、修改了哪些配置。这一层的技术实现可借鉴传统 APM（应用性能监控）的思路，但需针对安全审计场景进行定制。关键采集点包括：代码仓库访问日志、静态 / 动态分析工具调用链、沙箱执行环境的行为监控、网络请求与响应记录。建议采用 OpenTelemetry 标准进行数据埋点，确保跨 Agent 的追踪数据具备统一语义。

推理层解析是 AI Agent 可观测性的核心难点。与人类研究员不同，大语言模型的推理过程以隐式状态存在于注意力机制中，难以直接观测。Glasswing 的实践表明，可通过以下手段增强推理透明度：首先，强制模型输出结构化推理日志，要求其以 Chain-of-Thought 形式显式描述漏洞识别逻辑；其次，建立推理步骤与代码位置的映射关系，使每一条结论都能追溯到具体的代码片段；最后，引入外部验证器对模型推理进行交叉检验，确保结论的可靠性。

意图层对齐关注 Agent 的决策目标是否与组织安全策略一致。Mythos Preview 具备强大的代码理解与修改能力，这意味着其可能被诱导执行超出授权范围的操作。意图层监控需要建立明确的安全边界定义 —— 哪些代码库可以访问、哪些操作需要人工审批、哪些风险等级需要升级处理。建议采用策略即代码（Policy as Code）的方式，将安全策略编码为可执行规则，并在 Agent 决策链路中嵌入策略检查点。

多智能体协作的安全审计框架

Glasswing 的另一重要启示是：单一 Agent 的能力存在边界，复杂漏洞的挖掘需要多智能体协作。例如，权限提升漏洞的识别可能涉及代码审计 Agent、配置分析 Agent、利用链构造 Agent 的协同工作。这种协作模式对可观测性提出了更高要求。

跨 Agent 通信可观测性是首要问题。多智能体系统中，Agent 之间通过消息传递进行协作，这些消息可能包含部分结论、中间状态或行动指令。建议在消息总线层实施统一日志记录，捕获消息的发送方、接收方、内容摘要、时间戳与处理结果。对于敏感操作，应要求消息携带数字签名，确保通信的不可否认性。

共享状态一致性监控同样关键。多智能体协作往往涉及共享知识库或工作区，例如漏洞知识图谱、代码语义索引、历史审计记录等。需要监控共享状态的读写操作，检测并发冲突、数据漂移或未经授权的修改。建议采用事件溯源（Event Sourcing）模式，将状态变更记录为不可变事件流，便于事后审计与故障回溯。

决策依赖图谱构建是高级可观测性能力。通过分析 Agent 之间的调用关系与数据依赖，可以构建完整的决策依赖图谱。当某个结论被质疑时，可以沿依赖图谱向上追溯，识别所有影响该结论的 Agent 与数据源。这种图谱化表示为安全审计提供了全局视角，有助于发现潜在的级联风险。

工程化实施方案与关键参数

基于上述架构设计，以下是可落地的工程化实施方案与关键参数建议。

追踪采样策略：考虑到 AI Agent 可能产生大量日志，建议采用分层采样。对于执行层，实施 100% 全量采集；对于推理层，采用智能采样 —— 仅当检测到异常模式（如置信度低于阈值、推理步骤异常冗长）时才记录完整推理链；对于意图层，实施全量审计，确保所有策略违规事件都被捕获。

日志保留周期：执行层原始日志建议保留 30 天，用于日常故障排查；压缩后的摘要日志保留 90 天，用于趋势分析；安全事件相关日志永久保留，满足合规审计要求。推理层日志因体积较大，建议仅保留关键决策节点的完整记录，其余采用摘要形式存储。

实时告警阈值：建立分级告警机制。当单个 Agent 在 5 分钟内访问超过 100 个代码文件时触发关注级告警；当检测到策略违规尝试时触发警告级告警；当发现潜在漏洞利用成功迹象时触发紧急级告警，并自动隔离相关 Agent。

人工介入触发条件：并非所有决策都需要人工审批，但以下场景应强制引入人工审核 —— 涉及生产环境代码修改、风险评级为 Critical 的漏洞确认、跨组织边界的代码访问、以及模型置信度低于 85% 的结论。

可观测性仪表盘设计：建议构建三层视图。战术层面向一线安全工程师，展示当前活跃的 Agent、正在进行的审计任务、实时发现的漏洞列表；战役层面向安全团队负责人，展示漏洞趋势、Agent 效率指标、策略违规统计；战略层面向管理层，展示安全态势评分、风险敞口变化、投资回报分析。

风险与限制

尽管可观测性架构能够显著提升 AI Agent 安全审计的透明度，但仍存在若干限制。

推理不可完全观测：大语言模型的内部状态具有高度复杂性，即使强制输出推理日志，也无法保证日志完整捕获了模型的真实推理过程。存在 "表面推理" 与 "实际推理" 分离的风险，即模型可能基于某些未记录的隐式模式做出决策。

观测开销与性能权衡：全面的可观测性采集会引入显著的性能开销。在高并发场景下，日志写入、追踪数据上报可能成为瓶颈。需要在观测完整性与系统性能之间做出权衡，避免可观测性基础设施本身成为攻击目标。

对抗性规避：恶意 Agent 或受感染的 Agent 可能试图操纵观测数据，隐藏其真实行为。这要求可观测性基础设施本身具备高安全性，采用防篡改存储、加密传输、多副本冗余等机制。

结语

Project Glasswing 标志着 AI 驱动的安全审计进入新阶段。当 AI Agent 具备超越人类的漏洞挖掘能力时，可观测性不再是可选能力，而是确保这一能力安全、可信、可控的必要条件。通过构建覆盖执行层、推理层、意图层的可观测性架构，以及支持多智能体协作的安全审计框架，组织可以在享受 AI 安全审计效率提升的同时，保持对关键决策的掌控力。

未来，随着 AI Agent 在安全领域的深度应用，可观测性技术将持续演进。从简单的日志记录到智能的推理解析，从离线的审计回溯到实时的风险干预，可观测性将与 AI 安全能力同步发展，共同塑造更安全的数字基础设施。

参考来源

Anthropic. "Project Glasswing: Securing critical software for the AI era." Anthropic Official Website, 2026.
Anthropic. "Project Glasswing." Anthropic Project Page, 2026.

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。