从 Epsilon 漏洞回顾看生产环境 Bug 的系统化收集与分类

在软件工程中，Bug 的收集与分析往往停留在被动修复阶段 —— 问题暴露、紧急修复、发布补丁。然而，Google 软件工程师 Andrea Pivetta 在其 WASM 运行时项目 Epsilon 的安全审计实践中，展示了一种更具系统性的方法论：通过主动收集、模式分类与预防机制设计，将漏洞发现从 "事后救火" 转变为 "事前防御"。本文基于 Epsilon 被 AI 代理发现的 20 余个安全漏洞，提炼出一套可落地的 Bug 收集与分类体系。

从被动修复到主动发现

Epsilon 是一个约 11,000 行代码的纯解释型 WASM 运行时，设计目标是为不可信代码提供沙箱环境。尽管项目已通过官方 WASM 测试套件的全面验证，AI 代理仍在其中发现了超过 20 个安全漏洞，其中包括可导致沙箱逃逸的严重问题。这一案例揭示了一个关键认知：通过测试套件验证 correctness 与通过安全审计验证 security 是两个不同维度的问题。

传统回归测试关注功能正确性，而安全审计需要关注实现与规范的偏离。Epsilon 的漏洞发现方法论核心在于建立 "规范 - 实现" 一致性检查机制：验证器（validator）与虚拟机（VM）对同一字节码的语义理解是否一致，是安全漏洞滋生的温床。

三层漏洞分类体系

基于 Epsilon 的案例，可将生产环境 Bug 归纳为三个互有交叉的类别：

第一类：初始化语义偏差

"Zero Is Not Null" 漏洞是典型的初始化错误。在 Go 语言中，clear()函数将内存置零，但 Epsilon 将函数引用（funcref）表示为 int32，其中 -1 代表 null，非负值代表函数存储索引。当 clear()将 funcref 局部变量置为 0 时，实际上将其指向了全局函数存储的第一个条目 —— 一个本应私有的函数。

可落地参数：对于引用类型的默认值，需显式检查语言原语的语义映射，建立 "类型 - 内存表示 - 语义值" 对照表，而非依赖语言的零值初始化行为。

第二类：栈管理状态不一致

"Phantom Block Parameter" 漏洞展示了复杂 Bug 的形成机制：两个独立 Bug 的组合效应。第一个 Bug 是控制流块入口的栈高度记录时机错误 —— 在参数已入栈后记录，导致验证器与 VM 对 "块底" 位置的认知相差 N 个参数。第二个 Bug 是 unwind 操作在切片容量允许范围内 "复活" 了已丢弃的值。

这两个 Bug 单独存在时可能无害，但组合后允许攻击者通过精心构造的 WASM 模块调用其他模块的私有函数。这提示我们：栈高度管理需要跨组件（验证器、VM、控制流框架）的严格契约。

可落地参数：在控制流边界设置断言检查栈高度一致性；对 unwind 操作实施越界访问检测；对多 Bug 组合场景建立模糊测试（fuzzing）覆盖。

第三类：宿主接口信任边界

"Ghost in the Stack" 漏洞源于宿主函数的实际返回值与声明签名不匹配。VM 盲目信任宿主函数的声明签名，当宿主返回的结果数量少于承诺时，栈上残留的旧值被错误解释为返回值。

这属于典型的信任边界问题：VM 与宿主代码之间的接口是安全边界，任何跨边界的数据传递都需要运行时校验。

可落地参数：在宿主函数返回点实施结果数量校验；对宿主接口建立契约测试（contract testing）；在调试模式下启用完整调用栈快照比对。

AI 辅助审计的工作流

Epsilon 的漏洞发现采用了自动化脚本与领域特定技能（skill）相结合的方法。初始阶段使用脚本遍历关键代码区域（解析器、验证器、VM、内存管理、导入处理等），提示 AI 代理对照 WASM 2.0 规范进行偏离检测。后期转为使用结构化 skill，将审计知识沉淀为可复用的提示模板。

工具链配置建议：

模型选择：Gemini 3.1 Pro 在初始探索阶段表现优异，适合发现结构性问题；Claude Opus 4.7 适合深度代码分析
提示工程：明确约束 AI 不修改源代码，仅输出漏洞报告与 PoC；要求对照规范进行符合性检查
工作流管理：设置速率限制（如 10 秒间隔）避免触发服务商限制；为每个审计区域创建独立输出目录

回归测试策略与预防机制

基于漏洞模式分类，可设计针对性的回归测试策略：

测试金字塔调整：

单元测试层：增加引用类型初始化边界测试用例
集成测试层：添加控制流块参数生命周期测试套件
系统测试层：构建宿主接口契约违反场景

预防机制清单：

规范符合性门禁：在 CI 中集成规范对照检查，标记任何验证器与 VM 实现不一致的代码变更
类型系统加固：对内部类型表示建立显式转换层，禁止隐式类型混用
模糊测试覆盖：针对栈操作、控制流边界、宿主接口三类高风险区域建立持续模糊测试
安全审计集成：将 AI 辅助审计纳入发布流程，作为人工代码审查的补充

结语

Epsilon 的案例表明，系统化的 Bug 收集与分类能够显著提升安全审计的效率。通过建立 "初始化 - 栈管理 - 宿主接口" 三层分类体系，团队可以将有限的测试资源聚焦于高风险区域。更重要的是，这种分类驱动的思维能够将个案经验转化为可复用的预防机制，从根本上降低同类漏洞的复发概率。对于任何需要处理不可信代码的运行时系统而言，这或许是比修复单个漏洞更有价值的工程实践。

资料来源：

Andrea Pivetta, "All the bugs they found", 2026-05-18, https://andreapivetta.com/posts/all-the-bugs-they-found.html
Epsilon 项目仓库: https://github.com/ziggy42/epsilon

systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。