Zig 错误载荷的零开销内存布局：诊断模式与 Tagged Union 的工程权衡

在系统级编程语言中，错误处理的内存布局往往是一个零和博弈：要么为每个错误预留足够的空间来携带丰富的诊断信息，要么保持极小 footprint 但牺牲调试体验。Zig 语言选择了一条独特的道路 —— 错误联合（Error Union）类型不支持内嵌 payload，而是通过 "诊断模式"（diagnostic pattern）将错误上下文分离到调用方提供的独立结构中。这种设计并非功能缺失，而是基于零开销抽象（zero-cost abstraction）原则的深思熟虑。

错误联合的未指定布局与编译器自由

Zig 的错误联合类型使用 ! 操作符声明，例如 anyerror!u64 或自定义错误集 FileError![]u8。与 Rust 的 Result<T, E> 或许多语言中的 tagged union 不同，Zig 明确不指定错误联合的内存布局。官方文档指出，错误联合概念上是 "error tag + payload T"，但编译器可以自由选择最高效的表示方式，甚至可以在许多情况下完全省略 tag。

这种未指定性（unspecified layout）是零开销优化的关键。编译器可以利用 niche optimization 技术：例如，如果 payload 是指针类型，可以用地址 0 表示 null；对于整数类型，可以使用特定的保留值（如 i32 的 0x80000000）来表示错误状态。这意味着 ?i32 或 FileError!i32 可能只需要 32 位而非 64 位 ——tag 的存在完全通过 payload 的 "不可能值" 来隐式编码。

相比之下，Zig 的 tagged union（union(enum)）提供了强布局保证：tag 必须显式存储，union 的大小至少为 max(size_of(variants)) 加上 tag 的占用，且对齐方式遵循 ABI 规范。这种可见的内存成本是 tagged union 能够支持 switch 表达式、模式匹配和指针字段访问的代价。

Tagged Union 的固定成本与优化限制

当开发者尝试在 Zig 中模拟带 payload 的错误（类似于 Result<T, E>）时，通常会定义一个 tagged union：

const Result = union(enum) {
    ok: u32,
    err: Diagnostic,  // 假设 Diagnostic 包含行号、列号等
};

这种方案的问题在于每个调用点都要为最大 payload 付费。无论函数实际上返回的是成功值还是错误，栈帧都必须预留 max(sizeof(u32), sizeof(Diagnostic)) 的空间。更糟糕的是，一旦诊断信息被编码进 tagged union，编译器很难证明 "诊断部分未被使用" 并将其安全移除 ——tagged union 的布局承诺阻止了这种激进优化。

此外，自定义 Result 类型会失去 Zig 错误处理的核心语法支持：try、catch 和 errdefer 无法与 tagged union 配合使用。开发者必须手动展开每个调用，编写大量的 switch 表达式，并且容易在资源清理逻辑中出错。正如社区成员 Mike 在实践中体会到的："Everywhere that you return an error, you must manually first set the result variable and then return it... That's risky."

诊断模式：分离 payload 的工程智慧

Zig 社区推荐的替代方案是诊断模式（diagnostic pattern）：错误返回函数接受一个额外的指针参数，用于填充诊断信息。调用者可以传入空结构体（.{}）来表示 "我不关心详情"，或者传入预分配的 Diagnostic 结构体来获取完整的错误上下文。

const Diagnostic = struct { line: usize, col: usize };

fn parseJson(src: []const u8, diag: ?*Diagnostic) !Value {
    // 出错时填充 diag（如果非 null）
}

这种设计的优势在于零开销的可选性。当调用者不需要诊断信息时，不需要为 Diagnostic 结构体支付任何内存或拷贝成本；当需要时，诊断信息存储在调用方控制的内存中，错误联合本身只传递错误码。这与 Zig 的 "显式优于隐式" 哲学一致 —— 你不会因为疏忽而在发布版本中携带臃肿的错误上下文。

工程权衡与选择建议

在实际工程中，选择纯错误联合、诊断模式还是 tagged union，取决于具体场景：

使用内置错误联合当你需要零开销的错误传播，且错误码本身足以描述问题（如 OutOfMemory、FileNotFound）。这是 Zig 标准库的主流选择。
使用诊断模式当你需要为特定调用提供额外上下文（如解析器的行列号、网络请求的延迟详情），但希望保持 "不使用时零成本" 的特性。这也是 C API 导出的友好方案，因为 extern 结构体比 tagged union 更容易跨 ABI 使用。
使用 tagged union当你需要一个真正的运行时多态类型，且必须能够 switch 匹配所有变体。但要意识到这种选择的固定内存成本，以及失去 try/errdefer 语法糖的事实。

Zig 的错误处理设计提醒我们：语言特性的 "缺失" 有时是有意的减法。通过拒绝将 payload 内嵌到错误联合中，Zig 保持了编译器优化的最大自由度，同时为那些确实需要丰富错误信息的场景提供了显式、可控的替代方案。

参考来源

Mike 的博客文章《How I learned to love Zig's diagnostic pattern》，详细对比了诊断模式与自定义 Result 类型的实现复杂度与资源清理安全性
Reddit 讨论《My reasoning for why Zig errors shouldn't have a payload》，从语言设计角度论证了 payload 分离的必要性
Zig 官方语言参考文档《Error Union Type》，阐述了错误联合的语义与未指定布局特性
GitHub Issue #1922《More control over the data layout of tagged unions》，讨论了 tagged union 布局控制的需求与限制