用 OxCaml 实现零分配 HTTP 服务器：内存池与栈分配实战

在高性能网络服务领域，内存分配一直是延迟的隐形杀手。每一次堆分配都可能触发 minor GC，进而导致尾延迟抖动。传统的 OCaml 运行时虽然已经相当高效，但面对极端低延迟场景时，堆分配带来的不确定性仍然是一个痛点。OxCaml 作为 Jane Street 对 OCaml 的性能扩展，提供了一套完整的零分配编程基础设施。本文将以一个实际的 HTTP/1.1 解析器项目 httpz 为例，深入剖析如何利用这些特性构建真正的零分配 Web 服务器。

为什么 HTTP 解析需要零分配

HTTP 解析是 Web 服务器的第一次关键路径。在传统实现中，每一次请求解析都涉及大量的临时对象创建：请求行记录、头部键值对、状态码枚举、Content-Length 整数等。这些对象虽然会在 minor heap 中快速回收，但累积效应仍然显著。特别是当服务器需要处理数万并发连接时，GC 的频率和暂停时间都会线性增长，导致尾延迟（p99、p999）急剧恶化。

OxCaml 的设计哲学是：让程序员声明值的局部性，让编译器决定分配位置。通过局部性注解，编译器可以将大量原本需要堆分配的值直接放在栈上。栈分配的值在函数返回时自动释放，既不需要显式的 free 操作，也不会触发任何 GC 机制。httpz 正是利用这一特性，将整个 HTTP 连接的解析生命周期完全限制在调用栈内，使得在稳态下服务器几乎不产生任何 GC 活动。

具体来说，httpz 将输入缓冲区限制为 32KB 的固定大小字节数组。这个大小足以容纳绝大多数 HTTP 请求的头部部分，POST 请求的 body 解析可以作为独立的扩展实现。通过这种方式，解析器的内存边界完全确定，为后续的栈分配优化提供了坚实基础。

非装箱类型的编译期验证

OxCaml 引入了一类全新的数值类型，称为非装箱类型（unboxed types）。与传统 OCaml 的 int（即使是小整数也会占用一个完整的机器字）不同，非装箱类型可以直接存放在寄存器中或嵌入到复合数据结构中，不产生任何堆分配开销。httpz 使用 int16# 类型来表示缓冲区中的偏移量和长度，这种选择基于两个关键观察：32KB 的缓冲区可以用 16 位无符号整数完全寻址，而 16 位操作在现代 CPU 上有专门的指令支持，编译器可以生成极其高效的代码。

非装箱记录的声明方式与传统记录有明显区别，需要使用 #{} 语法：

type span = #{ off : int16# ; len : int16# }

这个类型在内存中不占用任何堆空间，而是作为两个 16 位整数的直接表示存在。当编译器看到这种类型声明时，它会将值的表示直接嵌入到使用点，不需要任何间接访问或额外的内存查找。通过编译生成的 lambda 中间代码可以清晰看到这一优化：函数参数以 #(int16, int16) 的形式传递，而非装箱版本的 (int * int) 需要在堆上分配一个新的记录。

更进一步，httpz 的完整请求类型保持完全非装箱：

type request =
  #{ meth : method_
   ; target : span
   ; version : version
   ; body_off : int16#
   ; content_length : int64#
   ; is_chunked : bool
   ; keep_alive : bool
   ; expect_continue: bool
   }

每一个字段都是非装箱类型或位域枚举，整个 request 值可以直接在寄存器或栈上传递。这与传统的 OCaml 实现形成鲜明对比：传统实现中，一个类似的记录至少需要分配一个堆块，包含指向各个字段的指针。

OxCaml 提供了 @zero_alloc 属性，用于在编译期验证函数确实不产生任何堆分配。这个检查是静态的、全局的：编译器会分析函数的所有代码路径以及它调用的所有函数，确保没有任何路径会产生堆分配或触发 GC。例如，以下函数可以成功通过检查：

let[@zero_alloc] add (x : int16#) (y : int16#) : int16# =
  if x < #100S then I16.add x y else #0S

而以下函数会因为间接调用被视为潜在分配而失败：

let[@zero_alloc] rec iter f l =
  match l with
  | [] -> ()
  | hd :: tl -> f hd; iter f tl

局部分配与逃逸分析

局部分配（local allocation）是 OxCaml 栈分配机制的核心。默认情况下，OxCaml 编译器会尽可能将值分配在栈上，但某些情况下需要程序员显式标注来确保这一行为。stack_ 关键字可以强制一个表达式在栈上求值，而 local_ 标注则用于函数参数，承诺该参数不会逃逸到其作用域之外。

逃逸分析是这一切的关键。当一个值不会在其定义作用域之外被访问时，编译器就可以安全地将其分配在栈上。例如，解析函数内部的临时状态变量：

let parse_request (local_ buf) ~(pos : int16#) ~(len : int16#) =
  let mutable p = pos in
  let mutable start = pos in
  while p < len do
    let c = Bytes.get buf (I16.to_int p) in
    if c = '\r' then
      let method_span = #{ off = start; len = I16.sub p start } in
      (* method_span 只在这个作用域内使用，编译器会将其分配在栈上 *)
      p <- I16.add p #1S;
      start <- p
    else
      p <- I16.add p #1S
  done;
  method_span

这个例子展示了 OxCaml 对可变局部变量的原生支持。传统的 OCaml 需要使用 ref 类型来创建可变单元格，这会产生堆分配；而 OxCaml 允许直接在栈上声明可变变量，修改这些变量不会产生任何分配。

local_ 标注的函数参数有更严格的语义：它们不能被存储到任何可能逃逸当前位置的数据结构中。例如，以下代码是非法的：

let[@inline] store_header (local_ hdr) (list_ref : _ ref) =
  list_ref := hdr :: !list_ref  (* 错误：hdr 逃逸了 *)

这种限制确保了局部值确实只在栈上存活，编译器可以据此进行激进的优化。

返回局部值的 excalve 机制

当一个函数需要返回局部值时，local_ 标注本身是不够的，因为返回值本身就是一个逃逸行为。OxCaml 提供了 exclave_ 关键字来处理这种情况：它允许函数返回一个局部值，但通过类型系统的强制，确保调用者也会将其作为局部值处理。

在 HTTP 头部查找的场景中，这个特性特别有用：

val find : t list @ local -> Name.t -> t option @ local

let rec find_string (buf : bytes) (headers : t list @ local) name = exclave_
  match headers with
  | [] -> None
  | hdr :: rest ->
    let matches =
      match hdr.name with
      | Name.Other -> Span.equal_caseless buf hdr.name_span name
      | known ->
        let canonical = Name.lowercase known in
        String.( = ) (String.lowercase name) canonical
    in
    if matches then Some hdr else find_string buf rest name
;;

注意函数签名中的 @ local 标注：它表示参数和返回值都是局部值，必须在调用者的栈帧内使用。这形成了一个完整的约束链，确保整个遍历过程都不会产生堆分配。

exclave_ 块内的代码可以构建并返回局部值，但这个值的生命周期被严格限制在调用栈内。当函数返回时，调用者获得的只是一个指向栈内存的引用，只要调用者不将其存储到堆上，这个值就会随着栈帧的弹出而自动失效。

零分配检查器的工程实践

在工程实践中，@zero_alloc 属性不仅仅是一个优化指示器，更是一个文档和契约工具。它清晰地传达了函数的性能承诺：调用者可以确信这个函数不会触发任何 GC 事件。

启用检查后，编译器会进行一系列保守的分析。首先，所有间接调用（函数指针或高阶函数调用）都被视为潜在分配，因为编译器无法静态确定被调用函数的分配行为。其次，任何可能分配的操作（如创建列表、构造新记录、抛出异常）都会导致检查失败。最后，检查会传播到所有直接调用的函数：即使某个函数本身不分配，如果它调用的其他函数分配，检查也会失败。

这种保守性意味着 @zero_alloc 函数的编写需要格外小心。以下是一个实际的可变解析函数实现：

let[@zero_alloc] parse_int64 (local_ buf) (sp : span) : int64# =
  let mutable acc : int64# = #0L in
  let mutable i = 0 in
  let mutable valid = true in
  while valid && i < I16.to_int sp.#len do
    let c = Bytes.get buf (I16.to_int sp.#off + i) in
    match c with
    | '0' .. '9' ->
      acc <- I64.add (I64.mul acc #10L) (I64.of_int (Char.code c - 48));
      i <- i + 1
    | _ -> valid <- false
  done;
  acc

这个函数全程只使用栈上的可变变量，没有任何堆分配，因此可以通过 @zero_alloc 检查。相比之下，传统 OCaml 版本使用 ref 来实现同样的逻辑，会产生三次堆分配。

性能数据与工程权衡

httpz 项目提供了详细的性能基准测试，对比了传统 OCaml 实现与 OxCaml 零分配实现的差异。测试环境为合成基准（仅缓冲区传递，不涉及实际网络 I/O），使用 Core_bench 进行精确测量。

在小请求场景（35 字节，约等于简单的 GET 请求），httpz 耗时 154 纳秒，而传统解析器需要 300 纳秒以上。在中等请求场景（439 字节，包含若干 HTTP 头部），耗时分别为 1,150 纳秒和 2,000 纳秒以上。最关键的是堆分配指标：传统解析器在处理单个请求时会产生 100 到 800 个堆分配词，而 httpz 产生零分配。

这些数字背后的意义远超表面性能提升。零堆分配意味着 GC 在稳态下完全空闲：minor GC 不再被触发，major GC 的频率大幅降低。这直接转化为尾延迟的可预测性 —— 在 p99 和 p999 延迟指标上，零分配实现的抖动远小于传统实现。

当然，零分配编程也有其局限性和工程成本。并非所有 OCaml 特性都支持栈分配：一等模块、类和对象必须分配在堆上；包含可变字段的记录不能栈分配；异常机制也会产生堆分配。此外，激进的优化可能增加编译时间和代码复杂度，某些情况下需要在性能和可维护性之间做出权衡。

监控与持续验证

在生产环境中部署零分配 HTTP 服务器时，需要建立相应的监控体系。核心指标包括 GC 暂停时间分布、堆内存使用趋势，以及最重要的一一每秒请求处理量与延迟分布。当 GC 暂停时间在稳态下接近零时，说明零分配策略正在有效运行。

持续集成环节应该包含零分配检查器的自动验证。任何提交导致的 @zero_alloc 函数检查失败都应被视为阻断性错误。这确保了性能承诺不会在代码演进过程中被意外破坏。

小结

OxCaml 为高性能网络服务提供了一个独特的价值主张：保留 OCaml 的类型安全和函数式编程体验，同时提供接近 Rust/C 的性能控制粒度。零分配 HTTP 服务器的实现展示了这些特性的实际威力：通过非装箱类型、局部分配、@zero_alloc 检查器和 exclave_ 机制，程序员可以精确控制内存分配行为，消除 GC 对延迟的影响。

资料来源：https://anil.recoil.org/notes/oxcaml-httpz

systems