纯 C 手写 Transformer 推理引擎：karpathy/llama2.c 设计与实现分析

在深度学习框架层出不穷的今天，使用 Python 和 PyTorch、TensorFlow 等库实现 Transformer 模型已是行业标配。然而，Andrej Karpathy 于 2023 年推出的 llama2.c 项目证明了另一种可能性：仅用不到 700 行纯 C 代码，无需任何外部机器学习依赖，即可实现完整的 Llama 2 架构推理引擎。这一项目不仅具有极高的教育价值，更为嵌入式部署、浏览器端推理等场景提供了轻量级解决方案。

项目定位与设计哲学

llama2.c 的核心目标并非追求极致性能，而是追求极致的简洁性与可读性。Karpathy 在项目 README 中明确指出，这一 repo 的设计理念是「超级简单、最小化、教育导向」。与 llama.cpp 这样的生产级推理引擎相比，llama2.c 刻意硬编码了 Llama 2 的网络架构，省去了复杂的算子注册与动态图解析机制，从而将整个推理流程压缩到单个源文件 run.c 之中。

从技术选型角度来看，纯 C 实现带来了显著的优势。首先是编译后的二进制体积可控 —— 对于 15M 参数的小模型，编译后的可执行文件仅占用几 MB 空间；其次是运行时零依赖，无需在目标机器上安装 Python 解释器或任何 ML 库，这对于边缘计算设备尤其重要；最后是跨平台兼容性，标准 C 代码可以在 Windows、Linux、macOS 以及嵌入式系统上无缝编译运行。

核心架构与算子实现

整个推理引擎的核心逻辑集中在 run.c 文件中，代码行数约为 700 行。实现层面采用了标准的 Llama 2 架构，包括旋转位置编码（RoPE）、SwiGLU 非线性激活函数、RMSNorm 归一化以及多头注意力机制。值得注意的是，项目中所有矩阵运算均使用手写的朴素实现，没有调用任何 BLAS 库，这在教学层面有助于理解底层计算过程。

多头注意力是 Transformer 最核心也是计算量最大的模块。llama2.c 中的实现采用了标准的 QKV 分离架构：输入向量分别经过三个独立的线性层映射为 Query、Key、Value，随后计算注意力权重并对 Value 进行加权求和。项目支持多头注意力（MHA）与多查询注意力（MQA）两种模式，后者通过减少 Key 和 Value 的头数来降低显存与计算开销。

RMSNorm 的实现相比 LayerNorm 更加简洁，只需计算均方根并进行归一化，无需计算均值。代码中保留了 FP32 单精度浮点运算，以确保推理结果的数值稳定性。对于更大规模的模型，项目提供了 int8 量化版本 runq.c，通过动态量化和反量化操作，在矩阵运算中使用 int8 整数代替 FP32 浮点数，可实现约 3 倍的推理加速，同时将模型体积缩减至原来的四分之一。

性能表现与优化策略

在性能方面，llama2.c 交出了相当亮眼的成绩单。在 M1 MacBook Air 上，15M 参数模型的推理速度可达约 110 tokens / 秒；42M 参数模型仍能保持可交互的响应速度。对于 Meta 的 7B 参数模型，使用 FP32 推理时约为 4.6 tokens / 秒，而使用 int8 量化后可达 14 tokens / 秒。这一性能对于轻量级应用而言已经具备实用价值。

项目提供了多层次的编译优化选项。默认的 make run 使用 -O3 优化级别，开启自动向量化、循环展开和分支预测优化。若追求更高性能，可使用 make runfast 编译选项，它会在 -O3 基础上进一步启用 -Ofast，放宽部分 IEEE 浮点标准以换取更激进的优化。对于多核 CPU，添加 OpenMP 支持可以显著提升吞吐量：使用 clang -Ofast -fopenmp -march=native 编译后，通过 OMP_NUM_THREADS 环境变量控制并行线程数。需要注意的是，线程数并非越多越好，通常设置为物理核心数而非逻辑核心数效果最佳，因为超线程会导致缓存竞争和通信开销。

模型格式与工作流

llama2.c 使用自定义的二进制模型格式。训练好的 PyTorch 模型需要通过 export.py 脚本转换为 .bin 文件，转换过程中会进行权重转储和架构参数序列化。项目内置了对 TinyStories 数据集上训练的小模型支持，同时也支持导出 Meta 官方的 Llama 2 检查点 —— 用户需先从 Meta 获取模型权重，然后运行转换脚本生成兼容格式。

分词器方面，项目默认使用 Llama 2 的 32000 词表，但也支持训练自定义分词器。通过 sentencepiece 库，用户可以针对特定领域数据训练更紧凑的词表，从而减少模型参数数量和推理时的计算量。这种定制化能力对于构建垂直领域的轻量级应用非常有价值。

工程启示与应用场景

llama2.c 项目为机器学习工程实践提供了重要启示。首先证明了即使是最前沿的大模型技术，其核心计算逻辑也可以用基础工具实现，这有助于加深对模型内部机制的理解。其次，这种「最小化实现」思路在特定场景下具有独特价值 —— 例如在浏览器中通过 WebAssembly 运行、在嵌入式设备上部署，或作为教学演示工具。

目前该项目已衍生出大量社区移植版本，包括 Rust、Go、JavaScript、Zig、Julia 等语言的实现，形成了活跃的开源生态。这些衍生项目在保持核心逻辑不变的前提下，各自针对目标平台进行了适配与优化，进一步扩展了纯 C 推理引擎的应用边界。

参考资料

karpathy/llama2.c - GitHub

compilers