LLM 推理中 KV Cache 的 INT8/FP8 量化实践

在大语言模型推理过程中，KV Cache 是显存占用的核心来源之一。随着上下文长度从最初的 2K 扩展到当前的 128K 甚至更长，KV Cache 所消耗的显存已经从可以忽略的边际成本演变为制约 batch size 与并发数的瓶颈。INT8 与 FP8 量化技术为这一困境提供了有效的压缩路径，但其工程落地涉及校准策略选择、精度监控、硬件适配等多个维度，需要系统性的设计决策。

KV Cache 显存瓶颈的本质

Transformer 架构中的自注意力机制需要为每个 token 维护其 Key 和 Value 向量。在标准的 FP16 或 BF16 精度下，一个拥有 4096 隐藏维度、32 层、128K 上下文长度的模型，其 KV Cache 理论显存占用约为 128000 × 32 × 4096 × 2 × 2 字节，约等于 8GB。这还未计入实际部署时 batch size 大于 1 的倍数效应。当并发请求数增加或需要同时处理多个长文档时，显存很快成为限制 throughput 的首要因素。传统的量化方法通常只关注模型权重的压缩，而忽视了激活值与 KV Cache 这一大显存消耗源。量化 KV Cache 直接减少了一半（INT8）或更少（FP8）的显存占用，为扩大 batch size 或处理更长上下文提供了物理基础。

量化方案的技术选型

INT8 量化采用对称量化或非对称量化两种路径。对称量化将数值范围映射到 [-127, 127]，使用单一的 scale 因子；非对称量化则包含 zero-point 偏移，能够更好地处理分布不均匀的数据。对于 KV Cache 而言，由于 Key 和 Value 的数值分布通常围绕零值较为对称，且注意力分数的 softmax 计算对极端值敏感，对称 INT8 量化在多数模型上表现更为稳定。FP8 量化则更为精细，E4M3 格式提供更宽的动态范围，适合激活值；E5M2 格式则牺牲精度换取更广的表示范围，在梯度反向传播中更为常见。推理阶段推荐使用 E4M3 进行 KV Cache 量化，可在精度损失较小的情况下获得显著的压缩收益。

校准策略与精度权衡

量化过程中的校准决定了 scale 因子的计算方式，是影响模型精度的关键环节。常见的校准策略包括三种：最大绝对值校准取训练数据或代表性样本中 KV Cache 的最大绝对值作为量化范围，优点是实现简单且保证不溢出，但容易受到极端离群值影响导致量化粒度过粗；百分位校准取某个百分位（如 99.9%）的绝对值作为边界，牺牲少量溢出风险换取更精细的量化精度，对于注意力机制中偶尔出现的大值，这种策略往往更加合理；动态校准则在推理过程中根据实际输入动态调整 scale，虽然精度更高但引入额外的计算开销。对于生产环境，推荐使用百分位校准配合 99.9% 分位点，结合离线测试验证 BLEU、ROUGE 或特定任务的准确率指标，在精度下降不超过 0.5% 的前提下确定最终参数。

精度监控与回滚机制

工程实践中必须建立完善的精度监控体系。建议在量化前后对模型进行对比评测，选择 HumanEval、MMLU、LongBench 等标准 benchmark 覆盖不同任务类型，具体阈值可设定为单任务下降不超过 1%、平均分数下降不超过 0.5%。监控层面应当在推理服务中嵌入统计模块，记录每次请求的 KV Cache 数值分布（均值、方差、极值），当检测到分布显著偏离校准数据集时触发告警。回滚机制的设计同样重要：保留原始 FP16/BF16 的 KV Cache 内存池，当量化路径的 perplexity 连续上升超过阈值时自动切换；或者采用混合精度策略，对特定层或特定 attention head 保持高精度而对其余部分量化，这种细粒度控制能够在极端场景下挽救模型质量。

硬件适配与性能调优

不同的 GPU 架构对量化推理的支持程度存在差异。NVIDIA Ampere 架构（ A100 ）原生支持 INT8 张量核心运算，FP8 支持则需要 Hopper 架构（ H100 ）或更新的 GPU。在 A100 上部署 INT8 KV Cache 时，需要确保 CUDA kernel 正确调用 int8_tensor_core_mma 指令，避免数据在 GPU 内存与寄存器间频繁转换抵消量化收益。Memory bandwidth 是另一个需要关注的指标：INT8 量化后理论带宽需求降为原来的四分之一，但实际收益取决于 kernel 的 memory coalescing 效率，建议使用 NSight Systems profiling 验证显存读写模式。对于多卡部署场景，KV Cache 的跨卡共享需要考虑 NVLink 带宽与量化后数据布局的对齐方式。

工程落地建议

综合以上分析，给出以下工程实践参数建议作为起点：INT8 对称量化使用 99.9% 百分位校准，scale 因子按每层独立计算以适配不同层的数值分布；FP8 E4M3 量化可采用 per-tensor 粒度，配合动态 scale 因子更新但需评估额外开销；显存分配策略上建议保留 20% 的原始精度缓冲用于处理突发大值请求；监控维度应覆盖 perplexity 漂移、OOM 次数、量化溢出率等核心指标。实际部署后需要基于真实流量数据迭代校准参数，因为训练数据与推理数据的分布差异可能导致校准结果偏移。

参考资料

KV Cache 量化在 LLM 推理中的工程实践（Perplexity 搜索结果）
FP8 格式规范与 Transformer 量化研究（学术论文）