Prompt缓存淘汰策略的延迟-吞吐量权衡：从LRU到自适应优化

随着大型语言模型（LLM）在生产环境中的广泛部署，Prompt 缓存已成为降低推理成本、提升响应速度的关键技术。通过重用预计算的注意力状态（KV 缓存），系统可以跳过重复计算，显著减少延迟。然而，缓存空间有限，如何选择淘汰策略直接影响系统的延迟分布、吞吐量以及整体成本效益。本文深入分析传统缓存淘汰策略在 LLM 场景下的适用性，探讨延迟 - 吞吐量权衡，并提供自适应策略的设计思路与工程落地参数。

Prompt 缓存的基本原理与性能收益

Prompt 缓存的核心思想是重用跨提示共享重叠文本段（如系统消息、上下文文档）的注意力状态。在解码器架构的 Transformer 模型中，每个新生成的 token 都需要计算 Key 和 Value 状态。通过缓存这些状态，系统可以避免重复计算，从而大幅降低推理延迟。

根据 Google Research 的研究，Prompt Cache 技术可以在 GPU 上实现高达 8 倍的延迟降低，在 CPU 上甚至可达 60 倍。这种性能提升主要来自两个方面：一是减少了计算开销，二是降低了内存带宽需求。OpenAI 和 Anthropic 的报告显示，通过有效的缓存管理，可以节省 50-90% 的推理成本。

然而，KV 缓存的内存占用随输入序列长度线性增长。在长上下文场景下（如 128K 到 1M tokens），缓存管理成为关键瓶颈。固定缓存预算下，需要高效的淘汰策略来决定哪些条目应该被保留，哪些应该被驱逐。

传统淘汰策略在 LLM 场景下的表现

LRU（Least Recently Used）：简单但尾部延迟不佳

LRU 是最常用的缓存淘汰策略，它假设最近使用的条目最有可能被再次访问。在通用缓存场景中，LRU 表现良好，但在 LLM 推理中却存在显著局限性。

LLM 对话通常具有不同的长度和访问模式。LRU 忽略对话长度的差异性，可能导致长对话的缓存条目被过早驱逐，而短对话的条目却占据宝贵空间。更严重的是，LRU 在优化尾部延迟（P90、P95）时可能表现任意差，因为它无法区分哪些条目对高百分位延迟影响最大。

研究表明，标准 LRU 在高百分位延迟优化方面存在固有缺陷。当系统负载不均匀或对话长度差异较大时，LRU 可能导致尾部延迟显著增加，影响用户体验。

LFU（Least Frequently Used）：频率优先的局限性

LFU 基于访问频率进行淘汰，假设频繁访问的条目更有价值。在 LLM 场景中，LFU 可能更适合处理重复性高的查询模式，如常见问题回答、模板化对话等。

然而，LFU 存在几个问题：一是 "频率污染"，新加入的条目可能因为初始频率低而被过早淘汰；二是需要维护频率计数器，增加内存开销；三是在动态变化的对话模式中，历史频率可能无法准确预测未来访问。

ARC（Adaptive Replacement Cache）：自适应的复杂性

ARC 试图结合 LRU 和 LFU 的优点，通过动态调整两个列表（T1 和 T2）的大小来适应访问模式。理论上，ARC 应该能更好地处理混合工作负载。

但在 LLM 推理中，ARC 的实现复杂度较高，需要维护多个数据结构和调整参数。更重要的是，ARC 的设计假设可能不完全符合 LLM 特有的访问模式。对话的时序相关性、长度差异以及注意力机制的独特性，使得通用自适应策略需要专门调整。

尾部延迟优化与 T-LRU 策略

针对 LRU 在尾部延迟优化方面的不足，研究人员提出了 Tail-Optimized LRU（T-LRU）。该策略的核心洞察是：不同对话对尾部延迟的贡献不同，应该优先保留那些对高百分位延迟影响最大的缓存条目。

T-LRU 引入 "Tail Excess Latency（TEL）" 作为优化指标，该指标惩罚超过用户选定阈值（ξ）的延迟。策略主动修剪那些超过 "TEL-safe budget"（L + Q - ξ）的缓存条目，其中 L 是当前对话长度，Q 是队列长度。

实验表明，T-LRU 可以将 P90 Time to First Token（TTFT）延迟降低 27.5%，相比标准 LRU 有显著改进。这种改进来自更智能的缓存管理：T-LRU 识别并优先保留那些可能对尾部延迟产生重大影响的对话状态，而不是简单地基于最近使用时间。

然而，T-LRU 也存在权衡：优化尾部延迟可能略微增加平均延迟。这是典型的平均 vs 尾部性能权衡，需要在系统设计中仔细考虑。

基于内容感知的淘汰策略

除了基于访问模式的策略，基于内容感知的方法在 LLM 缓存中展现出独特优势。

KeyDiff：键相似性驱动的淘汰

KeyDiff 方法基于一个关键观察：在 LLM 推理中，具有区分性的 Key 往往具有较高的注意力分数。该方法通过计算 Key 之间的相似性，选择最具代表性的条目保留在缓存中。

KeyDiff 的优势在于：1）不依赖注意力分数，可以与 FlashAttention 等优化注意力机制兼容；2）提供理论保证，能够最大化 Key 多样性；3）在 8K 缓存预算下，性能下降小于 0.04%，相当于 23% 的 KV 缓存减少。

这种方法特别适合资源受限环境，如边缘设备部署，可以在严格的内存限制下处理任意长的提示。

SAGE-KV：自注意力引导的淘汰

SAGE-KV（Self-Attention Guided Eviction）利用 LLM 自身的注意力机制来指导缓存淘汰。研究发现，在多样化的长上下文任务中，注意力表现出稀疏性，LLM 隐式地 "知道" 哪些 token 可以在预填充阶段后被丢弃。

SAGE-KV 在预填充后执行一次性的 top-k 选择（在 token 和 head 级别），压缩 KV 缓存。评估显示，该方法在 LongBench 基准测试中保持与完整注意力相当的准确性，同时实现 4 倍的内存效率提升。

与静态方法（如 StreamLLM）相比，SAGE-KV 在准确性上有所改进；与动态方法（如 Quest）相比，它在内存效率上提高 2 倍。

自适应策略设计与工程落地

策略选择矩阵

在实际工程中，没有一种策略适合所有场景。以下是基于不同工作负载特征的策略选择建议：

短对话、高重复性：LFU 或 ARC 可能表现更好，因为可以捕捉重复模式
长上下文、资源受限：KeyDiff 或 SAGE-KV 更适合，可以最大化缓存效用
尾部延迟敏感：T-LRU 是首选，专门优化高百分位性能
混合工作负载：考虑分层策略或自适应切换机制

关键监控指标

实施缓存淘汰策略时，需要监控以下关键指标：

缓存命中率：不同百分位（P50、P90、P99）的命中率分布
延迟分布：TTFT 和 Time Per Output Token（TPOT）的百分位延迟
内存使用效率：缓存条目利用率、碎片化程度
策略切换开销：策略切换时的性能抖动
成本效益比：缓存节省与性能提升的权衡

工程参数调优

缓存大小设置：基于可用内存和工作负载特征动态调整。建议初始设置为可用 GPU 内存的 30-50%
淘汰阈值：对于 T-LRU，ξ 值通常设置在 P90 延迟目标的 1.2-1.5 倍
预热策略：新对话的初始缓存分配策略，避免 "冷启动" 问题
批量处理优化：在批量推理场景中，考虑跨批次的缓存共享策略

自适应机制设计

理想的自适应系统应该能够：

实时检测工作负载变化：通过滑动窗口分析访问模式、对话长度分布等特征
动态策略切换：在检测到模式变化时平滑切换到更合适的策略
多策略协同：对不同类型的对话应用不同的淘汰策略
反馈循环优化：基于实际性能数据持续调整策略参数

实施注意事项与最佳实践

内存管理优化

分层缓存：结合 GPU 内存和 CPU 内存（或 SSD）实现多级缓存
压缩技术：对 KV 缓存应用量化或稀疏化压缩
预分配策略：避免动态内存分配带来的碎片和延迟

并发与一致性

锁粒度优化：细粒度锁或无锁数据结构减少竞争
副本策略：对高频访问条目维护只读副本
一致性保证：确保缓存失效时的数据一致性

部署策略

渐进式 rollout：从少量流量开始测试新策略
A/B 测试框架：同时运行不同策略并比较性能
回滚机制：检测到性能下降时自动回退到之前版本

未来方向与挑战

模型感知的缓存管理

未来的缓存系统可能更加 "模型感知"，利用 LLM 的内部表示来指导缓存决策。例如，基于注意力权重的预测、基于语义相似性的聚类等。

硬件协同优化

随着专用 AI 硬件的发展，缓存管理可以与硬件特性更紧密地结合。例如，利用 HBM 内存的特性优化缓存布局，或使用硬件加速的相似性计算。

多租户与资源共享

在云环境中，多个模型或租户共享缓存资源。需要更复杂的调度和隔离机制，确保公平性和性能可预测性。

动态工作负载适应

未来的系统需要更好地适应动态变化的工作负载，包括突发流量、季节模式、新对话类型的出现等。

结论

Prompt 缓存淘汰策略的选择对 LLM 推理系统的性能、成本和用户体验有深远影响。传统策略如 LRU、LFU、ARC 在 LLM 场景下各有局限性，需要针对性的改进。T-LRU 通过优化尾部延迟，在用户体验关键指标上取得显著改进；基于内容感知的方法如 KeyDiff 和 SAGE-KV 则在资源效率方面表现突出。

在实际工程中，没有银弹。最佳实践是建立监控 - 分析 - 调整的闭环，根据具体工作负载特征选择或组合合适的策略。自适应系统设计、细粒度监控和多策略协同将是未来发展的关键方向。

通过精心设计的缓存淘汰策略，可以在不增加硬件成本的情况下，显著提升 LLM 推理系统的性能和经济性，为大规模 AI 应用部署奠定坚实基础。

资料来源：

Google Research, "Prompt Cache: Modular Attention Reuse for Low Latency Inference"
OpenReview, "Tail-Optimized LRU (T-LRU) for LLM Prompt Caching"
arXiv:2504.15364, "KeyDiff: Key Similarity-Based KV Cache Eviction"
arXiv:2503.08879, "LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction"