2026 年 3 月 6 日,Anthropic 悄然将 Claude 模型的提示缓存(Prompt Caching)生存时间(TTL)从原有的 1 小时缩短至 5 分钟。这一变更在当月下旬被开发者社区发现并在 Hacker News 上引发广泛讨论,随后 Anthropic 官方确认该变更为 “ongoing cache optimization” 的有意调整。与常规产品更新不同此次变更既未发布公告也未提供选择机制,直接影响了所有依赖长缓存策略的生产系统。本文将从技术原理、影响范围和工程应对三个维度系统解析这一事件。
缓存机制的运行原理与 TTL 角色
Anthropic 的提示缓存是一种前缀缓存(Prefix Caching)机制,通过识别用户请求中的共同前缀部分,将其存储在高速 KV 缓存中以便后续请求复用。当多个请求共享系统提示(System Prompt)、工具定义或上下文框架时,缓存命中可以显著降低首 token 延迟并减少计费 token 数量。TTL 在这一机制中决定了缓存条目在未被显式失效前的有效存活周期,TTL 越长意味着缓存被复用的窗口越宽,尤其对于长时间运行的多轮对话或持续迭代的代码审查任务至关重要。
在 3 月 6 日变更之前,Claude 的缓存 TTL 默认为 1 小时,这个时间窗口足以覆盖大多数单日开发工作流。变更后,TTL 大幅压缩至 5 分钟,直接导致超过 1 小时的长时间任务在缓存失效后需要重新传输完整的上下文前缀,缓存命中率呈数量级下降。根据 Hacker News 上开发者报告的实际观测数据,变更前后的缓存命中率差异在某些场景下达到 12 倍之巨。
成本结构与延迟的量化影响
TTL 下调对成本的影响可以从两个层面理解。首先是直接的 API 调用费用:由于缓存失效加速,任何跨越 5 分钟阈值的任务都需要重新发送完整的上下文前缀,系统提示和工具描述的 token 将被重复计费。假设一个典型开发场景中,开发者每天使用 Claude Code 进行 8 小时的项目开发,系统提示和工具定义约占每次请求的 2000 token,按照变更前 1 小时缓存策略和变更后 5 分钟策略分别计算,单日额外消耗的计费 token 增量可达数万 token,对于月度 API 支出而言是显著的成本膨胀。
其次是延迟影响。缓存命中时的首 token 延迟(Time to First Token,TTFT)通常在 50 至 100 毫秒量级,而非缓存命中则需要重新执行完整的上下文处理流程,TTFT 可能攀升至 500 毫秒甚至更高。对于需要实时交互的编码助手场景,这种延迟差异会直接反映在用户体验的卡顿感上。部分开发者反馈,在变更后进行长时间代码重构任务时,缓存失效瞬间的响应迟滞变得尤为明显。
值得注意的是,Anthropic 官方在后续回应中指出,1 小时缓存策略 “would actually cost MORE money if there was a global 1h default for ALL prompts”,理由是并非所有提示都具备足够的后续复用概率,长时间保留这些低价值缓存条目反而增加基础设施开销。这一解释揭示了缓存策略设计中的一个核心权衡:缓存的边际收益随 TTL 延长而递减,但边际成本(GPU 显存占用、缓存查找复杂度)则呈线性增长。
生产系统的工程应对策略
面对缓存 TTL 缩短带来的成本与体验双重压力,工程团队可以采取以下多层次的应对策略。
第一层是架构层面的会话拆分。对于持续时间超过 5 分钟的任务,主动将会话拆分为多个短会话,并在每个子会话开头通过系统提示显式注入关键上下文。这种策略的实质是将原本依赖服务端缓存的上下文保持转化为客户端管理的状态传递,虽然增加了工程复杂度,但可以确保长任务不再受制于服务端缓存策略的频繁失效。实施时需注意上下文压缩,确保每个新会话的开头不会引入过大的前缀重复开销。
第二层是客户端缓存层的补充引入。在应用侧实现本地缓存机制,记录已发送的完整上下文指纹(Hash),当检测到当前请求与近期请求共享前缀时,优先使用本地缓存的已发送内容进行比对,仅传输差异部分。虽然 Claude 的 API 不直接支持客户端驱动的缓存声明,但通过精心设计的多轮对话结构,可以最大限度地利用服务端缓存的短期命中窗口,将核心的上下文框架在 5 分钟内集中消费。
第三层是成本监控与告警的强化。部署基于 token 消耗的实时监控面板,设置单日预算阈值并配置渐进式告警,以便在缓存策略变更导致消费异常时第一时间感知。对于企业级应用,建议将 API 调用日志与缓存命中率指标纳入日常运维仪表盘,将缓存失效导致的额外消耗纳入成本预测模型。
第四层是模型与套餐的重新评估。如果生产环境对缓存效率高度敏感且成本压力显著,可以考虑迁移至其他提供更长缓存 TTL 的模型提供商,或评估 Anthropic 的企业级套餐是否提供更长的缓存选项。在做出此类决策前,建议进行为期两周的 A/B 测试,分别在 1 小时缓存假设和当前 5 分钟策略下测量实际 token 消耗差异,以数据驱动决策。
深层动因与行业启示
从更宏观的视角审视此次 TTL 变更,背后的核心驱动力是 GPU 算力的供需失衡。Anthropic 在回应中坦诚 “我们 have no choice” 和 “cannot meet the new demand”,这与 2025 年末以来 AI 推理算力短缺的行业大背景相呼应。各大模型厂商在算力有限的约束下被迫在模型质量、响应速度和成本之间做出取舍,缓存策略的收紧本质上是一种隐性的算力配额再分配。
对于依赖 LLM 服务构建关键业务的团队而言,此次事件提供了一个重要的教训:云厂商的隐性策略变更可能比公开的功能调整更频繁且更难追踪。建立多供应商架构、实现缓存层抽象、以及保持对 API 行为变化的监控能力,正在从 “最佳实践” 变为 “工程基本功”。
资料来源:本的分析依据 Hacker News 上关于 Anthropic 缓存 TTL 变更的讨论及 Anthropic 官方在 GitHub Issue 中的确认回复。