构建成本感知的 Agent 中间件：动态路由、请求聚合与 Plan Caching 实践

随着 AI Agent 在生产环境中的规模化部署，LLM 调用成本正成为工程团队的核心关注点。Cost.dev 等工具已将成本感知能力引入 Claude Code、GitHub Copilot 等主流 Agent 的开发工作流，但如何在 Agent 执行层实现系统性的成本优化，仍需从中间件层面进行架构设计。本文聚焦于三个关键技术策略：动态模型路由、请求聚合与 Plan Caching，提供可直接落地的实现参数与监控要点。

动态模型路由：基于任务复杂度的成本权衡

动态模型路由的核心逻辑是将请求分发至能满足质量要求的最低成本模型。实践中可采用三级路由策略：轻量模型（如 GPT-4o-mini）处理简单查询，中等模型（如 Claude 3.5 Sonnet）处理常规任务，重载模型（如 GPT-4o、Claude 3 Opus）仅用于高复杂度场景。

路由决策可基于以下指标构建：

输入 token 数：超过阈值（如 4K）时优先选择上下文窗口更大的模型
任务类型标识：代码生成、文档理解、推理任务分别映射至不同模型池
历史准确率反馈：维护各模型在特定任务类型上的成功率，动态调整路由权重
预算水位监控：当日累计成本接近预算阈值时，自动降级至低成本模式

建议配置路由规则的优先级顺序：预算约束 > 任务类型匹配 > 历史准确率 > 输入规模。当预算使用率超过 80% 时，强制切换至经济模式，仅允许使用轻量模型，并将重载模型调用加入待审批队列。

请求聚合与批处理：摊薄单次调用开销

Agent 工作流中常见的模式是多轮工具调用与上下文累积，这导致大量短请求产生固定的 API 开销。通过请求聚合中间件，可将多个独立请求合并为批量调用，显著降低单位成本。

具体实现策略包括：

工具调用聚合：当 Agent 需要并行查询多个工具时，使用支持批量调用的 API 端点，或构建本地队列在 50-100ms 窗口内聚合请求。实测表明，将 10 个独立工具调用合并为一次批量请求，可减少约 30% 的总 token 开销。

上下文窗口复用：对于共享系统提示的多轮对话，使用对话 ID 关联缓存的系统提示 token，避免每轮重复计费。OpenAI 等平台的 API 已支持提示缓存折扣，确保中间件正确传递 prompt_cache_id 等参数以享受价格减免。

异步批处理队列：对于非实时任务（如日志分析、批量文档处理），构建异步队列按批次消费，利用批处理 API 的折扣费率。建议设置批次大小为 50-100 条请求，超时窗口 5-10 秒。

Plan Caching：比语义缓存更适合 Agent 的缓存策略

传统语义缓存（Semantic Caching）通过向量相似度匹配缓存输入 - 输出对，但在 Agent 工作流中存在明显局限：数据依赖型任务容易因上下文变化产生误报或漏报，且 Agent 的复杂推理链条难以被简单键值对覆盖。

Plan Caching（计划缓存）是更适配 Agent 架构的策略。其核心思想是缓存 "规划模板" 而非完整输出：当 Agent 面对相似任务时，复用历史执行的计划框架，仅通过轻量模型进行局部适配。研究表明，Plan Caching 可在 FinanceBench、TabMWP 等基准测试中实现平均 46.6% 的成本降低，而缓存开销仅占总体成本的 1%。

Plan Caching 的实现要点：

关键词匹配索引：使用任务关键词而非完整 prompt 作为缓存键，提高跨场景的模板复用率
计划模板结构化存储：将历史执行的计划拆解为可参数化的步骤序列，支持变量替换
轻量适配层：复用模板时，调用轻量模型（如 GPT-4o-mini）完成步骤填充，避免重跑完整规划流程
命中率监控与降级：当缓存命中率低于 30% 时，自动切换至常规模式，避免缓存维护成本超过收益

成本感知中间件的架构设计

将上述策略整合为统一的成本感知中间件，建议采用以下架构分层：

路由层（Router）：接收 Agent 请求，解析任务元数据（类型、预算、紧急度），执行模型选择决策。配置路由规则的热更新能力，支持 FinOps 团队动态调整策略。

聚合层（Aggregator）：维护请求队列，执行时间窗口内的请求合并，管理批量 API 调用。设置队列长度上限（如 500 条）与超时阈值，防止延迟累积。

缓存层（Cache）：实现 Plan Cache 存储，支持关键词索引与模板检索。使用 Redis 或类似 KV 存储，设置 TTL 策略（如 7 天）自动清理过期模板。

监控层（Observer）：暴露关键指标：模型调用分布、缓存命中率、聚合效率、实时成本消耗。集成告警机制，当单日成本超过预算的 90% 时触发通知。

可落地的配置参数清单

基于上述架构，提供可直接采用的配置参数：

组件	参数项	建议值	说明
路由层	预算警戒阈值	80%	触发降级模式
路由层	重载模型审批阈值	单次 $0.5	超过需人工确认
聚合层	批处理窗口	100ms	平衡延迟与聚合效率
聚合层	批次大小上限	100 条	避免单次请求过大
缓存层	Plan Cache TTL	7 天	模板有效期
缓存层	命中率降级阈值	30%	低于此值关闭缓存
监控层	成本采样间隔	60s	实时成本计算频率
监控层	告警静默期	4h	避免重复告警

实施路径与风险考量

成本感知中间件的落地建议分阶段推进：

第一阶段（1-2 周）：部署路由层，实现基于任务类型的模型选择，快速获得 20-30% 的成本优化。

第二阶段（3-4 周）：引入请求聚合，针对高频工具调用场景优化，预期再降低 15-20% 成本。

第三阶段（1-2 月）：实施 Plan Caching，在计划 - 执行型 Agent 架构中实现深度优化。

需关注的风险包括：模型降级可能导致输出质量下降，建议保留质量回测机制；缓存污染可能影响 Agent 行为一致性，需建立模板版本管理；过度聚合可能引入延迟，对实时性敏感场景需设置绕行通道。

资料来源

Cost.dev (Infracost Dev) 产品文档：介绍 AI Coding Agent 成本感知能力及 Well-Architected Framework 最佳实践
arXiv: "Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching" (2025)：Plan Caching 策略的学术研究，提供 46.6% 成本降低的实证数据

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。