随着 AI Agent 在生产环境的规模化部署,LLM 调用成本正成为工程团队面临的核心挑战。不同于传统云资源的月度账单模式,Agent 的 token 消耗具有实时性、波动性和难以预测性 —— 一次提示词优化失误或模型升级都可能导致单日成本激增数倍。本文从工程实践角度,探讨如何构建覆盖采集、归因、熔断的三层成本可观测体系,实现多模型路由场景下的精细化成本治理。
成本失控的典型场景
在生产环境中,Agent 成本失控往往源于三个盲区。首先是模型升级的回溯风险:新模型可能在输出质量提升的同时带来 token 消耗的显著增加,而缺乏实时对比机制的团队往往在月底账单出炉后才察觉异常。其次是用户级成本归因缺失:当多个业务线共享同一模型端点时,无法区分高价值用户与滥用行为,导致预算分配失焦。第三是缺乏动态降级能力:在成本逼近阈值时,系统仍持续路由至高成本模型,缺乏自动化的熔断保护。
这些问题的本质在于成本数据与工程决策的脱节。成本信息滞留在财务系统,而路由决策发生在毫秒级的推理层,两者之间缺乏实时反馈闭环。
三层可观测架构设计
解决上述问题需要建立从采集到决策的完整链路。第一层是细粒度指标采集,核心字段包括 prompt_tokens、completion_tokens、cached_tokens、reasoning_tokens 以及模型名称和时间戳。建议通过 OpenTelemetry 协议将成本数据嵌入现有链路追踪体系,实现 per-user、per-feature 的精确归因。
第二层是实时聚合与归因。在数据流层面,需要构建分钟级的成本 burn rate 计算,支持按用户、按会话、按业务功能的动态分组。关键指标包括:单次请求成本、用户累计成本、日 / 月燃烧速率、以及基于历史基线的异常检测。这一层的数据应直接对接告警系统,支持多阈值配置(如达到预算 50% 时预警,80% 时通知,95% 时触发熔断)。
第三层是决策反馈与熔断执行。当成本指标触及预设阈值时,系统需要能够动态调整路由策略,将流量从高成本模型降级至低成本替代方案,或在极端情况下暂停非关键业务的模型调用。
多模型路由的约束优化策略
多模型路由不应是简单的 "便宜优先" 或 "质量优先",而应建模为带约束的优化问题。OmniRouter 的研究表明,通过构建成本 - 性能预测器,可以在满足延迟和质量约束的前提下实现全局成本最优。
具体实施可采用三层模型架构:廉价层处理标准化、低复杂度的任务(如文本摘要、格式转换),中间层应对需要一定推理深度的场景,前沿层仅保留给复杂推理和多步任务。预测器基于任务特征(输入长度、领域类型、历史质量评分)估计每个候选模型的预期成本和输出质量,然后求解约束优化问题:在满足平均延迟和最低准确率要求的前提下,最小化总成本。
实践数据显示,这种策略性路由相比单一模型方案可实现 40% 至 85% 的成本降低,同时保持或提升整体服务质量。
预算熔断机制的实现要点
熔断机制是成本治理的最后一道防线。其核心逻辑是:当特定模型或整体预算触及阈值时,自动触发降级或暂停策略。
熔断触发条件应包含三类指标:成本类(日 / 月预算使用率、单用户成本上限)、质量类(模型失败率、超时率)、以及复合类(成本异常波动)。建议采用滑动窗口计算,避免瞬时抖动导致误触发。
熔断动作分级设计:一级熔断仅暂停向高成本模型的新请求路由,将流量导向低成本替代方案;二级熔断限制非关键用户的调用配额;三级熔断完全暂停可选功能,保留核心业务的最低限度服务。
冷却与恢复策略同样关键。熔断后应设置指数退避的冷却期,期间持续监控模型健康度,确认稳定后逐步恢复流量。避免 "熔断 - 立即恢复 - 再次熔断" 的震荡模式。
可落地的实施参数清单
基于上述架构,以下是可直接落地的配置参数建议:
指标采集层:
- token 采集粒度:每次 LLM 调用
- 成本计算精度:6 位小数(对应美元计价)
- 聚合窗口:1 分钟滑动窗口,5 分钟持久化
告警阈值层:
- 预警线:预算的 50%
- 通知线:预算的 80%
- 熔断线:预算的 95% 或单日燃烧速率超过基线 300%
路由策略层:
- 廉价层模型:处理 60% 的简单任务
- 中间层模型:处理 25% 的中等复杂度任务
- 前沿层模型:限制在 15% 的高复杂度任务
- 熔断冷却期:初始 5 分钟,指数退避至 60 分钟上限
归因维度:
- 必选项:user_id、feature_id、model_name
- 可选项:session_id、task_type、complexity_score
与现有工具链的集成
成本可观测体系不应是孤立的系统。Infracost Dev 等工具展示了将成本意识嵌入开发工作流的思路 —— 在编码阶段预测 IaC 变更的成本影响。类似地,Agent 成本监控应与 CI/CD 流水线集成,在部署前评估新模型或提示词变更的成本 implications。
同时,成本数据应回流至产品决策层。通过分析 per-feature 的成本分布,产品团队可以识别高成本低价值的功能模块,指导资源重分配。
总结
Agent 成本治理的核心在于建立 "可观测 - 可归因 - 可控制" 的闭环。从 token 级的细粒度采集,到用户级的成本归因,再到模型级的熔断降级,每一层都需要明确的指标定义和阈值配置。多模型路由的约束优化策略提供了在成本与质量之间寻求平衡的系统化方法,而分级熔断机制则为预算保护提供了最后一道防线。
随着 LLM 应用场景的持续扩展,成本可观测性正从 "锦上添花" 变为 " 生产必备」。早期投入建设这套体系,将帮助团队在规模化阶段避免成本失控的风险,实现可持续的 AI 应用交付。
参考来源
- Infracost Dev 官方文档与产品能力介绍 (https://www.cost.dev/)
- OmniRouter: Budget and Performance Controllable Multi-LLM Routing (https://arxiv.org/html/2502.20576v5)
- Granular LLM Monitoring for Tracking Token Usage and Cost Per User (Traceloop)
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。