当我们讨论 AI 代理(AI Agent)的能力进步时,通常会引用 METR 框架下的时间视野(Time Horizon)指标 —— 即模型能在多少小时内完成 50% 人类工程师可以完成的任务。过去七年,这一指标从数分钟级别逐步攀升至数小时量级,展现出令人乐观的指数增长趋势。然而,一个关键问题被长期忽视:支撑这些时间视野的推理成本正在发生什么变化?
推理成本的组成结构
要理解 AI 代理的推理成本,首先需要明确其核心构成。在基于大语言模型的代理架构中,成本主要由三部分决定:输入 token 费用、输出 token 费用,以及模型调用次数。在 METR 的基准测试中,代理被置于 Scaffold 环境中运行,模型会反复调用自身进行推理,直到性能趋于平稳。这种测试方式决定了总成本与任务复杂度、模型响应长度高度相关。
从 2019 年至今,AI 系统的规模经历了惊人增长。模型参数数量增长了约 4000 倍,而单次任务中生成的 token 数量增长了约 100,000 倍。这一数据揭示了一个基本事实:不仅仅是模型变得更强大,每次任务消耗的计算资源也在同步膨胀。
甜点成本与饱和点:两个关键指标的工程意义
Toby Ord 在其分析中引入了两个极具工程价值的概念:甜点成本(Sweet Spot Cost) 和 饱和点(Saturation Point)。甜点成本是指模型在最优性价比区间运行时的最低小时成本 —— 即单位时间内完成任务的边际收益开始递减的临界点。饱和点则代表性能进入平台期的临界状态,继续增加计算投入已难以显著提升任务完成率。
以具体数据为例:在 METR 的测试中,人类软件工程师的基准时薪约为 120 美元。而 AI 代理的甜点成本差异悬殊,Grok 4 可低至 0.40 美元 / 小时,o3 则高达 40 美元 / 小时。更值得警惕的是,在接近饱和点的区域,成本会急剧攀升:Grok 4 在平台期起点成本达到 13 美元 / 小时,GPT-5 在 2 小时任务时段的成本同样触及 120 美元 / 小时的人类基准线,而 o3 在其 1.5 小时完整时间视野下的成本更是高达 350 美元 / 小时 ——超过了一名人类工程师的时薪。
这意味着什么?对于成本敏感的生产部署而言,模型在甜点区间的表现才是真正具有经济可行性的区间。一旦任务复杂度逼近饱和点,单位经济效益将急剧恶化。
成本与时长的相关性分析
将所有模型的成本数据与对应的时间视野进行关联分析,可以观察到一个明确的趋势:任务时长与推理成本之间存在显著的正相关关系。这并非线性关系,而是呈现指数增长特征。简单来说,当时间视野翻倍时,推理成本的增幅远超两倍。
这种指数增长的驱动因素是多方面的。首先,随着任务复杂度提升,模型需要生成更多的输出 token 进行多步推理,token 消耗量呈超线性增长。其次,更复杂的任务往往要求模型进行更长时间的思考过程 —— 这在推理模型(Reasoning Model)中尤为明显,因为思考本身会消耗大量计算资源。第三,模型在接近能力边界时,会进入边际收益递减阶段,需要不成比例地增加计算投入才能换取微小的性能提升。
基于 METR 图表数据的回归分析显示,推理成本的增长速率与时间视野的增长速率大致相当。这意味着一个重要推论:当前的 METR 时间视野趋势,有相当部分是由 “更奢侈的计算投入” 所驱动的,而非单纯来自模型架构的效率提升。
批量推理的单位成本曲线
对于实际部署场景,另一个关键维度是批量推理(Batch Inference)的单位成本。当需要大规模并行处理多个任务时,基础设施层面的优化(如 GPU 利用率提升、批处理合并、量化推理)会显著影响单次推理的边际成本。然而,现有基准数据主要反映的是单次调用的成本结构,批量场景下的成本衰减曲线仍需更多公开数据支撑。
从已有证据来看,模型厂商的定价策略正在经历调整。部分推理模型在发布初期定价较高,随后随着硬件利用率优化和算法改进逐步下调。但这种 “发布后降价” 的节奏能否跟上能力提升带来的成本膨胀,仍是一个悬而未决的问题。
工程实践建议
基于上述分析,从事 AI 代理系统研发的工程师可以从以下几个方向进行成本控制:
第一,建立任务复杂度与推理预算的映射表。根据业务任务的容错阈值,设定最大推理预算,避免在边际收益极低的饱和区进行过度调用。
第二,动态选择模型层级。对于简单任务,调用轻量模型即可;对于复杂任务,再切换至能力更强的模型。这种分层策略可以有效压低整体单位成本。
第三,监控甜点区间偏移。随着模型迭代,甜点成本的位置会发生变化。持续追踪这一指标,有助于在模型更新后及时调整部署策略。
第四,关注推理成本与时间视野的比值。当该比值接近或超过人类 labor cost 时,应审慎评估该时间视野在实际业务中的可行性。
结语
METR 的时间视野趋势揭示了 AI 代理能力的演进方向,但我们必须清醒认识到,技术可能性与经济可行性之间存在一道日益扩大的鸿沟。推理成本指数增长的趋势表明,未来的 AI 代理系统不仅仅是 “能否完成某项任务” 的问题,更是 “能否以合理成本完成” 的问题。在进行技术路线规划时,将成本指标纳入核心考量维度,将是避免落入 “Formula 1 陷阱” 的关键。
参考资料:
- Toby Ord, "Are the Costs of AI Agents Also Rising Exponentially?", tobyord.com (2025)
- METR Evaluation Reports, evaluations.metr.org