AI 代理推理成本是否呈指数增长：工程化测量与趋势拆解

当我们讨论 AI 代理（AI Agent）的能力进步时，通常会引用 METR 框架下的时间视野（Time Horizon）指标 —— 即模型能在多少小时内完成 50% 人类工程师可以完成的任务。过去七年，这一指标从数分钟级别逐步攀升至数小时量级，展现出令人乐观的指数增长趋势。然而，一个关键问题被长期忽视：支撑这些时间视野的推理成本正在发生什么变化？

推理成本的组成结构

要理解 AI 代理的推理成本，首先需要明确其核心构成。在基于大语言模型的代理架构中，成本主要由三部分决定：输入 token 费用、输出 token 费用，以及模型调用次数。在 METR 的基准测试中，代理被置于 Scaffold 环境中运行，模型会反复调用自身进行推理，直到性能趋于平稳。这种测试方式决定了总成本与任务复杂度、模型响应长度高度相关。

从 2019 年至今，AI 系统的规模经历了惊人增长。模型参数数量增长了约 4000 倍，而单次任务中生成的 token 数量增长了约 100,000 倍。这一数据揭示了一个基本事实：不仅仅是模型变得更强大，每次任务消耗的计算资源也在同步膨胀。

甜点成本与饱和点：两个关键指标的工程意义

Toby Ord 在其分析中引入了两个极具工程价值的概念：甜点成本（Sweet Spot Cost） 和 饱和点（Saturation Point）。甜点成本是指模型在最优性价比区间运行时的最低小时成本 —— 即单位时间内完成任务的边际收益开始递减的临界点。饱和点则代表性能进入平台期的临界状态，继续增加计算投入已难以显著提升任务完成率。

以具体数据为例：在 METR 的测试中，人类软件工程师的基准时薪约为 120 美元。而 AI 代理的甜点成本差异悬殊，Grok 4 可低至 0.40 美元 / 小时，o3 则高达 40 美元 / 小时。更值得警惕的是，在接近饱和点的区域，成本会急剧攀升：Grok 4 在平台期起点成本达到 13 美元 / 小时，GPT-5 在 2 小时任务时段的成本同样触及 120 美元 / 小时的人类基准线，而 o3 在其 1.5 小时完整时间视野下的成本更是高达 350 美元 / 小时 ——超过了一名人类工程师的时薪。

这意味着什么？对于成本敏感的生产部署而言，模型在甜点区间的表现才是真正具有经济可行性的区间。一旦任务复杂度逼近饱和点，单位经济效益将急剧恶化。

成本与时长的相关性分析

将所有模型的成本数据与对应的时间视野进行关联分析，可以观察到一个明确的趋势：任务时长与推理成本之间存在显著的正相关关系。这并非线性关系，而是呈现指数增长特征。简单来说，当时间视野翻倍时，推理成本的增幅远超两倍。

这种指数增长的驱动因素是多方面的。首先，随着任务复杂度提升，模型需要生成更多的输出 token 进行多步推理，token 消耗量呈超线性增长。其次，更复杂的任务往往要求模型进行更长时间的思考过程 —— 这在推理模型（Reasoning Model）中尤为明显，因为思考本身会消耗大量计算资源。第三，模型在接近能力边界时，会进入边际收益递减阶段，需要不成比例地增加计算投入才能换取微小的性能提升。

基于 METR 图表数据的回归分析显示，推理成本的增长速率与时间视野的增长速率大致相当。这意味着一个重要推论：当前的 METR 时间视野趋势，有相当部分是由 “更奢侈的计算投入” 所驱动的，而非单纯来自模型架构的效率提升。

批量推理的单位成本曲线

对于实际部署场景，另一个关键维度是批量推理（Batch Inference）的单位成本。当需要大规模并行处理多个任务时，基础设施层面的优化（如 GPU 利用率提升、批处理合并、量化推理）会显著影响单次推理的边际成本。然而，现有基准数据主要反映的是单次调用的成本结构，批量场景下的成本衰减曲线仍需更多公开数据支撑。

从已有证据来看，模型厂商的定价策略正在经历调整。部分推理模型在发布初期定价较高，随后随着硬件利用率优化和算法改进逐步下调。但这种 “发布后降价” 的节奏能否跟上能力提升带来的成本膨胀，仍是一个悬而未决的问题。

工程实践建议

基于上述分析，从事 AI 代理系统研发的工程师可以从以下几个方向进行成本控制：

第一，建立任务复杂度与推理预算的映射表。根据业务任务的容错阈值，设定最大推理预算，避免在边际收益极低的饱和区进行过度调用。

第二，动态选择模型层级。对于简单任务，调用轻量模型即可；对于复杂任务，再切换至能力更强的模型。这种分层策略可以有效压低整体单位成本。

第三，监控甜点区间偏移。随着模型迭代，甜点成本的位置会发生变化。持续追踪这一指标，有助于在模型更新后及时调整部署策略。

第四，关注推理成本与时间视野的比值。当该比值接近或超过人类 labor cost 时，应审慎评估该时间视野在实际业务中的可行性。

结语

METR 的时间视野趋势揭示了 AI 代理能力的演进方向，但我们必须清醒认识到，技术可能性与经济可行性之间存在一道日益扩大的鸿沟。推理成本指数增长的趋势表明，未来的 AI 代理系统不仅仅是 “能否完成某项任务” 的问题，更是 “能否以合理成本完成” 的问题。在进行技术路线规划时，将成本指标纳入核心考量维度，将是避免落入 “Formula 1 陷阱” 的关键。

参考资料：

Toby Ord, "Are the Costs of AI Agents Also Rising Exponentially?", tobyord.com (2025)
METR Evaluation Reports, evaluations.metr.org

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。