解构大模型 API 定价与推理成本的结构性倒挂
2023 年 3 月,GPT-4 的 API 定价为每百万输出 token 60 美元。到了 2026 年初,同等能力的前沿模型将这一价格压缩至 3-15 美元区间 —— 单位成本下降了约 280 倍。按照传统技术经济学的逻辑,这应该是一个成本坍塌、利润释放的黄金时代。然而现实呈现的是一幅截然不同的图景:全球 AI 推理支出激增 320%,达到 370 亿美元的年规模;OpenAI 累计现金消耗预测增加 1110 亿美元,预计 2026 年亏损 250 亿美元;Anthropic 在年化收入达 190 亿美元的同时,运营利润率却为负 94%。
这不是简单的供需错配,而是一种被研究者称为 "结构性杰文斯悖论"(Structural Jevons Paradox)的现象 —— 单位成本的系统性下降被内生需求的扩张完全吞噬, cheaper tokens 不仅没有带来更便宜的 AI,反而催生了更昂贵的 AI。
杰文斯悖论的技术实现路径
1865 年,经济学家威廉・斯坦利・杰文斯观察到,詹姆斯・瓦特的蒸汽机通过提高煤炭使用效率,并未减少煤炭消费,反而增加了消费总量。这一悖论在 AI 推理领域找到了完美的现代映射:当推理 token 的成本下降时,每个任务消耗的 token 数量并未保持稳定,而是呈爆炸式增长。
思维链(Chain-of-Thought)推理是这一机制的典型载体。根据行业测算,启用思维链的模型每次查询消耗的能量是标准推理的 30 倍 —— 那些用户看不见的 "隐藏思考 token" 将每个可见输出 token 的计算成本乘以 10 到 30 倍。一个 2023 年成本不到 1 美分的查询,在 2026 年可能消耗数百倍的计算资源,不是因为模型变得低效,而是因为模型现在开始 "思考" 后再 "回答"。
多智能体架构进一步放大了这一效应。当单个 AI 模型协调多个子代理来分解任务、执行子步骤、评审结果并综合输出时,token 消耗量再次呈数量级增长。一个单遍生成函数的编码助手可能消耗数千 token;而一个包含规划、实现、测试、评审和迭代的完整多智能体编码流水线,可能消耗数十万 token。能力增益是真实的,计算倍增也是真实的。
这种需求扩张不是偶然的,而是架构性的。每一个变得经济可行的应用场景都会催生此前不可想象的新应用层级。足够便宜的模型可以支持持续后台运行的代理工作流;足够便宜的代理工作流可以支持企业级多智能体架构;足够便宜的多智能体架构可以支持自主研究流水线。每一层级的成本降低都解锁了一层会吞噬节省成本并进一步扩张的需求。
棘轮效应:沉没成本锁定资本支出螺旋
OpenAI 到 2029 年的累计预计亏损达 1150 亿美元。这个数字不是管理失误的产物,而是一种 "承诺装置"。一旦企业在 GPU 集群、数据中心租约和长期电力采购协议上投入数百亿美元,理性决策就不是撤退,而是加速。
这正是递归替代理论中的 "棘轮效应"(Ratchet):每一轮资本支出创造义务 —— 租赁付款、折旧计划、电力合同、客户预期 —— 使下一轮支出更有可能发生,而非更少。2025 年建造 100 亿美元数据中心的决策不仅承诺了 100 亿美元,还承诺了证明 100 亿美元合理性所需收入增长,而在竞争激烈的市场中,这意味着提供更低价格和更强能力的模型,这又意味着更多推理需求,进而意味着更多数据中心。
棘轮效应在整个行业而非单个企业层面运作。微软、谷歌、Meta 和亚马逊正在进行同步的资本支出升级,每家企业的投资都会抬高其他企业的竞争底线。尽管只有 15% 的企业报告 AI 部署实现正 ROI,Forrester 预测 2026 年将有 25% 的企业因回报不明而推迟 AI 支出,但超大规模云服务商无法推迟。它们的资本支出提前数年就已承诺,竞争定位依赖于产能领先,棘轮确保了对令人失望的采用率的理性反应是使推理更便宜 —— 而根据杰文斯动态,这会产生更多需求而非更多利润。
订阅定价危机:固定费率遭遇指数级需求
推理成本悖论在消费端的体现是固定费率订阅定价模式的崩溃。当推理模型每次查询消耗的算力比前代产品多 10-30 倍时,2024 年销售时承诺的 "无限访问" 在 2026 年变成了按周使用量上限、动态节流和分层服务降级的现实。
经济学逻辑很简单:一个在使用 GPT-3.5 时勉强盈利的 20 美元 / 月订阅,在使用 o3 或 Claude Opus 时会变成深度亏损。企业无法在不摧毁用户基础的情况下快速提价以匹配算力倍增;它们也无法在不大量失血的情况下维持固定费率。于是它们采取了一切面对无法盈利服务的公用事业都会采取的措施:配给。
这种配给创造了一个双层系统。保持在适度使用量限制内的消费者获得承诺的产品;重度用户 —— 将 AI 作为生产工具而非消遣的开发者、研究人员 —— 则撞墙。AI 智能民主化的承诺撞上了这样一个现实:在当前架构下,智能的交付成本随着智能行为的增长而上升。
当前 API 定价反映了这种张力。前沿推理模型将输出 token 定价为每百万 3-15 美元,但多智能体工作流每次任务可能轻松消耗数百万 token。一个以中等强度运行 AI 辅助编码流水线的开发团队,每月可能产生 500-2000 美元的 API 成本 —— 这些成本在 18 个月前可以忽略不计。订阅危机不是定价失败,而是杰文斯悖论抵达消费界面的结果。
能源外部性:当反弹效应冲击电网
算力倍增不会停留在数据中心内部,它通过电网向外传导,影响到该地区每个电力用户。
自 2020 年以来,主要数据中心集群服务市场的电价已上涨 36%。PJM 互联电网 —— 服务从弗吉尼亚到伊利诺伊的数据中心走廊的电网运营商 —— 容量成本已达 93 亿美元。受影响地区的居民用户面临每月 16-18 美元的账单增长预测,一些分析预测到 2030 年数据中心需求将推动家庭账单上涨 8-25%。
这种反弹已经具有政治性。随着公用事业客户 —— 他们与 AI 服务没有任何关系 —— 发现自己在通过电费补贴行业算力需求,多个州的费率保护立法正在推进。
AI 计算领域的能源反弹具有一个重要特征:它表现出能源经济学家所说的 "反噬"(backfire)—— 反弹超过 100%,效率改进实际上增加了总资源消耗。大多数消费品显示出 10-30% 的反弹范围:更高效的汽车导致驾驶略有增加,但总燃料消耗仍然下降。AI 计算不同,因为更便宜的计算不仅使现有任务更便宜 —— 它使全新的任务类别成为可能。每次效率增益都会打开架构可能性(更长上下文、更深推理链、更多代理),这些可能性消耗数倍于节省的算力。
可持续性的结构性障碍
AI 推理的可持续经济依赖于三个支柱的协同:(1)最小化计算的成本感知系统设计;(2)在覆盖真实成本的同时交付客户价值的定价模型;(3)防止失控使用的治理机制。
然而行业竞争动态正在系统性地削弱这三个支柱。杰文斯悖论使成本降低成为支出增长的原因而非解药;棘轮效应锁定企业进入 escalating commitments;自动化陷阱确保效率收益转化为竞争军备竞赛而非节约;计算封建主义(Compute Feudalism)将基础设施所有权集中于少数超大规模企业,它们设定访问条款。
DeepSeek R1 展示了架构创新可以在 96% 更低成本下提供前沿级推理,但这更可能加速而非打破杰文斯动态 —— 通过使前沿推理对更大市场可及。除非 AI 计算的需求弹性找到上限,或者架构范式转变打破杰文斯循环,否则行业的定义性矛盾将持续:AI 越便宜,它变得越难以负担。
实践建议:在结构性倒挂中生存
对于将 AI 推理作为核心能力的企业,以下策略框架可以帮助管理这种结构性成本动态:
模型路由与分层策略:实施智能路由层,将简单查询导向较小模型,仅在必要时升级到推理模型。建立基于任务复杂度的分层处理策略,避免对所有输入使用 "重型" 推理。
Token 预算与成本可见性:为每个开发者或租户设置 token 预算,实施成本仪表板,使工程团队与财务激励对齐。将推理成本作为一级指标纳入开发流程。
混合定价模型:对于面向客户的产品,采用基础订阅加使用量上限和超额费用的混合定价,而非固定费率 "无限" 计划。对高价值功能实施基于结果的定价,将 AI 成本与交付价值对齐。
缓存与结果复用:在可行情况下缓存推理结果,避免对相似输入重复计算。对于编码辅助等场景,建立结果库以减少重复推理。
架构效率优先:优先选择推理效率而非原始能力。在模型选择中纳入每 token 成本作为决策维度,而非仅关注能力基准。
结论
大模型 API 定价与推理成本之间的结构性倒挂不是暂时的市场失衡,而是根植于当前 AI 架构范式的系统性现象。当单位成本下降 280 倍而总支出增长 320% 时,我们面对的不是一个即将自我纠正的异常,而是一个自我强化的循环 —— 更便宜的 token 产生更多 token,更深的推理产生更多需求,更多的资本支出锁定更多承诺。
对于依赖 AI 推理的企业而言,关键认知是:per-token 价格将继续下降,但 per-task 成本将继续上升,因为任务会整合更深层的推理和更多智能体协调。预算模型假设 AI 成本节约是单向的,将始终低估实际支出。可持续的 AI 经济不是通过更便宜的 token 实现的,而是通过架构约束 token 消耗实现的 —— 而行业目前没有追求这一方向的竞争激励。
在杰文斯悖论支配的领域中,效率不是解决方案,而是问题的一部分。
参考来源:
- Recursive Institute, "The Inference Cost Paradox: Why Cheaper AI Makes the Industry Less Sustainable" (2025)
- The Decoder, "OpenAI Adds $111 Billion to Its Cash Burn Forecast" (2026)
- arXiv:2501.16548, "Structural Jevons Paradox in AI" (2025)
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。