推测解码的经济学：MoE与压缩注意力如何重塑成本效益权衡

推测解码（Speculative Decoding）曾被视为 LLM 推理优化的 "无风险套利"—— 通过草稿模型预测未来 token，再由目标模型并行验证，在不损失精度的前提下加速生成。传统认知认为，在内存受限的 decode 阶段，验证 token 几乎是免费的，直到 GEMM 计算达到瓶颈。然而，随着 Mixture-of-Experts（MoE）和压缩注意力机制的广泛应用，这一成本模型已发生根本性变化。

从 "免费午餐" 到 "精确计价"

在密集 Transformer（如 Llama 系列）的时代，推测解码的经济学逻辑十分清晰：当 batch size 处于内存受限区间时，验证 token 仅增加计算而不增加权重传输，无论接受与否都不产生实质成本。这种 "无风险套利" 使推测解码成为小 batch 场景下的标准优化手段。

现代 MoE 架构改变了这一图景。以 DeepSeek-V4-Flash 为例，其采用 k=6 的路由专家配置，共 E=256 个专家。每个 token 首先通过路由层选择相关专家，然后将隐藏状态发送至选中的专家进行处理。这种设计引入了所谓的 "专家税"（Expert Tax）：在小 batch 场景下，每个新 token 倾向于激活全新的专家，导致权重传输无法摊销。

具体而言，当 batch size B 远小于 E/k（约 43）时，每个 token 几乎独立承担其专家权重的加载成本，算术强度仅为最终斜率的一半。这意味着在此区间内，推测 token 的验证不再是免费的 —— 被拒绝的 token 会产生实际成本，而接受的 token 带来的收益也被显著压缩。

MoE 屋顶线的双重效应

MoE 架构对推测解码的影响呈现非线性特征。与密集模型相比，MoE 的屋顶线具有两个显著差异：

首先，在小 batch 阶段（B < 43），每个 token 几乎无法从 batching 中获益，因为新 token 激活新专家的概率极高。这导致推测 token 在此区间的边际成本接近完整生成成本，与传统密集模型形成鲜明对比。

其次，一旦 batch size 超过临界点，MoE 的屋顶线斜率变得更为平缓，达到计算瓶颈所需的 batch size 远大于密集模型。这意味着在较大 batch 区间，推测解码的 "免费区间" 反而被显著扩展。这种双重效应使得推测解码的收益曲线呈现复杂的非单调性。

压缩注意力的隐性成本

如果说 MoE 改变了前馈层的成本结构，那么 Multihead Latent Attention（MLA）等压缩注意力机制则彻底消除了注意力层面的 "slack"。MLA 通过存储单一潜在向量替代传统的 per-head KV 缓存，将每个上下文 token 的存储需求从数千字节压缩至数百字节。

这种压缩的代价是算术强度的急剧上升。以 DeepSeek-V4-Flash 的 MLA 配置为例，其注意力操作的算术强度公式为：

AI = f·T·S / (mc·S + mq·T)

其中 mc 为每个上下文 token 的缓存字节数，mq 为每个查询 token 的查询向量字节数，f 为每对 query-context 的 FLOPs。由于 MLA 的 mq/mc 比值高达 128（64 头 ×bf16/bf8 压缩比），当验证 token 数 T≥2 时，注意力操作立即进入计算受限阶段。

这意味着在 MLA 架构下，即使单个推测 token 也会使注意力计算从内存受限转为计算受限。验证 token 不再是 "免费" 的，而是需要支付接近完整计算成本的价格。

成本模型与最优策略

综合考虑 MoE 和 MLA 的影响，现代推测解码的成本模型可表述为：

Speedup(α, γ) = N(α, γ) · C₀ / [C_verify(B, γ+1, S) + C_draft(B, γ, S)]

其中 α 为草稿 token 的接受率，γ 为草稿长度，N (α, γ) 为期望接受的 token 数，C₀为无推测时的单步成本，C_verify 为验证成本，C_draft 为草稿模型成本。

关键洞察在于：C_verify 的边际成本随 batch size 和草稿长度呈非线性变化。在小 batch 场景（B < 11），MoE 层的低摊销效率使得验证成本接近 C₀；而在任何 batch size 下，MLA 注意力在 T≥2 时即进入计算受限，进一步推高验证成本。

这导致了一个反直觉的结论：在某些参数区域，不启用推测解码反而是最优选择。当接受率 α 较低或草稿模型成本较高时，验证开销可能超过其带来的收益。

工程实践建议

基于上述分析，现代 LLM 服务中的推测解码策略需要重新校准：

动态草稿长度选择：最优草稿长度 γ* 应随 batch size 和序列长度动态调整。在高 batch 场景（B > 100），由于 MoE 的摊销效应，可适当增加 γ；在低 batch 或长序列场景，应保守设置 γ 甚至禁用推测解码。

接受率阈值监控：建立接受率 α 的实时监控机制。当 α 低于 60-70% 时，考虑降低草稿长度或切换至无推测模式。接受率的衰减通常与草稿深度相关，需根据实际分布调整策略。

草稿模型成本预算：草稿模型的开销应控制在目标模型单步成本的 10-15% 以内。Eagle、MTP 等基于目标模型隐藏状态的轻量草稿器在此方面具有优势，而独立草稿模型需要更严格的成本效益评估。

分层验证策略：对于 MoE+MLA 架构，可考虑分层验证 —— 先在轻量级注意力层进行预筛选，再进入完整验证流程。这种策略可减少高成本验证步骤的调用频率。

Profile-guided 自适应：由于最优参数随负载动态变化，建议实施基于性能剖析的自适应机制。通过在线监控接受率、batch 分布和序列长度，实时调整推测策略。

结语

推测解码的经济学在 MoE 和压缩注意力时代已发生深刻变革。传统认知中 "小 batch 免费、大 batch 仍有益" 的简单图景已被复杂的非线性成本结构所取代。现代推理系统需要建立精确的成本模型，将验证 token 的边际成本、草稿模型开销和接受率动态纳入决策框架，才能在保证吞吐量的同时避免负优化。这不仅是技术参数的调优，更是对推理架构成本结构的重新理解。

参考来源

Fergus Finn. "The economics of speculative decoding." fergusfinn.com, June 8, 2026.

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。