Hotdry.

Article

MiMo-V2.5-Pro-UltraSpeed 投机解码架构解析:块级掩码预测与动态回退策略

深入解析MiMo-V2.5-Pro-UltraSpeed的DFlash投机解码架构,涵盖块级掩码并行预测、草稿模型调度策略、接受率预测算法及动态回退机制的工程实现。

2026-06-09ai-systems

大模型推理的延迟瓶颈长期困扰着实时应用场景。小米与 TileRT 联合发布的 MiMo-V2.5-Pro-UltraSpeed 首次在 1 万亿参数模型上实现了 1000+ tokens/s 的生成速度,这一突破并非简单的硬件堆叠,而是源于一套名为 DFlash 的投机解码架构创新。本文聚焦该架构的三个核心技术点:块级掩码并行预测机制、草稿模型的调度策略,以及接受率驱动的动态回退机制。

从自回归到块级预测:DFlash 的核心革新

传统投机解码依赖一个小型草稿模型逐 token 自回归地 "猜测" 后续内容,再由大模型并行验证。这种模式的瓶颈在于草稿质量与计算开销的根本矛盾 —— 更强的草稿模型意味着更高的验证通过率,但也带来更重的计算负担。

DFlash 采用块级掩码并行预测(block-level masked parallel prediction)打破这一僵局。草稿模型在单次前向传播中填充整个掩码块的所有位置,从根本上消除了 "自回归草稿" 的串行约束。MiMo-V2.5-Pro 将块大小限制为 8 个 token,在验证开销与并发效率之间取得平衡。

这一设计的关键在于掩码信号采样的工程优化。训练阶段,掩码信号采样被下沉到 GPU 本地分片,单条序列可在一步内产生数万个独立训练信号,覆盖多样化的上下文位置。这种设计与 MiMo-V2 系列的长上下文能力相契合,同时避免了跨设备通信开销。

草稿模型调度:SWA 对齐与训练策略

MiMo-V2.5-Pro 的草稿模型调度策略围绕 Sliding Window Attention(SWA)展开。草稿模型完全采用 SWA 架构,与 MiMo-V2 系列的 SWA 设计天然对齐,这使得每次预测的计算复杂度从与上下文长度线性相关降为常数级别。

在训练层面,团队采用 Muon 二阶优化器结合模型自蒸馏技术。Muon 优化器在处理矩阵参数时展现出比 Adam 更优的收敛特性,而自蒸馏则确保紧凑的掩码块仍能达到理想的接受率。具体而言,草稿模型从主模型蒸馏而来,共享相同的语义空间,这解释了为何在代码生成场景下平均接受长度可达 6.30—— 意味着每 8 个草稿 token 中有 6 到 7 个被验证通过。

接受率预测与动态回退机制

接受率是决定投机解码收益的核心指标。MiMo-V2.5-Pro 在不同场景下展现出差异化的接受率表现:代码生成 6.30、数学推理 5.56、Agent 任务 4.29。这种场景化差异揭示了动态回退策略的必要性。

动态回退机制的核心逻辑是:当实时监测到的接受率低于场景阈值时,系统逐步缩小块大小或切换至更保守的解码模式。例如,在开放域对话场景(当前接受率尚未达到理想水平)中,系统可将块大小从 8 降至 4,或临时禁用投机解码以保证输出质量。反之,在代码生成等高接受率场景,系统可维持最大块配置以最大化吞吐。

验证开销的权衡同样关键。MiMo-V2.5-Pro 采用 FP4 量化(MXFP4 格式)仅作用于 MoE Experts 模块,其余模块保持原始精度。这种选择性量化策略通过 Quantization-Aware Training(QAT)实现,在大幅压缩模型体积的同时保持整体能力无损。FP4 量化将内存带宽压力降至最低,使验证阶段的并行计算得以高效执行。

系统级协同:TileRT 的执行模型革新

DFlash 的算法优势需要底层系统的配合才能完全释放。TileRT 引入了持久化引擎内核(Persistent Engine Kernel),彻底摒弃传统的逐算子启动模式,将整个计算管线常驻 GPU 内部流动。这实现了全流水线的连续预取 —— 当当前 Tile 仍在 Tensor Core 上计算时,后续数据已在内存层级中流动,达成数据搬运与计算的极致重叠。

Warp Specialization(异构流水线协作)进一步细化了执行粒度。在 Tile 级别,通信、数据搬运与张量计算被物理分解,不同的 Warp 乃至 GPU 上的异构执行域独立运作却精确协同,将 GPU 转化为持续流动、精确编排的异构执行系统。

在微秒级时间尺度上,TileRT 与 MiMo 模型层进行了深度的软硬件协同设计。模型层采用混合 FP4 量化策略并部署 SWA 对齐的 DFlash 投机解码,TileRT 则针对这些算法特性定制编译引擎与计算内核。双方基于硬件物理特性进行联合工程权衡,确保执行压力平滑收敛于硬件边界之内。

工程落地清单

对于希望复现或适配 DFlash 架构的工程团队,以下参数与检查点具有直接参考价值:

模型配置

  • 块大小:固定 8 token(平衡验证开销与并发效率)
  • 量化策略:仅 MoE Experts 采用 FP4(MXFP4),其余模块保持原精度
  • 上下文窗口:支持 256k,草稿模型 SWA 窗口 128 token

训练配置

  • 优化器:Muon 二阶优化器
  • 蒸馏策略:模型自蒸馏,共享语义空间
  • 采样优化:GPU 本地分片掩码信号采样

场景化接受率阈值(参考值)

  • 代码生成:≥6.0(可维持最大块配置)
  • 数学推理:≥5.0(建议监控回退)
  • Agent 任务:≥4.0(需动态调整)
  • 开放对话:<4.0(考虑降级策略)

系统要求

  • 硬件:标准 8-GPU 商用节点
  • 推理框架:TileRT(支持持久化内核与 Warp Specialization)
  • 开源资源:MiMo-V2.5-Pro-FP4-DFlash 检查点(含 FP4 量化权重与 DFlash 模型参数)

局限与展望

当前 DFlash 在语义发散度较高的开放域对话场景下接受率仍有优化空间。此外,UltraSpeed 版本的 API 采用限时申请制(2026 年 6 月 9 日至 23 日),资源受限可能限制大规模生产验证。团队已开源相关检查点,社区反馈将驱动后续迭代。

投机解码的本质是用草稿模型的计算换取大模型验证的并行度。MiMo-V2.5-Pro-UltraSpeed 通过块级掩码预测重构了 "草稿" 的定义,结合 SWA 对齐的调度策略与场景化的动态回退机制,在 1T 参数规模上首次突破 1000 tokens/s。这一架构为超大规模模型的实时推理提供了可复现的技术路径。


资料来源

  • MiMo-V2.5-Pro-UltraSpeed 官方技术博客 (mimo.xiaomi.com)
  • MiMo-V2-Flash 技术报告,arXiv:2601.02780

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com