Hotdry.

Article

MiMo-V2.5万亿参数超高速推理:MoE稀疏激活与Hybrid SWA的工程化实践

拆解小米MiMo-V2.5-Pro实现1T参数规模下1000 tokens/s推理的并行策略,涵盖Hybrid SWA、三层KVCache系统与PD分离的完整技术栈。

2026-06-09ai-systems

当模型参数量突破万亿级别,推理延迟却要求降至毫秒级,这看似矛盾的工程目标正在成为国产大模型的技术标杆。小米 MiMo-V2.5-Pro 以 1.02 万亿总参数、420 亿激活参数的 MoE 架构,在 SWE-bench Pro 基准测试中达到 57.2% 的准确率,同时将推理成本压缩至 Claude Opus 的 40%-60%。这一成果并非来自单一算法突破,而是稀疏激活、混合注意力与分层缓存系统的协同优化。

Hybrid SWA:用 1/7 计算量捕获长程依赖

传统 Full Attention 的复杂度随序列长度呈平方增长,对于百万级上下文窗口几乎不可行。MiMo-V2.5-Pro 采用 Hybrid Sliding Window Attention 架构:70 层 Transformer 中,60 层使用窗口大小为 128 的 Sliding Window Attention,仅 10 层保留 Full Attention,两者按 6:1 比例交错分布。"Hybrid SWA 将 KVCache 存储压缩至 Full Attention 的约 1/7,同时保持对长程依赖的建模能力。"

这一设计的核心挑战在于前缀缓存的正确性。传统 RadixAttention 假设 "相同 token 序列意味着相同 KV",但在 SWA 层中,窗口外的 KV 会被驱逐,导致前缀树可能出现 "伪命中"—— 逻辑上匹配完整序列,物理上却只有尾部窗口数据有效。MiMo 的解决方案是引入 "窗口安全长度" 匹配规则:前缀树节点需同时记录 Full Attention 索引和 SWA 窗口映射,匹配长度被裁剪至窗口边界内,确保检索到的 KV 始终有效。

三层 KVCache 系统:从 GPU 到分布式存储的垂直优化

为充分利用 SWA 的存储优势,MiMo 构建了 L1 (GPU HBM)、L2 (Host 内存)、L3 (GCache 分布式存储) 的三级缓存体系。关键在于 Dual-Pool 设计:Full Attention 层使用 O (N) 存储池,SWA 层使用 O (W) 窗口池,物理隔离避免 SWA 稀疏性被稀释。配合 Layerwise Prefetch 机制,Host-to-Device 的 KVCache 加载与计算流重叠,使缓存读取成本趋近于零。

GCache 作为 L3 层采用一致性哈希分布键值,支持内存 / 磁盘自动升降级,并在 GPU 机器上共部署实现零额外存储成本。通过 SWA 感知的前缀树优化和跨层一致性修复策略,生产环境的 KVCache 命中率达到 93%-95%,高频用户甚至可达 95% 以上。这意味着绝大多数请求无需重新计算前缀,显著降低 TTFT(首 token 延迟)。

PD 分离与长度分桶:消除长尾阻塞

MiMo 采用 Prefill-Decode 分离架构,将计算密集的预填充阶段与内存密集的解码阶段部署在不同节点。预填充阶段通过减小 Expert Parallelism 规模(EP 减半)将端到端性能提升约 40%,因为更小的 EP 意味着更低的跨机通信开销和更好的 MoE 负载均衡。

针对超长序列导致的吞吐量衰减(1M 上下文下吞吐量降至 0.12x),MiMo 实施三层长度分桶策略:0-64K、64K-256K、256K-1M。将相似长度请求聚合到同一计算桶,避免短请求被长请求的 DP-Attention 同步和 Chunked Prefill 干扰所阻塞。实测显示该策略显著提升平均预填充吞吐量。

MTP 与多模态流水线:解码阶段的加速引擎

MiMo-V2.5 系列原生支持 3 层 Multi-Token Prediction,通过预测未来多个 token 的分布并行生成。早期实现中预填充阶段未启用 MTP,导致解码前 128 个 token 的 KVCache 缺失、预测接受率极低。通过为 HiCache L2/L3 添加 MTP 适配,0-128 token 区间加速达 2.3 倍,128-256 token 区间加速 1.5 倍,对以短输出为主的 Agent 场景尤为关键。

多模态编码器曾是吞吐瓶颈。通过 EPD(Encoder-Prefill-Decode)分离、跨请求批处理、GPU 图像预处理、并行视频解码等优化,Encoder QPS 从 15 提升至 30,P90 延迟从 100ms 降至 82ms。一致性哈希路由将相同多媒体内容导向同一 Encoder 节点,缓存命中率提升 30%。

生产级调参清单

基于上述架构,部署 MiMo-V2.5-Pro 时可参考以下配置:

  • Hybrid SWA 比例:建议保持 6:1(SWA:Full Attention),窗口大小 128,在 256K-1M 长上下文场景收益最大
  • KVCache 层级:L1 保留活跃会话,L2 配置为 GPU 显存的 3-5 倍,L3 使用 NVMe SSD 共部署
  • 长度分桶阈值:64K、256K 作为分界点,配合 FCFS + 缓存亲和度的混合调度策略
  • MTP 启用时机:预填充阶段即初始化 MTP 层 KVCache,确保解码早期接受率
  • EP 规模:在显存允许范围内尽可能减小 EP,优先保障单节点专家密度

结语

MiMo-V2.5-Pro 的工程实践表明,万亿参数模型的推理效率不取决于参数量本身,而在于激活策略与内存管理的精细化程度。MoE 稀疏激活将单次前向计算控制在 420 亿参数规模,Hybrid SWA 将 KVCache 压缩至 1/7,三层缓存系统实现 93% 以上的命中率,这些技术叠加使得 $1 / 百万输入 token 的定价成为可能。随着开源权重与 MIT 许可证的发布,这种 "高能力、低成本、可自托管" 的模型形态正在重新定义企业级 AI 的部署范式。


参考来源

  • Xiaomi MiMo 技术博客《Full-Pipeline Inference Optimization for MiMo-V2.5 Series》
  • NYU Shanghai RITS《Xiaomi Releases MiMo-V2.5-Pro: 1T-Parameter Open MoE Matches Frontier Coding Models》

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com