Hotdry.

Article

小米MiMo代码大模型开源:32B级MoE架构、三阶段数据配比与256K长上下文优化实践

解析小米MiMo代码大模型的MoE架构设计、代码专用训练数据三阶段配比策略,以及256K长上下文推理的工程优化方案与可落地参数。

2026-06-11ai-systems

小米近期正式开源了其代码大模型系列 MiMo,这一动作标志着国内头部科技企业在大模型开源生态中的深度参与。MiMo 系列包含多个版本,其中 MiMo-V2-Flash 采用 MoE(专家混合)架构,总参数量达 3090 亿,活跃参数 150 亿,在 SWE-bench Verified 基准测试中取得 73.4% 的成绩,超越众多开源模型。本文将从架构设计、训练数据配比和长上下文推理优化三个维度,解析其技术实现路径。

一、MoE 架构与滑动窗口注意力机制

MiMo-V2-Flash 的核心架构创新体现在对注意力机制的重构。传统 Transformer 采用全局注意力,计算复杂度随序列长度呈二次增长,KV 缓存占用也迅速膨胀。MiMo 团队提出混合滑动窗口注意力机制,采用 5:1 的激进分层策略 —— 即 5 层滑动窗口注意力与 1 层全局注意力交替运行。

滑动窗口仅聚焦 128 个 token,这一数值经过实验验证为 "最优甜点值"。团队发现,过度扩展窗口(如提升至 512)反而会引发性能衰减。通过这种设计,KV 缓存存储量缩减约 6 倍,同时完整保留 256K 上下文窗口的长文本处理能力。这种架构选择体现了在显存约束与长文本需求之间的工程权衡。

此外,MiMo 引入轻量级多 Token 预测(MTP)模块。传统模型每次仅输出一个 token,而 MTP 可同步预测后续多个 token,实现 "一猜多词"。实验数据显示,三层 MTP 架构下平均接受长度突破 3,编码效率提升至原有水平的 2.5 倍。这一机制不仅加速推理,还优化了训练过程中的采样速度,降低 GPU 闲置率。

二、代码专用训练数据的三阶段配比策略

MiMo 的训练数据配比体现了对代码和数学推理能力的针对性优化。预训练阶段采用三阶段数据混合策略:

第一阶段构建广泛知识基础,纳入除推理任务合成响应外的所有数据源,同时减少广告、新闻等过度代表内容的比例,增加专业领域高价值数据。

第二阶段显著增加数学和代码相关数据的比例,使其占混合数据的约 70%。这一阶段的核心目标是让模型建立扎实的编程和数学推理模式。

第三阶段进一步提升复杂任务处理能力,纳入约 10% 的数学、代码和创意写作查询的合成响应,并将上下文长度从 8,192 扩展至 32,768 token。整个预训练过程使用了约 25 万亿 token 的数据集。

后训练阶段采用多教师在线策略蒸馏(MOPD),仅需传统方法 1/50 的算力即可达到教师模型的性能水平。针对代码任务,团队还设计了测试难度驱动奖励机制,借鉴 IOI(国际信息学奥林匹克)评分规则,按测试用例通过率聚类难度级别,给予分层奖励。

三、256K 长上下文推理的工程实践

支持 256K 上下文窗口是 MiMo 的重要特性,这相当于一部中篇小说或数十页技术文档的文本量。实现这一能力需要解决显存占用和推理效率两大挑战。

在显存优化方面,混合滑动窗口注意力机制通过限制局部注意力范围,将 KV 缓存压缩至传统全局注意力的约 1/6。同时,团队强调 sink values 的保留对性能维持至关重要,任何情况下均不可省略。

在推理效率方面,MiMo 实现了 150 tokens / 秒的推理速度,并将成本控制在输入 0.1 美元 / 百万 token、输出 0.3 美元 / 百万 token 的水平。无缝滚出引擎通过连续滚出、异步奖励计算和早期终止等优化,使训练速度提升 2.29 倍,验证速度提升 1.96 倍。

四、可落地参数清单

基于 MiMo 的技术报告,以下是可直接应用于代码大模型训练与部署的关键参数:

架构参数

  • 滑动窗口大小:128 token(实验验证的最优值)
  • 全局 / 滑动注意力层比例:1:5
  • MTP 层数:3 层
  • 上下文窗口:256K(训练时逐步扩展:8K → 32K → 256K)

训练数据配比

  • 第二阶段数学 + 代码数据占比:70%
  • 第三阶段合成响应占比:10%
  • 预训练总数据量:25 万亿 token
  • 简单数据重采样概率:10%

后训练策略

  • 动态采样:过滤通过率等于 0 或 1 的提示
  • 代码奖励:基于测试用例难度分层(严格 / 软方案)
  • 蒸馏效率:相比传统方法节省 50 倍算力

部署成本参考

  • 输入:$0.1 / 百万 token
  • 输出:$0.3 / 百万 token
  • 推理速度:150 tokens / 秒

MiMo 的开源为代码大模型领域提供了新的技术参考。其混合注意力机制、三阶段数据配比策略以及长上下文优化方案,为构建高效、低成本的代码推理模型提供了可复用的工程范式。


资料来源

  • 掘金:《重磅!小米刚刚发布新模型 MiMo-V2-Flash 开源了!》
  • 网易科技:《小米 MiMo 模型:如何从预训练到后训练全面激发大语言模型推理潜力》
  • Hacker News:MiMo Code Is Now Released and Open-Source 讨论帖

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com