小米MiMo代码大模型开源：32B级MoE架构、三阶段数据配比与256K长上下文优化实践

小米近期正式开源了其代码大模型系列 MiMo，这一动作标志着国内头部科技企业在大模型开源生态中的深度参与。MiMo 系列包含多个版本，其中 MiMo-V2-Flash 采用 MoE（专家混合）架构，总参数量达 3090 亿，活跃参数 150 亿，在 SWE-bench Verified 基准测试中取得 73.4% 的成绩，超越众多开源模型。本文将从架构设计、训练数据配比和长上下文推理优化三个维度，解析其技术实现路径。

一、MoE 架构与滑动窗口注意力机制

MiMo-V2-Flash 的核心架构创新体现在对注意力机制的重构。传统 Transformer 采用全局注意力，计算复杂度随序列长度呈二次增长，KV 缓存占用也迅速膨胀。MiMo 团队提出混合滑动窗口注意力机制，采用 5:1 的激进分层策略 —— 即 5 层滑动窗口注意力与 1 层全局注意力交替运行。

滑动窗口仅聚焦 128 个 token，这一数值经过实验验证为 "最优甜点值"。团队发现，过度扩展窗口（如提升至 512）反而会引发性能衰减。通过这种设计，KV 缓存存储量缩减约 6 倍，同时完整保留 256K 上下文窗口的长文本处理能力。这种架构选择体现了在显存约束与长文本需求之间的工程权衡。

此外，MiMo 引入轻量级多 Token 预测（MTP）模块。传统模型每次仅输出一个 token，而 MTP 可同步预测后续多个 token，实现 "一猜多词"。实验数据显示，三层 MTP 架构下平均接受长度突破 3，编码效率提升至原有水平的 2.5 倍。这一机制不仅加速推理，还优化了训练过程中的采样速度，降低 GPU 闲置率。

二、代码专用训练数据的三阶段配比策略

MiMo 的训练数据配比体现了对代码和数学推理能力的针对性优化。预训练阶段采用三阶段数据混合策略：

第一阶段构建广泛知识基础，纳入除推理任务合成响应外的所有数据源，同时减少广告、新闻等过度代表内容的比例，增加专业领域高价值数据。

第二阶段显著增加数学和代码相关数据的比例，使其占混合数据的约 70%。这一阶段的核心目标是让模型建立扎实的编程和数学推理模式。

第三阶段进一步提升复杂任务处理能力，纳入约 10% 的数学、代码和创意写作查询的合成响应，并将上下文长度从 8,192 扩展至 32,768 token。整个预训练过程使用了约 25 万亿 token 的数据集。

后训练阶段采用多教师在线策略蒸馏（MOPD），仅需传统方法 1/50 的算力即可达到教师模型的性能水平。针对代码任务，团队还设计了测试难度驱动奖励机制，借鉴 IOI（国际信息学奥林匹克）评分规则，按测试用例通过率聚类难度级别，给予分层奖励。

三、256K 长上下文推理的工程实践

支持 256K 上下文窗口是 MiMo 的重要特性，这相当于一部中篇小说或数十页技术文档的文本量。实现这一能力需要解决显存占用和推理效率两大挑战。

在显存优化方面，混合滑动窗口注意力机制通过限制局部注意力范围，将 KV 缓存压缩至传统全局注意力的约 1/6。同时，团队强调 sink values 的保留对性能维持至关重要，任何情况下均不可省略。

在推理效率方面，MiMo 实现了 150 tokens / 秒的推理速度，并将成本控制在输入 0.1 美元 / 百万 token、输出 0.3 美元 / 百万 token 的水平。无缝滚出引擎通过连续滚出、异步奖励计算和早期终止等优化，使训练速度提升 2.29 倍，验证速度提升 1.96 倍。

四、可落地参数清单

基于 MiMo 的技术报告，以下是可直接应用于代码大模型训练与部署的关键参数：

架构参数

滑动窗口大小：128 token（实验验证的最优值）
全局 / 滑动注意力层比例：1:5
MTP 层数：3 层
上下文窗口：256K（训练时逐步扩展：8K → 32K → 256K）

训练数据配比

第二阶段数学 + 代码数据占比：70%
第三阶段合成响应占比：10%
预训练总数据量：25 万亿 token
简单数据重采样概率：10%

后训练策略

动态采样：过滤通过率等于 0 或 1 的提示
代码奖励：基于测试用例难度分层（严格 / 软方案）
蒸馏效率：相比传统方法节省 50 倍算力

部署成本参考

输入：$0.1 / 百万 token
输出：$0.3 / 百万 token
推理速度：150 tokens / 秒

MiMo 的开源为代码大模型领域提供了新的技术参考。其混合注意力机制、三阶段数据配比策略以及长上下文优化方案，为构建高效、低成本的代码推理模型提供了可复用的工程范式。

资料来源

掘金：《重磅！小米刚刚发布新模型 MiMo-V2-Flash 开源了！》
网易科技：《小米 MiMo 模型：如何从预训练到后训练全面激发大语言模型推理潜力》
Hacker News：MiMo Code Is Now Released and Open-Source 讨论帖

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。