Kimi K2.5 多模态令牌化与预训练数据工程解析

多模态大语言模型的发展正在经历从「视觉适配器」向「原生多模态」的范式转变。Kimi K2.5 作为 Moonshot AI 于 2026 年初发布的旗舰级开源模型，其核心技术突破之一在于构建了一套完整的视觉 - 文本混合令牌化与预训练数据工程体系。该模型基于 1.04 万亿参数的混合专家（MoE）架构，在约 15 万亿混合视觉与文本令牌上进行预训练，实现了无需外部适配器的原生多模态处理能力。本文将从令牌化策略、数据管道、预训练阶段三个维度，系统解析 Kimi K2.5 的数据工程实践。

MoonViT 原生分辨率视觉令牌化

传统的视觉 - 语言模型通常采用固定分辨率的视觉编码器，需要将输入图像先调整为统一尺寸或切分为多个子图进行处理，这种方式在处理高分辨率图像时往往面临信息损失或计算效率低下的问题。Kimi K2.5 的视觉编码器 MoonViT 采用了原生分辨率（Native-Resolution）的设计理念，彻底摒弃了复杂的图像切分与拼接操作。

MoonViT 的核心创新在于引入了 NaViT 提出的打包方法（Packing Method），该方法将图像划分为若干 patches 后扁平化，并按顺序拼接为一维序列。这种预处理操作使得 MoonViT 能够与语言模型共享相同的核心计算算子和优化策略，包括 FlashAttention 支持的变长序列注意力机制，从而在保持训练吞吐量的同时处理任意分辨率的图像输入。

在位置编码方面，MoonViT 采用了双轨并行策略。初始阶段复用 SigLIP-SO-400M 的可学习固定尺寸绝对位置编码，并通过插值技术使其适应不同分辨率的图像输入。然而，随着图像分辨率的不断提升，插值后的绝对位置编码逐渐显现出局限性。为解决这一问题，MoonViT 引入了二维旋转位置编码（2D RoPE），在高度和宽度两个维度上分别应用旋转位置嵌入，有效提升了对高分辨率图像细粒度位置信息的编码能力。这两种位置编码方案的协同工作，使得 MoonViT 能够在同一批次内高效处理不同分辨率的图像，同时保持空间信息的完整性。

在视觉特征与语言模型的连接层面，Kimi K2.5 采用了两层 MLP 投影器，并在其中嵌入像素 shuffle 操作实现空间维度压缩。具体而言，MoonViT 提取的图像特征首先经过 2×2 的空间下采样，同时相应地扩展通道维度，再输入两层 MLP 投影至语言模型嵌入维度。这一设计在保留关键视觉信息的同时，有效控制了视觉令牌的数量，避免了因高分辨率图像导致的令牌爆炸问题。

预训练数据管道与质量控制

Kimi K2.5 的预训练语料库围绕六大类别进行组织：图像描述（Caption）、视觉 - 文本交织（Interleaving）、光学字符识别（OCR）、知识图谱（Knowledge）、视频数据（Video）以及智能体交互数据（Agent）。每个类别都经过严格的筛选、合成与去重流程，确保训练数据的高质量与多样性。

在数据合成方面，Kimi K2.5 采用审慎的态度严格控制合成数据的比例，尤其在图像描述数据中，合成数据的占比被限制在较低水平，以降低模型产生幻觉的风险。这一策略反映了当前多模态预训练领域的共识：真实世界数据的语义一致性与分布特性难以被合成数据完全复制，过度依赖合成数据可能导致模型学习到虚假的视觉 - 语言对应关系。

视觉 - 文本交织数据是 Kimi K2.5 预训练语料的重要组成部分，这类数据能够有效提升模型的多图像理解能力、长上下文学习能力以及对细节知识的感知能力。Kimi K2.5 同时利用开源交织数据集和自建大规模语料库，后者涵盖教科书、网页、教程等多种来源。在数据预处理阶段，除了标准的过滤、去重和质量控制流程外，还特别引入了数据重排序（Data Reordering）程序，确保图像与文本在序列中保持正确的语义对应关系。

OCR 数据的构建遵循 OCR 2.0 的设计原则，将模型的能力从传统的光学字符识别扩展到更广泛的视觉文本理解领域。除了单页 OCR 数据外，Kimi K2.5 还构建了大量多页 OCR 数据，用于激活模型对长文档的理解能力。在数据增强层面，模型训练采用了旋转、扭曲、色彩调整、噪声添加等多种技术手段，以提升模型对各种输入条件的鲁棒性。

智能体数据（Agent Data）的构建采用启发式方法，在虚拟环境（涵盖桌面端、移动端和 Web 端）中批量收集屏幕截图与对应的动作数据。这些数据被处理为密集定位格式（dense grounding formats）和连续轨迹格式（continuous trajectory formats）。此外，为增强模型解决多步骤桌面任务的规划能力，Kimi K2.5 还收集了包含合成思维链（Chain-of-Thought）的计算机使用轨迹数据。

视频数据的引入旨在培养两个方向的能力：理解以图像为主的长上下文序列（如小时级视频）以及感知短视频片段中的细粒度时空对应关系。视频数据来源于开源数据集和自建的大规模网络视频库，涵盖多种时长、场景和任务类型。对于长视频，Kimi K2.5 设计了专门的密集字幕生成管道，并同样对合成视频描述数据的比例保持严格限制。

四阶段预训练策略

Kimi K2.5 的预训练过程采用精心设计的四阶段流水线，总计消耗 4.4 万亿令牌（不计语言模型阶段的预训练数据）。这一策略的核心目标是在保留语言模型原有能力的同时，逐步集成视觉理解能力。

第一阶段为视觉编码器独立训练阶段（ViT Training），MoonViT 在图像 - 文本对上接受训练，文本目标涵盖图像 alt 文本、合成字幕、定位边界框和 OCR 文本。训练采用双目标函数：SigLIP 对比损失和基于 CoCa 风格的字幕生成交叉熵损失。为加速训练，视觉编码器和文本解码器分别从 SigLIP SO-400M 和轻量级解码器语言模型初始化，并采用渐进式分辨率采样策略逐步提升处理图像的尺寸。

第二阶段为视觉 - 语言对齐阶段（Vision-Language Alignment），使用 0.1 万亿令牌将 MoonViT 与 MoE 语言模型进行对齐，此阶段仅更新 MoonViT 和 MLP 投影器的参数。该对齐阶段显著降低了 MoonViT 嵌入在语言模型中的初始困惑度，为后续的联合预训练奠定基础。

第三阶段为联合预训练阶段（Joint Pre-training），模型在纯文本数据和多模态数据的混合上进行训练。初始步骤完全使用语言数据，随后多模态数据的比例逐步增加。这种渐进式方法使得模型能够在保持语言能力的同时成功集成视觉理解能力。Kimi K2.5 的文本预训练语料直接复用 Moonlight 模型的设计，涵盖英文、中文、代码、数学与推理、知识五大领域，通过严格的源级验证和采样策略优化，确保数据质量与多样性。

第四阶段为长上下文激活阶段（Long-Context Activation），将模型的上下文长度从 8192 扩展至 131072，采用两次四倍扩展的子阶段策略。在每个子阶段中，长数据的比例被过滤并上采样至 25%，其余 75% 的令牌用于回放上一阶段的短数据。值得注意的是，长上下文激活所使用的数据不仅包括长文本，还包括长视觉 - 文本交织数据、长视频和长文档，确保模型在纯文本和多模态输入上都能激活长上下文能力。

工程基础设施与并行训练

支撑 Kimi K2.5 预训练的工程基础设施同样值得关注。数据存储采用兼容 S3 的对象存储服务，视觉数据以原始格式存储以最小化数据准备与模型训练之间的时间延迟。数据加载系统支持在线数据 shuffling、混合、分词、损失掩码和打包操作，同时能够在保持二维坐标和方向信息正确性的前提下对视觉和文本数据进行随机增强。

在分布式训练层面，Kimi K2.5 采用四维并行策略：数据并行（DP）通过增加设备数量扩大有效批大小；专家并行（EP）将 MoE 层中的专家模块分布到不同设备；管道并行（PP）将模型按层切分为多个阶段，将视觉模块和部分解码层分配到第一阶段，输出层和额外解码层分配到最后阶段，中间层根据时间开销均匀分布；上下文并行（CP）结合 FlashAttention 将长序列分割到不同 CP 秩上，显著降低峰值内存占用。

除四维并行策略外，Kimi K2.5 还集成了 ZeRO-1 优化器和选择性检查点激活技术。ZeRO-1 通过分布式优化器降低优化器状态开销，同时避免额外的通信成本。选择性检查点激活通过仅对低时间开销但高内存消耗的层进行重计算，在计算效率和内存需求之间取得平衡。对于极长序列，重计算范围扩展到更广泛的层，以防止内存溢出错误。

经过并行策略优化后，Kimi K2.5 的训练吞吐量相比基于 Qwen2.5-7B 的 7B 密集视觉语言模型提升了约 60%，这一效率优势对于万亿参数级别模型的训练至关重要。

结论

Kimi K2.5 的多模态令牌化与预训练数据工程实践代表了当前开源多模态大语言模型的前沿水平。MoonViT 原生分辨率视觉编码器通过创新的打包方法和二维 RoPE 位置编码，实现了高效的高分辨率图像处理能力；精心构建的六类预训练数据管道确保了模型在视觉理解、知识推理、智能体交互等多个维度上的综合能力；四阶段预训练策略则在保留语言模型核心能力与集成视觉理解之间取得了良好平衡。这些技术选择与工程实践为后续多模态模型的发展提供了重要参考。

资料来源：Kimi-VL Technical Report (arXiv:2504.07491)，Moonshot AI 官方文档，Techmeme 报道。