Hotdry.

Article

Liquid AI 8B-A1B MoE 路由机制解析:端侧稀疏激活的工程实践

解析 LFM2-8B-A1B 的归一化 sigmoid 路由与 top-4 稀疏激活策略,探讨 12T token 训练下的专家分配效率与端侧推理成本控制。

2026-05-29ai-systems

Mixture-of-Experts(MoE)架构长期以来被视为云端大模型的专属优化手段,其核心假设是:通过稀疏激活在保持总参数规模的同时降低计算开销,从而服务于高吞吐量的批处理场景。然而,Liquid AI 发布的 LFM2-8B-A1B 模型挑战了这一认知 —— 它是一款专为端侧设备设计的 MoE 模型,总参数量 8.3B,每 token 仅激活 1.5B 参数,在 Samsung Galaxy S24 Ultra 等移动设备上实现了超越同规模 dense 模型的推理速度。

这一成就的关键在于对路由机制与稀疏激活策略的精细化设计。与云端 MoE 追求批处理吞吐量不同,端侧场景的核心约束是延迟与内存的严格限制。LFM2-8B-A1B 通过归一化 sigmoid 门控配合自适应路由偏置,以及 32 专家 top-4 的粒度配置,在 12T token 的训练过程中实现了专家负载的有效均衡,同时保证了推理阶段的低延迟特性。

路由机制:归一化 Sigmoid 与自适应偏置

LFM2-8B-A1B 的路由层采用归一化 sigmoid 门控(normalized sigmoid gating)机制。与传统 softmax 路由不同,sigmoid 激活为每个专家独立输出一个 0 到 1 之间的权重值,这使得多个专家可以同时被激活,且权重之和不再强制为 1。这种设计在理论上提供了更大的路由灵活性,允许模型根据输入特征动态调整专家组合的强度。

更重要的是,Liquid AI 引入了自适应路由偏置(adaptive routing biases)来优化训练动态和负载均衡。在 MoE 训练中,路由崩溃(routing collapse)是一个常见问题:少数 "幸运" 专家在训练初期获得较多激活,导致梯度更新偏向这些专家,最终形成马太效应。自适应偏置通过在路由决策中注入与专家激活频率负相关的动态调整项,鼓励路由器探索未被充分利用的专家。这一机制在 12T token 的长周期训练中尤为关键,它确保了 32 个专家能够持续获得均衡的梯度信号,避免专家能力的过度分化。

从工程实现角度,归一化 sigmoid 的另一个优势是数值稳定性。在端侧设备的低精度推理环境(如 INT4/INT8 量化)中,softmax 的指数运算容易溢出,而 sigmoid 的数值范围更易于控制。这与 LFM2-8B-A1B 的量化部署策略形成良好配合 —— 模型提供 GGUF、MLX、ONNX 等多种格式,支持 Q4_0、Q4_K_M 等低比特量化方案,在保持路由精度的同时显著降低内存占用。

稀疏激活策略:32 专家 top-4 的设计权衡

LFM2-8B-A1B 的专家配置为每 MoE 块 32 个专家,每 token 激活 top-4。这一粒度选择体现了质量与效率的精细权衡。根据 Liquid AI 的技术说明,更高的专家粒度(如 64 或 128 专家)虽然理论上可以提供更强的专业化能力,但会带来路由计算开销的增加和可移植内核实现的复杂度。32 专家的配置在提供足够专业化空间的同时,保持了路由层的轻量化和内核优化友好性。

稀疏激活比例(4/32 = 12.5%)是另一个关键参数。过低的激活比例会导致专家覆盖不足,模型难以捕捉复杂特征;过高则违背 MoE 降低计算量的初衷。12.5% 的激活比例意味着每 token 仅使用总容量的 1/8,这与 1.5B/8.3B ≈ 18% 的激活参数比例形成对应 —— 考虑到路由层和共享参数的存在,实际激活的专家参数占比略低于理论值。

在架构层面,LFM2-8B-A1B 将 MoE 块放置于除前两层的所有 Transformer 层中。前两层保持 dense 设计是出于训练稳定性的考虑:在训练初期,模型需要先建立基础的特征表示能力,过早引入稀疏路由可能增加优化难度。这种渐进式稀疏化策略在 12T token 的训练过程中起到了稳定器的作用。

训练效率与专家分配

LFM2-8B-A1B 的训练数据构成约为 55% 英语、25% 多语言、20% 代码。这一分布与专家专业化方向高度相关:在 12T token 的训练过程中,不同领域的 token 会自然地被路由到具有相应专长的专家。代码数据的高比例(20%)解释了模型在 LiveCodeBench 和 HumanEval+ 等编程基准上的竞争力 —— 尽管只有 1.5B 激活参数,LFM2-8B-A1B 在代码生成任务上超越了多个 3B 规模的 dense 模型。

训练效率的另一个维度是计算资源的分配。由于每 token 仅激活 1.5B 参数,前向传播和反向传播的 FLOPs 与 1.5B dense 模型相当,但模型容量(以总参数量衡量)达到 8.3B。这种 "小计算、大容量" 的特性使得模型能够存储更多的世界知识和领域专业知识,而无需承担全量参数激活的计算成本。在端侧部署场景中,这意味着用户可以获得接近 3-4B dense 模型的质量体验,但推理延迟和能耗与 1.5B 模型相当。

值得注意的是,LFM2-8B-A1B 的内存占用特性:权重存储随总参数量(8.3B)缩放,而计算和 KV 缓存随激活路径(1.5B)缩放。这一不对称性在量化部署中尤为明显 ——Q4_0 量化后的模型可以舒适地装入高端手机的内存,而推理时的激活内存占用保持在较低水平。

推理成本与端侧部署参数

端侧 MoE 的推理优化面临独特挑战。Liquid AI 发现,直接使用为 GPU 优化的 MoE 内核在 CPU 上表现不佳,因为 CPU 的内存访问模式和并行特性与 GPU 有本质差异。为此,他们开发了专门的 CPU 优化 MoE 内核,通过重新组织专家权重的内存布局和计算流水线,在 AMD Ryzen AI 9 HX 370 等端侧芯片上实现了显著的性能提升。

在部署参数方面,LFM2-8B-A1B 提供了灵活的量化选项:

  • GGUF 格式:推荐 Q4_K_M,在质量和大小间取得最佳平衡
  • MLX 格式:推荐 8bit,适用于 Apple Silicon 的统一内存架构
  • ONNX 格式:支持 Q4F16(MoE 专用),适用于生产级边缘部署

这些量化方案与稀疏激活机制协同工作:由于每 token 只加载 4 个专家的权重,量化后的内存带宽压力进一步降低。在 Samsung Galaxy S24 Ultra(Qualcomm Snapdragon)和 AMD Ryzen HX370 的实测中,Q4_0 量化的 LFM2-8B-A1B 解码吞吐量显著优于 Qwen3-1.7B 等同规模 dense 模型。

结论

LFM2-8B-A1B 的路由与稀疏激活设计为端侧 MoE 模型提供了可复用的工程范式。归一化 sigmoid 门控配合自适应偏置解决了训练稳定性问题,32 专家 top-4 的配置在专业化能力和计算效率间找到了平衡点,而 CPU 优化的内核实现释放了稀疏架构在端侧硬件上的潜力。

对于希望在端侧部署 MoE 模型的开发者,关键 takeaway 包括:

  1. 路由机制选择:sigmoid 门控在端侧量化环境中具有数值稳定性优势
  2. 专家粒度权衡:32-64 专家是端侧场景的黄金区间,过高会增加内核复杂度
  3. 渐进式稀疏化:前几层保持 dense 有助于训练稳定性
  4. 硬件适配:端侧 MoE 需要专门的 CPU 内核优化,直接使用 GPU 优化方案会损失性能

随着端侧 AI 需求的持续增长,稀疏激活架构将成为平衡模型能力与设备约束的关键技术路径。LFM2-8B-A1B 的实践表明,MoE 并非云端专属 —— 通过精细的路由设计和硬件协同优化,稀疏架构同样可以在手机、平板和笔记本上实现高效推理。


参考来源

  • Liquid AI Blog: "LFM2-8B-A1B: An Efficient On-device Mixture-of-Experts" (2025)
  • Amini et al., "LFM2 Technical Report", arXiv:2511.23404 (2025)

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com