训练前沿 AI 模型传统上依赖大规模紧密耦合系统,数千块芯片必须保持近乎完美的同步状态。随着模型规模持续增长,在跨数据中心场景下维持这种同步水平已成为巨大的工程挑战。Google DeepMind 于 2026 年 4 月发布的 Decoupled DiLoCo(解耦式分布式低通信训练)提供了一种全新思路,通过将大规模训练任务分割为相互解耦的「计算岛屿」,在异步数据流动的基础上实现抗故障能力与训练效率的双重提升。
核心设计:计算岛屿与异步同步
Decoupled DiLoCo 建立在两项前期突破之上。其一是 Pathways 架构,引入了基于异步数据流的分布式 AI 系统;其二是 DiLoCo 方法,显著降低了分布式数据中心之间的带宽需求,使跨地域训练大型语言模型变得切实可行。Decoupled DiLoCo 将这两项技术融合,构建于 Pathways 之上,支持在独立计算单元(称为学习器单元,Learner Units)之间进行异步训练。
这种架构的核心创新在于「解耦」二字。每个学习器单元可以独立执行本地训练步骤,仅在预定的时间窗口进行参数同步,而非像传统数据并行方法那样每个迭代步都要求全局同步。当某个芯片或整个计算节点发生故障时,故障影响被限制在本地岛屿内部,其他岛屿可以持续高效学习,不受影响。训练系统具备自愈特性,在引入人工硬件故障的「混沌工程」测试中,Decoupled DiLoCo 能够在损失整个学习器单元后继续训练,并在故障节点恢复时无缝重新整合。
工程指标:带宽压缩与容错能力
实际测试数据揭示了 Decoupled DiLoCo 的工程价值。在 8 个数据中心场景下,传统数据并行训练需要约 198 Gbps 的跨域带宽,而 Decoupled DiLoCo 仅需 0.84 Gbps,带宽需求降低超过 200 倍。这一特性使得训练可以基于现有数据中心间的互联网连接进行,无需专门部署高速专用网络。
在模拟 120 万块芯片的高故障率环境中,Decoupled DiLoCo 保持了 88% 的有效吞吐率(Goodput),而传统数据并行方法的有效吞吐率骤降至 27%。这意味着即使在硬件故障频发的生产环境中,系统仍能持续交付有价值的训练计算。更关键的是,这些效率提升并未以模型性能为代价:在使用 Gemma 4 模型的实际测试中,Decoupled DiLoCo 达到了 64.1% 的平均基准分数,与传统方法基线的 64.4% 基本持平。
跨地域训练:4 区域 12B 参数模型实验
DeepMind 团队成功在四个美国区域内部署 Decoupled DiLoCo,训练了一个 120 亿参数的模型。训练使用了 2 至 5 Gbps 的广域网络带宽 —— 这正是现有数据中心设施间互联网连接的典型水平。系统实现了超过传统同步方法 20 倍的训练速度,其原因在于将必要的通信过程嵌入更长的计算阶段,避免了传统架构中因等待全局同步而形成的「阻塞瓶颈」。
这一成果的工程意义在于证明了全球分布式预训练的可行性。传统观念认为跨大洲训练需要专用光纤或超低延迟网络,而 Dec 代 DiLoCo 通过解耦设计将通信延迟隐藏于计算间隙,使得基于普通商业互联网的跨区域训练成为可能。
硬件代际混部:延长硬件生命周期
Decoupled DiLoCo 的另一项重要特性是支持异构硬件混部。实验表明,系统可以在同一训练任务中混合使用不同代际的加速器,例如 TPU v6e 和 TPU v5p。不同计算速度的芯片在混合训练中依然能够达到与单一代际硬件训练相当的 ML 性能。这一能力带来了多重实际价值:既可以延长现有硬件的投资回报周期,也能够在硬件更新换代期间避免资源闲置 —— 因为新硬件不会同时部署到所有数据中心,跨代际训练能力有效缓解了产能瓶颈。
工程实践要点
对于希望在生产环境中复现该架构的团队,以下参数值得关注。首先是同步频率配置,Decoupled DiLoCo 将通信窗口嵌入较长计算阶段,具体比例需根据硬件可靠性与网络条件调优,建议从 10:1 的计算通信比起步测试。其次是故障检测与恢复机制,实验采用的混沌工程方法表明系统需具备分钟级故障检测与自动重整合能力。第三是异构硬件调度策略,混合不同代际芯片时需引入动态负载均衡,确保慢速节点不成为全局瓶颈。
Decoupled DiLoCo 代表了分布式训练范式的重要演进方向。通过将通信需求降低两个数量级、在高故障场景下维持 88% 有效吞吐率、并支持跨硬件代际的灵活训练,该方法为互联网规模的 AI 基础设施提供了新的技术基线。随着模型规模继续增长,这种具备容错能力且能够利用散落计算资源的方法,可能成为下一代大模型训练的标准架构。
资料来源:Google DeepMind Blog (2026-04-23), arXiv:2604.21428v1