在大规模机器学习训练场景中,多 GPU 之间的梯度同步与参数更新对网络性能极为敏感。传统的 TCP/IP 协议栈因内核上下文切换和数据复制开销,已成为分布式训练的性能瓶颈。RDMA(Remote Direct Memory Access)技术通过直接内存访问绕过操作系统内核,将延迟从微秒级降低到亚微秒级,成为现代 ML 训练集群的事实标准。当前业界主要两条技术路线是 RoCE(RDMA over Converged Ethernet)和 InfiniBand,两者各有适用场景和工程约束,本文从延迟、吞吐、拥塞控制与成本四个维度进行系统对比,并给出选型决策框架。
核心性能指标对比
延迟是 ML 训练集群网络最敏感的指标。InfiniBand 采用基于信用证的流量控制机制,端到端延迟典型值在 0.5 至 1 微秒之间,支持硬件卸载的 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)原语可在网络内完成梯度聚合,进一步减少通信轮次。RoCEv2 在标准以太网交换机上实现 RDMA,延迟略高典型值为 1 至 3 微秒,但随着高性能数据中心交换机(如 Spectrum-4、Tomahawk 5)的成熟,两者差距已缩小至亚微秒级别。需要指出的是,延迟的绝对值并非唯一决定因素 ——通信与计算的重叠效率(即计算与通信流水线并行程度)对训练迭代时间的影响往往超过单纯的网络延迟改善。
吞吐能力方面,InfiniBand 单端口带宽当前已演进至 NDR 400Gbps(NDR 即 Next Data Rate),单链路可承载 40 万每秒报文转发,配合 SHARP 协议在多层 fat-tree 拓扑下可实现近线性扩展。RoCEv2 在 100Gbps 以太网端口上已实现广泛部署,200Gbps 和 400Gbps 以太网交换机正在进入大规模生产环境。需要特别注意 RoCE 在多租户或大流 量场景下的拥塞倒流(Congestion Flooding)问题:当多个发送端同时向同一接收端发送数据时,基于 PFC(Priority Flow Control)的拥塞控制机制可能触发_priority pause_,导致部分流量被暂停而非丢弃,这在 ML 训练中会导致 all-reduce 通信的同步等待,是性能毛刺的主要来源。
端到端拥塞控制工程实践
InfiniBand 的拥塞控制机制由硬件原生支持,采用基于分数的拥塞通知(Signaled Congestion Control)和自适应路由(Adaptive Routing),能够在网络发生拥塞前动态调整路径分布。这一特性对于大规模 all-reducecollective 通信尤为重要 —— 当数千个 GPU 同时参与梯度同步时,静态路由极易导致热点链路拥塞。InfiniBand 交换机内置的拥塞控制芯片可以在硬件层面感知队列深度并提前降速,实现几乎无感的拥塞响应。
RoCEv2 的拥塞控制依赖 DCQCN(Data Center Quantized Congestion Notification)和 PFC 的组合。DCQCN 作为基于 ECN(Explicit Congestion Notification)的端侧拥塞控制算法,需要在发送端、接收端和网络设备三端协同配置。工程实践中常见的调优参数包括ECN 阈值(min_rtt/max_rtt 的百分比)、PFC 帧优先级(通常映射到 IEEE 802.1p 的优先级 6 或 7 以保证 RDMA 流量不被其他业务流量抢占)、以及DCQCN 速率恢复因子(beta 参数控制拥塞消失后的速率恢复速度)。一个典型的高性能 ML 训练集群配置建议如下:ECN 标记阈值设为拥塞窗口的 30% 至 40%;PFC 启用但设置较深的 XOFF 阈值(如 100 个数据包)以避免频繁暂停;DCQCN 的 alpha 更新周期设为微秒级以实现快速响应。
对于 RoCE 网络而言,无丢包以太网的构建是系统性的工程挑战。需要在交换机上统一配置 ETS(Enhanced Transmission Selection)保证 RDMA 流量的带宽预留,关闭 CoS(Class of Service)中的混合队列调度,并确保端网卡和交换机之间的 PFC 参数对齐。任何一端的配置不一致都可能导致反压链路断裂,造成丢包后 RDMA 直接断开连接而非 TCP 的自动重传,后果是训练任务中断。
成本结构与 TCO 分析
成本是选型的关键决策因素。InfiniBand 的交换机和网卡采用专有芯片和封闭生态,NVIDIA/Mellanox 的 Quantum 系列交换机和 ConnectX 系列网卡单价显著高于商用以太网设备。以一个包含 128 张 H100 GPU 的典型训练节点为例,InfiniBand 网络硬件成本约占整体集群成本的 15% 至 20%,而同等规模的 RoCE 方案可将该比例降至 8% 至 12%。此外,InfiniBand 的线缆和光模块标准(QSFP112)单价也高于以太网对应的规格。
但 TCO 分析不能仅看硬件采购成本。InfiniBand 的运维成本通常更低 —— 其即插即用的认证机制(Subnet Manager 自动发现拓扑)和成熟的拥塞控制使得网络调优工作量显著低于 RoCE。一个经验法则是:对于百卡以下规模的训练集群,RoCE 的 TCO 优势明显;超过五百卡时,InfiniBand 的运维效率和性能稳定性带来的隐性收益通常能够抵消硬件成本差距。
选型决策框架与实践建议
基于上述分析,给出以下工程化的选型决策框架。首先以集群规模为首要分界点:单节点 8 卡以下的中小规模集群优先选择 RoCE,生态成熟且与现有数据中心以太网络无缝兼容;超过 256 卡的大规模训练集群建议采用 InfiniBand,尤其当训练任务包含频繁的 all-reduce 同步或使用 SHARP 进行原位梯度聚合时。其次以业务 SLA为考量:对于延迟敏感的训练任务(如大模型预训练的第二阶段需要高频同步),InfiniBand 的确定性延迟表现更可靠;对于推理或中小模型训练,RoCE 的性能已足够。
在实际部署中,无论选择哪种方案,都应遵循以下工程实践:网络平面严格物理隔离,RDMA 流量使用独立的 VLAN 和优先级;网卡固件和驱动定期更新以获得最新的拥塞控制算法优化;部署端到端的网络性能监控,核心指标包括 RTT 尾延迟(99.9 分位应控制在预期值的 150% 以内)、PFC 暂停帧计数(异常升高预示拥塞控制参数需要调优)、以及 RDMA 重传率(应低于 0.01%)。
参考资料
- NVIDIA Mellonox InfiniBand Architecture Technical Overview, 2025.
- DCQCN Congestion Control for RoCEv2: Parameter Tuning and Performance Analysis, IEEE COMST, 2024.