VERL 中奖励模型分片与基于 RDMA 的聚合：高效分布式离线 RLHF 训练

在大型语言模型（LLM）的对齐训练中，基于人类反馈的强化学习（RLHF）已成为关键技术。其中，奖励模型（Reward Model）负责评估生成响应的质量，直接影响训练效果。然而，在多 GPU 集群上进行分布式离线 RLHF 训练时，奖励模型的计算往往成为瓶颈：模型规模庞大，数据并行和模型并行需求高，通信开销巨大。VERL（Volcano Engine Reinforcement Learning）框架通过创新的奖励模型分片策略和基于 RDMA 的聚合机制，有效解决了这些问题，实现高效训练。本文将探讨这些优化策略的原理、实现及工程参数，帮助开发者在实际集群中落地。

奖励模型在 RLHF 中的核心作用与挑战

RLHF 训练流程通常包括响应生成、奖励计算和策略优化三个阶段。奖励模型在此扮演 “裁判” 角色：它接收 actor 生成的响应和提示，输出偏好分数，用于计算优势函数（Advantage）。在离线 RLHF 中，数据集预先准备好，训练焦点在于高效处理海量样本。

传统框架下，奖励模型训练面临挑战：

规模瓶颈：奖励模型常基于 7B~70B 参数 LLM，单 GPU 无法容纳，需要分片（Sharding）分布到多 GPU。
通信开销：分布式计算中，all-gather（收集梯度）和 reduce-scatter（分发更新）操作频繁，Ethernet 网络延迟高，导致吞吐量低下。
负载不均：序列长度变异大，sharding 不优化易造成 GPU 闲置。

VERL 基于 HybridFlow 架构，通过 3D-HybridEngine 集成 FSDP（Fully Sharded Data Parallel）和 Megatron-LM，实现奖励模型的智能分片和 RDMA 加速聚合，吞吐量提升 1.5~20 倍。

奖励模型分片策略：FSDP 与 Megatron-LM 的融合

VERL 支持两种主流 sharding 策略，针对奖励模型的计算特性优化部署。

FSDP 分片（推荐中小规模）： FSDP 将模型参数、梯度和优化器状态全部分片到每个 GPU，仅在 forward/backward 时 all-gather 必要部分。VERL 在奖励模型配置中启用 FSDP2（PyTorch 最新版），支持 CPU offload 节省内存。

证据：HybridFlow 论文实验显示，使用 FSDP2 的奖励模型在 8 GPU 集群上，内存利用率提升 40%，通信开销降至原 1/3。实际测试中，7B 奖励模型处理 512 序列批次时，单迭代时间从 15s 降至 8s。
Megatron-LM 分片（大规模 MoE 模型）：对于 70B+ 奖励模型，VERL 集成 Megatron-LM 的 3D 并行（DP + TP + PP），将模型沿层、头和隐藏维度分片。奖励计算阶段仅需 forward pass，PP（Pipeline Parallel）最小化激活内存。

证据：VERL GitHub 示例中，DeepSeek-671B 奖励模型使用 Megatron 后端，在 128 GPU 集群上实现 12k tokens/s 吞吐。相比纯 FSDP，通信量减少 50%，因 TP 减少跨节点 all-reduce。

分片选择依据：模型 <30B 用 FSDP；> 70B 用 Megatron。VERL 的灵活设备映射允许奖励模型独占 GPU 池，避免与 actor 竞争资源。

RDMA-based 聚合：最小化通信开销

分布式训练的核心是梯度聚合。VERL 利用 RDMA（Remote Direct Memory Access） over InfiniBand 或 RoCE，实现零拷贝、低延迟聚合，取代传统 NCCL 的 CPU 介入。

聚合机制：
- 在奖励计算后，FSDP 使用 RDMA all-reduce 聚合梯度。VERL 的 3D-HybridEngine 在 resharding 时集成 RDMA one-sided operations（如 RDMA_WRITE），直接从源 GPU 内存写入目标，避免中间缓冲。
- 对于 Megatron，pipeline 阶段的激活聚合使用 RDMA scatter-gather，减少序列打包开销。
证据：论文基准测试显示，RDMA 聚合在 64 GPU 集群上，延迟从 2ms（Ethernet）降至 0.5ms，整体 RLHF 迭代加速 3 倍。VERL 社区博客报道，在 AWS p5.48xlarge（InfiniBand）上，离线 RLHF 训练 10 epochs 仅需 48 小时。
优化点：
- 异步聚合：VERL 支持 overlap compute-communication，RDMA 在 backward 时后台运行。
- 分层聚合：小集群内用 intra-node NVLink，大集群跨节点用 RDMA，混合降低总开销。

可落地参数与监控清单

工程化部署 VERL 时，关键参数如下（基于 Qwen2.5-7B 奖励模型，8x A100 集群）：

分片配置（ppo_trainer.yaml）：

reward_model:
  strategy: fsdp2  # 或 megatron
  fsdp_config:
    offload_policy: true  # CPU offload 节省 20% GPU 内存
    sharding_strategy: FULL_SHARD  # 全分片
  tp_size: 2  # 张量并行度，平衡计算/通信
  dp_size: 4  # 数据并行度

RDMA 配置（环境变量）：

NCCL_IB_DISABLE=0  # 启用 InfiniBand RDMA
NCCL_SOCKET_IFNAME=ib0  # RDMA 接口
NCCL_MIN_NRINGS=8  # 多环 all-reduce，提升并行

聚合阈值：
- 梯度同步频率：每 4 mini-batch（减少 25% 通信）。
- 序列长度上限：2048 tokens/GPU，避免 OOM。
- 批次大小：全局 512，动态打包（use_remove_padding: true）。

监控清单：

吞吐量：tokens/s > 10k，警报若 < 8k。
通信延迟：RDMA all-reduce < 1ms / 操作，使用 nvprof 追踪。
内存使用：峰值 < 80% GPU，利用 rate，offload 若超阈值。
负载均衡：GPU 利用率 > 90%，通过 seqlen_balanced_partitions 调整。
回滚策略：若聚合失败，fallback 到 Ethernet，日志 NCCL_DEBUG=INFO。

这些参数在 VERL 文档中验证过，可根据集群规模微调。实际中，先小规模测试（4 GPU），渐扩至全集群。

总结与展望

VERL 的奖励模型分片与 RDMA 聚合机制，使分布式离线 RLHF 训练从 “计算受限” 转向 “通信优化”，特别适合多 GPU 集群。未来，随着 CXL 内存扩展，sharding 可进一步异构化，提升大模型效率。

资料来源：

VERL GitHub: https://github.com/volcengine/verl
HybridFlow 论文: https://arxiv.org/abs/2409.19256
VERL 文档: https://verl.readthedocs.io/en/latest/