首页 › 2025年 › 11月 › VERL 中奖励模型分片与基于 RDMA 的聚合:高效分布式离线 RLHF 训练
2025年11月14日 ai-systems

VERL 中奖励模型分片与基于 RDMA 的聚合:高效分布式离线 RLHF 训练

在 VERL 框架中,通过奖励模型分片和 RDMA 聚合优化多 GPU 集群上的 RLHF 训练,显著降低通信开销,提升训练效率。

内容加载中...