首页 › 2025年 › 11月 › VERL 中多 GPU 分片 PPO:数据/模型并行、梯度同步与超越 DDPPO 的扩展性
2025年11月29日 ai-systems

VERL 中多 GPU 分片 PPO:数据/模型并行、梯度同步与超越 DDPPO 的扩展性

VERL 框架下 KL 正则化 PPO 的多 GPU 分片策略,包括 FSDP/Megatron 并行、3D-HybridEngine resharding 和高效梯度同步,实现 offline RLHF 高扩展性。

内容加载中...