首页 › 2025年 › 11月 › VERL中多GPU分片重叠阈值调优:KL正则化PPO的通信-计算平衡
2025年11月30日 ai-systems

VERL中多GPU分片重叠阈值调优:KL正则化PPO的通信-计算平衡

VERL框架下multi-GPU KL-regularized PPO的sharding overlap阈值调优策略,平衡通信开销与梯度同步一致性,提供高效RLHF scaling参数清单。

内容加载中...