首页 › 2025年 › 11月 › Verl中多GPU KL正则化PPO的分片扩展:系数调优与阈值选择
2025年11月30日 ai-systems

Verl中多GPU KL正则化PPO的分片扩展:系数调优与阈值选择

利用Verl框架的FSDP分片与3D-HybridEngine,通过KL系数调优和阈值监控,实现LLM RLHF中多GPU PPO稳定收敛,避免策略发散。

内容加载中...