首页 › 2025年 › 11月 › Verl 中 KL 正则化 PPO 的多 GPU 分片训练管道
2025年11月30日 ai-systems

Verl 中 KL 正则化 PPO 的多 GPU 分片训练管道

面向 LLM 离线 RLHF,给出 Verl 中 KL 正则化 PPO 的多 GPU sharding 配置、阈值调优与监控要点。

内容加载中...