首页 › 2025年 › 12月 › verl工具包:KL正则化PPO的可扩展RL管道与FSDP多GPU训练优化
2025年12月01日 mlops

verl工具包:KL正则化PPO的可扩展RL管道与FSDP多GPU训练优化

verl中KL正则化PPO的多GPU FSDP分片管道,实现通信重叠与阈值调优,提升LLM对齐训练效率。

内容加载中...