首页 › 2025年 › 11月 › 用 Verl 实现分布式 RLHF 多 GPU PPO 训练:Preference 数据分片与 KL 正则同步
2025年11月25日 ai-systems

用 Verl 实现分布式 RLHF 多 GPU PPO 训练:Preference 数据分片与 KL 正则同步

基于 Verl 框架详解分布式 RLHF,支持多 GPU PPO 训练,通过 FSDP 数据并行、preference 数据集分片与 KL 正则化同步,实现高效 LLM 对齐工程。

内容加载中...