首页 › 2025年 › 11月 › 使用 Verl 实现 KL 正则化 PPO 的离线 RLHF:多 GPU 数据并行与偏好排名蒸馏
2025年11月27日 mlops

使用 Verl 实现 KL 正则化 PPO 的离线 RLHF:多 GPU 数据并行与偏好排名蒸馏

基于 Verl 库,通过 KL 正则化 PPO 扩展离线 RLHF,结合多 GPU 数据并行、actor-critic 同步及偏好排名蒸馏,实现 LLM 对齐工程化落地。

内容加载中...