首页 › 2025年 › 11月 › VERL 中 KL 正则化 PPO 的离线 RLHF:多 GPU 数据高效对齐
2025年11月27日 ai-systems

VERL 中 KL 正则化 PPO 的离线 RLHF:多 GPU 数据高效对齐

VERL 框架下 KL 正则 PPO 离线 RLHF 配置、多 GPU 分片与稳定性调参要点,实现数据高效 LLM 对齐。

内容加载中...