首页 › 2025年 › 11月 › 使用 verl 构建离线 RLHF 工具包:PPO Actor-Critic 中的 KL 正则化与梯度裁剪
2025年11月25日 ai-systems

使用 verl 构建离线 RLHF 工具包:PPO Actor-Critic 中的 KL 正则化与梯度裁剪

面向 LLM 对齐部署,详解 volcengine/verl 中 PPO actor-critic 的离线 RLHF 实现,包括 KL 正则化、梯度裁剪参数与可扩展数据处理要点。

内容加载中...