首页 › 2025年 › 11月 › VERL 中 Bradley-Terry 奖励模型与 PPO 的离线 RLHF 整合
2025年11月19日 ai-systems

VERL 中 Bradley-Terry 奖励模型与 PPO 的离线 RLHF 整合

在 VERL 框架下,利用 Bradley-Terry 模型从离线偏好数据训练奖励模型,与 PPO 结合实现 LLM 对齐。强调奖励分解与多代理传播,提供参数配置和实施清单。

内容加载中...