首页 › 2025年 › 11月 › 将 Bradley-Terry 奖励模型与 PPO 集成用于离线 LLM 对齐
2025年11月19日 mlops

将 Bradley-Terry 奖励模型与 PPO 集成用于离线 LLM 对齐

在 VERL 中集成 Bradley-Terry 奖励模型与 PPO,实现单代理离线 LLM 偏好对齐,强调数据集处理和策略微调参数。

内容加载中...