首页 › 2025年 › 11月 › VERL 中 PPO Actor-Critic 超参调优:稳定离线 RLHF 的奖励蒸馏、KL 控制与批标准化
2025年11月23日 mlops

VERL 中 PPO Actor-Critic 超参调优:稳定离线 RLHF 的奖励蒸馏、KL 控制与批标准化

针对 VERL 框架下 PPO 在离线 RLHF 中的稳定性,提供奖励模型蒸馏、KL 散度控制及批标准化策略的具体超参配置与监控要点。

内容加载中...