首页 › 2025年 › 11月 › VERL离线RLHF PPO超参调优:KL阈值、批次与奖励裁剪
2025年11月23日 mlops

VERL离线RLHF PPO超参调优:KL阈值、批次与奖励裁剪

VERL框架下LLM离线RLHF管道的PPO超参工程化,包括KL散度0.001-0.05、动态批次大小与奖励裁剪[-2,2],实现稳定actor-critic训练。

内容加载中...