首页 › 2025年 › 11月 › VERL 中 PPO 的 KL 散度正则化:稳定 LLM 对齐训练
2025年11月17日 ai-systems

VERL 中 PPO 的 KL 散度正则化:稳定 LLM 对齐训练

在 VERL 的 PPO 框架下集成 KL 散度正则化,防止 offline RLHF 中的模式崩溃,优化奖励-策略散度,实现稳定 LLM 对齐。

内容加载中...