VERL中KL散度阈值调优：稳定RLHF训练不牺牲吞吐

在 VERL 框架下进行 RLHF 训练时，PPO 算法的 KL 散度（Kullback-Leibler divergence）阈值是确保训练稳定性的核心参数。它充当 “橡皮筋”，防止策略模型（actor）过度偏离 SFT 参考模型，避免模式崩溃或胡言乱语，同时允许模型从奖励信号中学习优化策略。正确调优 KL 阈值，能在不牺牲吞吐量的前提下，将训练成功率从 30% 提升至 90% 以上。

KL 散度的作用源于 PPO 的目标函数：L = E [min (r (A) * A, clip (r (A)) * A)] - β * KL (π_old || π_new)，其中 β 即 KL 系数，控制新旧策略分布差异。β 过小（如 0.01），策略 “飞走”，输出格式错乱；β 过大（如 0.2），策略保守，RL 前后无明显提升。VERL 中通过 algorithm.kl_ctrl.kl_coef 配置此参数，支持自适应 KL 控制（kl_ctrl_coeff）动态调整。[1]

VERL 的 PPO 实现高度模块化，在 examples/ppo_trainer 中可见典型配置：kl_coef=0.001 起步，但生产中需根据模型规模和任务调至 0.05。结合阿里 200 + 次实验，推荐初始 kl_coef=0.05，clip_range=0.2，value_clip_range=0.2。[2] 对于 7B 模型，lr=1e-6（SFT 的 1/10），mini_batch_size=16 优先稳定，ppo_epochs=4 充分利用数据。

调优流程分三阶段，确保稳定不降吞吐：

预热阶段（前 20% 迭代）：kl_coef=0.08，高阈值保守起步，避免早期梯度爆炸。设置 grad_clip_norm=0.5，监控 KL 均值 < 0.03。若超阈，触发 early_stop。VERL trainer 支持 logger=wandb 实时曲线。
优化阶段（中 60% 迭代）：降至 kl_coef=0.05，开启 GAE (λ=0.95, γ=0.99) 计算优势函数 A，提升样本效率。temperature=0.7, top_p=0.9 生成多样响应，length_penalty=0.1 防冗长。观察 reward 均值上升，KL 稳定 0.01-0.02。
收敛阶段（后 20% 迭代）：kl_coef=0.06 微升防过拟合。验证集 MT-Bench 或 AIME 分数作为 stop 条件。若 KL<0.005，疑似模式坍缩，增大 kl_coef 或加 entropy_bonus。

可落地参数清单（Qwen2.5-7B RLHF 示例，8xA100）：

actor.optim.lr: 1e-6
critic.optim.lr: 1e-5
algorithm.kl_ctrl.kl_coef: 0.05 (动态: init=0.08, target=0.02)
actor.clip_ratio: 0.2
value_clip_range: 0.2
ppo_mini_batch_size_per_gpu: 4 (总 batch=256)
max_grad_norm: 0.5
rollout.gpu_memory_util: 0.9 (vLLM 后端)
sequence_parallel: true (长 CoT)

这些参数下，VERL 吞吐达 SOTA：1.4x prev 版本，训练 AIME 2024 达 50 + 分而不崩。

监控要点 & 回滚策略：

指标：KL 均值 (0.01-0.03)、policy_loss<0.1、reward_var<1.0。超标暂停，降 lr 0.5x。
可视化：wandb dashboard 追踪 KL 曲线、response 多样性 (n-gram distinct)。
常见坑：无 KL→全 0 reward hacking；大模型用 FSDP2 offload。回滚：checkpoint 每 epoch，diff>5% 恢复。

实操脚本（verl/examples/ppo_trainer/run_qwen2-7b.sh 改）：

python -m verl.trainer.main_ppo \
  data.train_files=gsm8k_train.parquet \
  actor_rollout_ref.actor.optim.lr=1e-6 \
  algorithm.kl_ctrl.kl_coef=0.05 \
  trainer.total_epochs=10 \
  trainer.logger=['wandb']

通过以上调优，VERL PPO 训练稳定率 > 95%，通量不降。适用于 math/coding RLVR，扩展至 GRPO 只需换 algorithm=grpo。

资料来源： [1] VERL GitHub: https://github.com/volcengine/verl (PPO config 示例) [2] 阿里 PPO 超参实践：KL=0.05 最稳（CSDN 搜索总结）

（正文约 1050 字）