火山引擎 verl：支持 PPO Actor-Critic 和 KL 正则化的离线 RLHF 工具包

在 LLM 对齐阶段，离线 RLHF 是高效提升模型偏好对齐的核心方法，而火山引擎（Volcano Engine，由字节跳动 Seed 团队维护）的 verl 工具包通过 PPO actor-critic 架构、KL 正则化与梯度裁剪，结合多 GPU 分布式训练，实现了生产级别的离线 RLHF 训练。该工具包的核心优势在于 HybridFlow 编程模型，能以几行代码构建 PPO 数据流，并无缝集成 FSDP/Megatron-LM（训练后端）与 vLLM/SGLang（rollout 引擎），显著降低工程门槛。

PPO 在 verl 中的 actor-critic 实现采用标准 on-policy 框架：actor（策略模型）负责 rollout 生成响应序列，critic（价值模型）评估状态价值，支持 GAE（广义优势估计）计算优势函数。KL 正则化通过 algorithm.kl_ctrl.kl_coef=0.001 控制策略偏离参考模型（ref）的程度，避免过度优化导致的分布偏移；梯度裁剪则通过 actor.optim.max_grad_norm=1.0 和 critic.optim.max_grad_norm=1.0 限制梯度范数，防止训练爆炸。“verl 是 HybridFlow 论文的开源实现，支持 PPO 等算法的灵活扩展。” 多 GPU 分布式训练利用 3D-HybridEngine 进行 actor 模型 resharding，消除训练 - 生成切换时的内存冗余与通信开销，在 8x H100 上实现 SOTA 吞吐（如 Qwen2-7B PPO 训练吞吐提升 1.4x）。

落地时，先确保环境：PyTorch 2.4+、CUDA 12.4+、vLLM >=0.8.2（避免 0.7.x OOM bug），安装 verl 通过 pip install -e . 与 bash scripts/install_vllm_sglang_mcore.sh。数据准备为 Parquet 格式（如 GSM8K），包含 prompt/solution，定义奖励函数（如 GSM8K 规则奖励：提取 #### 后答案匹配得 1.0 分）。

核心配置参数清单（ppo_trainer.yaml 示例）：

批次与长度：data.train_batch_size=1024，data.max_prompt_length=512，data.max_response_length=256，启用 actor_rollout_ref.actor.use_dynamic_bsz=True 动态批处理，ppo_max_token_len_per_gpu=3072（3x 预期序列长）。
PPO 超参：actor_rollout_ref.actor.ppo_epochs=4，ppo_mini_batch_size=64，ppo_micro_batch_size_per_gpu=4，clip_ratio=0.2；algorithm.gamma=1.0，lam=0.95（GAE）。
KL 正则：algorithm.kl_ctrl.kl_coef=0.001，kl_loss_type="low_var_kl"；可选 use_kl_loss=True 直接加 KL loss。
优化器：actor.optim.lr=1e-6，actor.optim.betas=[0.9,0.95]，AdamW；critic.optim.lr=1e-5。
梯度裁剪：actor.optim.max_grad_norm=1.0，critic.optim.max_grad_norm=1.0。
分布式：FSDP2 后端 actor_rollout_ref.actor.strategy="fsdp2"，trainer.n_gpus_per_node=8，nnodes=1；rollout tensor_model_parallel_size=1，gpu_memory_utilization=0.6。

运行命令（单节点 8 GPU Qwen2.5-0.5B GSM8K 示例）：

python3 -m verl.trainer.main_ppo \
  data.train_files=~/data/gsm8k/train.parquet \
  data.val_files=~/data/gsm8k/test.parquet \
  actor_rollout_ref.model.path=Qwen/Qwen2.5-0.5B-Instruct \
  critic.model.path=Qwen/Qwen2.5-0.5B-Instruct \
  actor_rollout_ref.rollout.name=vllm \
  trainer.n_gpus_per_node=8 \
  trainer.logger=['console', 'wandb'] \
  trainer.total_epochs=15

监控要点：Wandb/TensorBoard 跟踪 policy/kl、policy/loss、value/loss、grad_norm；若 KL 过高 (>0.02) 调小 kl_coef，若 grad_norm >5 加强裁剪。性能调优：启用序列打包 actor_rollout_ref.model.use_remove_padding=True，Ulysses 序列并行 ulysses_sequence_parallel_size=2（长上下文），Nsight Systems profiling 分析 rollout/train 瓶颈（目标 rollout 占 40%、train 占 30%）。

回滚策略：保存每 epoch checkpoint trainer.checkpoint.every_n_steps=1000，若收敛异常（val loss 上升）从上 epoch 恢复；LoRA 模式下仅训适配器 actor_rollout_ref.model.lora_rank=32，内存减半，适配 70B 模型于 8x80G GPU。

风险控制：资源上限监控（Prometheus/Grafana 集成 rollout 指标），KL 爆炸时设置 kl_ctrl_target=0.01；测试小规模（如 0.5B 模型）验证配置前上线。

通过以上参数与清单，verl PPO 可在多 GPU 上稳定训练 LLM 对齐，提升 GSM8K 等任务 2-5% 准确率，适用于生产离线 RLHF。

资料来源：https://github.com/volcengine/verl；https://verl.readthedocs.io/en/latest/；https://arxiv.org/abs/2409.19256。