VERL 中 Offline RLHF 工程化：奖励模型蒸馏、Actor-Critic 架构与稳定 PPO 更新

在大型语言模型（LLM）对齐训练中，Offline RLHF（强化学习人类反馈）是一种高效利用现有偏好数据集的方法，避免了昂贵的在线交互。VERL（Volcano Engine Reinforcement Learning）作为字节跳动开源的 RL 框架，专为 LLM post-training 设计，通过 HybridFlow 模型支持 PPO 等算法的离线实现。其核心优势在于模块化 API 与现有 LLM 基础设施的无缝集成，支持 FSDP、vLLM 等后端，实现高吞吐量训练。

奖励模型的构建与蒸馏

Offline RLHF 的起点是奖励模型（Reward Model, RM），用于从偏好数据中评分生成序列。VERL 支持两种 RM：model-based（基于 Transformer 的 RM）和 function-based（规则奖励，如 GSM8K 数学题的解析正确性）。对于复杂任务，首选 model-based RM，通过 Bradley-Terry 模型从成对偏好数据训练，输出标量分数作为即时奖励 Rt。

观点：RM 蒸馏是工程化关键，能将大 RM（如 70B）知识压缩到小模型（如 7B），降低推理延迟并提升 PPO 稳定性。证据显示，在 VERL 配置中指定 actor_rollout_ref.model.rm_path 加载预训练 RM，并通过 LoRA 适配器继续蒸馏，支持从 adapter_model.safetensors 恢复。“VERL 支持从预训练 LoRA 适配器继续训练。” 可落地参数：

RM 秩选择：0.5B 模型用 lora_rank=32，32B 用 128，避免过小秩影响收敛。
蒸馏配置：actor_rollout_ref.model.lora_adapter_path=/path/to/rm_adapter，target_modules=all-linear。
清单：1) 准备偏好数据集（parquet 格式，含 prompt/chosen/rejected）；2) 训练 RM（verl.trainer.main_rm）；3) 蒸馏到 Actor 规模；4) 验证 RM 在 held-out 数据上的 KL 散度 < 0.05。

此机制确保 Offline 数据直接驱动 PPO，避免 reward hacking。

Actor-Critic 架构设计

VERL 的 PPO 采用经典 Actor-Critic 架构：Actor（策略模型）生成 rollout 轨迹，Critic（价值模型）估计状态价值 V，用于 GAE 优势计算。Ref 模型（冻结 SFT 模型）提供 KL 参考，防止过度偏离。架构分离计算：Actor/Rollout/Ref/Critic 独立 Worker，支持异构并行。

观点：分离 Actor-Critic 提升稳定性，Critic 通过独立优化减少价值估计偏差，支持长 CoT（Chain-of-Thought）任务。证据：在 VERL 中，actor_rollout_ref.actor.strategy=fsdp2，critic.model.path = 相同基座模型，确保共享主干但独立头。并行更新流程：采样 → GAE（Critic + RM）→ Actor/Critic 多 epoch 更新。

可落地参数：

Actor：ppo_mini_batch_size=64，ppo_epochs=4，clip_ratio=0.2。
Critic：ppo_micro_batch_size=2，optim.lr=1e-5。
Ref：load_format=safetensors，use_shm=True 加速加载。
清单：1) 配置 actor_rollout_ref.rollout.n=5（每 prompt 生成 5 样本）；2) 启用 use_dynamic_bsz=True，ppo_max_token_len_per_gpu=3072（3x 序列长）；3) 监控 GAE 方差 < 0.1。

此设计在 8x80G GPU 上训练 70B 模型，吞吐量提升 1.4x。

稳定 PPO 更新的工程实践

PPO 的稳定性依赖 clipped surrogate loss、GAE 和 KL 控制。VERL 通过动态批处理、序列打包和 3D-HybridEngine 优化 Actor 在 train/gen 阶段的 resharding，消除内存冗余。

观点：稳定更新需平衡探索与对齐，使用 adaptive KL 控制避免熵崩溃。证据：algorithm.kl_ctrl.type=adaptive，target_kl=0.1；双裁剪机制 clamp (ratio, 1/clip_ratio_c, clip_ratio_c)，clip_ratio_c=3.0。“PF-PPO 通过回放缓冲过滤噪声奖励，提升鲁棒性。”

可落地参数：

GAE：gamma=1.0，lam=0.95，adv_estimator=gae。
更新：actor.optim.lr=1e-6，ppo_micro_batch_size=2 防 OOM。
优化：use_remove_padding=True（序列打包 +20% 效率），ulysses_sequence_parallel_size=2（长上下文）。
监控点：1) 每步 KL <0.2，回滚若>0.3；2) policy_loss 收敛（< -0.1）；3) reward mean 升至 0.8+；4) Nsight profiling GPU 利用率 >90%。
风险缓解：LoRA + gradient_checkpointing=True；若不稳，降 clip_ratio=0.1 或增 ppo_epochs=8。

回滚策略与生产 checklist

生产中，Offline RLHF 迭代：SFT → RM 训练 / 蒸馏 → PPO 3-15 epochs。Checklist：

数据：train/val parquet，max_prompt_length=1024，max_response=2048。
硬件：8x A100，tensor_model_parallel_size=2。
启动：python -m verl.trainer.main_ppo + 配置。
评估：val reward > train -0.05，无过拟合。

VERL 通过这些机制，实现 LLM 对齐的高效工程化，支持从 0.5B 到 70B 规模。

资料来源：

VERL GitHub: https://github.com/volcengine/verl
VERL 文档与示例脚本（如 examples/ppo_trainer）。

（正文字数：1256）