首页 › 2025年 › 11月 › 用 VERL 工程化离线 RLHF:PPO 超参调优与 actor-critic 稳定性
2025年11月23日 mlops

用 VERL 工程化离线 RLHF:PPO 超参调优与 actor-critic 稳定性

VERL 库下离线 PPO RLHF 工程实践:超参调优(lr=1e-6, clip=0.2)、actor-critic 稳定性(模型匹配、KL 动态控制)、低方差训练循环(GAE lam=1, sequence packing)。

内容加载中...