首页 › 2025年 › 11月 › VERL中带KL正则化的多GPU PPO训练:可扩展离线RLHF工程参数
2025年11月29日 mlops

VERL中带KL正则化的多GPU PPO训练:可扩展离线RLHF工程参数

VERL框架下多GPU PPO训练的关键配置,包括KL系数、批次大小、FSDP并行策略,实现高效离线RLHF对齐大模型。

内容加载中...