首页 › 2025年 › 11月 › VERL中KL正则化PPO的分片重叠阈值与多GPU数据并行调优
2025年11月30日 mlops

VERL中KL正则化PPO的分片重叠阈值与多GPU数据并行调优

VERL框架下针对离线RLHF的KL正则化PPO,给出多GPU分片重叠阈值选择、数据并行效率参数与发散控制的工程化配置与监控要点。

内容加载中...