首页 › 2025年 › 11月 › VERL中KL正则化PPO的多GPU数据并行:离线RLHF偏好蒸馏与千卡扩展
2025年11月28日 ai-systems

VERL中KL正则化PPO的多GPU数据并行:离线RLHF偏好蒸馏与千卡扩展

VERL框架下KL正则化PPO的多GPU数据并行训练,支持离线RLHF偏好蒸馏,提供高效扩展到千卡规模的工程参数与监控要点。

内容加载中...