首页 › 2025年 › 10月 › 通过监督学习框架耦合隐式Actor-Critic:稳定视觉-语言奖励建模与政策优化
2025年10月06日 ai-systems

通过监督学习框架耦合隐式Actor-Critic:稳定视觉-语言奖励建模与政策优化

在RLVR框架下,使用监督学习实现Actor-Critic隐式耦合,提升视觉-语言奖励建模的稳定性和政策优化效率。

内容加载中...