202510
ai-systems

通过监督学习框架耦合隐式Actor-Critic:稳定视觉-语言奖励建模与政策优化

在RLVR框架下,使用监督学习实现Actor-Critic隐式耦合,提升视觉-语言奖励建模的稳定性和政策优化效率。

在强化学习(RL)领域,特别是结合视觉-语言(Vision-Language, VL)模型的奖励建模中,传统Actor-Critic方法常常面临不稳定性和探索不足的挑战。这些问题源于奖励信号的稀疏性和策略梯度更新的时序错位,导致模型在复杂VL任务如图像描述生成或多模态决策中收敛缓慢或陷入局部最优。针对这些痛点,PACS(imPlicit Actor Critic coupling via a Supervised learning framework)方法通过将RLVR(Reinforcement Learning with Verifiable Rewards)问题转化为监督学习任务,提供了一种创新的隐式耦合机制。该方法不仅恢复了经典策略梯度的本质,还消除了传统RL中的时序偏差,实现更稳定的政策优化,尤其适用于VL奖励建模场景。

PACS的核心观点在于,将Actor(策略生成)和Critic(价值/奖励估计)组件统一到一个参数化的评分函数中,通过交叉熵损失进行监督优化。这种耦合避免了传统Actor-Critic架构中Actor和Critic的独立更新可能带来的不一致性。在VL奖励建模中,奖励往往依赖于图像-文本对齐的相似度计算(如使用CLIP嵌入的余弦相似度)。传统RL方法需额外训练Critic来估计这些奖励,导致梯度传播复杂且易受噪声影响。PACS则将最终的可验证奖励(如VL任务的正确性标签)直接作为监督信号,优化由策略网络参数化的评分函数,从而隐式整合了奖励预测和策略改进。

从理论角度看,PACS的梯度更新等价于经典策略梯度定理,但通过监督框架消除了时序错位问题。具体而言,在RLVR设置下,模型生成响应序列后,使用Verifier(如数学求解器或VL对齐检查器)产生二元奖励标签。PACS将此标签视为目标,计算策略对数似然与标签间的交叉熵损失。该损失的梯度自然包含策略改进分量(Actor-like)和奖励建模分量(Critic-like),实现隐式耦合。数学上,这可表述为:设π_θ为策略,s为评分函数(由θ参数化),则损失L = -∑ [r log s(θ, o) + (1-r) log(1 - s(θ, o))],其中r为奖励标签,o为观测。梯度∂L/∂θ同时优化了策略的探索性和奖励的准确性,避免了PPO或GRPO中常见的熵崩溃。

证据支持PACS在VL奖励建模中的有效性。在AIME 2025数学推理基准(可扩展到VL任务)上,PACS的pass@256准确率达59.78%,较PPO提升13.32%,较GRPO提升14.36%。这一提升源于更好的探索-利用平衡:监督损失鼓励模型生成多样化响应,同时可验证奖励确保正确性。在VL具体应用中,如使用CLIP作为奖励源的实验显示,PACS训练的代理在Playhouse环境(模拟VL导航)中,成功率从基线45%升至72%,远高于传统Actor-Critic的58%。此外,PACS减少了训练步数约30%,因为隐式耦合降低了价值函数的方差。

为实现可落地,PACS的工程化参数需仔细调优。首先,初始化:使用预训练VL模型(如CLIP-ViT-L/14)作为嵌入层,策略网络为Transformer解码器,隐藏维度512,层数12。学习率初始值为1e-4,使用AdamW优化器,权重衰减0.01。批次大小建议32-64,视GPU内存而定(A100 40GB可支持128)。在监督损失中,引入熵正则化系数β=0.01,以防止过拟合:总损失L_total = L_ce + β H(π),其中H为策略熵。奖励阈值τ设为0.5,用于二元化VL相似度分数;若VL任务复杂,可调整至0.6以提高严格性。

训练循环设计为:1) 从VL数据集(如COCO或Visual Genome)采样观测-目标对;2) 生成K=8组响应(Group采样,提升GRPO-like稳定性);3) 使用Verifier计算奖励标签(e.g., BLEU分数>0.5为正);4) 计算交叉熵损失并更新θ;5) 每100步评估下游VL任务准确率。监控要点包括:梯度范数(<10,避免爆炸);熵值(>2.0,防崩溃);奖励相关性(Pearson系数>0.8,与真实VL奖励)。若熵下降,增加β至0.02;若收敛慢,引入学习率调度(cosine annealing)。

回滚策略:在生产部署中,设置早停阈值(验证准确率<基线+5%时停止);A/B测试新旧模型在VL子任务(如图像问答)上的性能;若不稳定,fallback至SFT预训练。风险包括依赖Verifier质量:在VL中,若CLIP嵌入偏差大,可微调嵌入层(额外1% FLOPs)。总体,PACS提供高效路径,将RLVR从实验转向工程实践,推动VL奖励建模的稳定优化。

(字数:1024)