Hotdry.
ai-systems

通过监督学习框架耦合隐式Actor-Critic:稳定视觉-语言奖励建模与政策优化

在RLVR框架下,使用监督学习实现Actor-Critic隐式耦合,提升视觉-语言奖励建模的稳定性和政策优化效率。

在强化学习(RL)领域,特别是结合视觉 - 语言(Vision-Language, VL)模型的奖励建模中,传统 Actor-Critic 方法常常面临不稳定性和探索不足的挑战。这些问题源于奖励信号的稀疏性和策略梯度更新的时序错位,导致模型在复杂 VL 任务如图像描述生成或多模态决策中收敛缓慢或陷入局部最优。针对这些痛点,PACS(imPlicit Actor Critic coupling via a Supervised learning framework)方法通过将 RLVR(Reinforcement Learning with Verifiable Rewards)问题转化为监督学习任务,提供了一种创新的隐式耦合机制。该方法不仅恢复了经典策略梯度的本质,还消除了传统 RL 中的时序偏差,实现更稳定的政策优化,尤其适用于 VL 奖励建模场景。

PACS 的核心观点在于,将 Actor(策略生成)和 Critic(价值 / 奖励估计)组件统一到一个参数化的评分函数中,通过交叉熵损失进行监督优化。这种耦合避免了传统 Actor-Critic 架构中 Actor 和 Critic 的独立更新可能带来的不一致性。在 VL 奖励建模中,奖励往往依赖于图像 - 文本对齐的相似度计算(如使用 CLIP 嵌入的余弦相似度)。传统 RL 方法需额外训练 Critic 来估计这些奖励,导致梯度传播复杂且易受噪声影响。PACS 则将最终的可验证奖励(如 VL 任务的正确性标签)直接作为监督信号,优化由策略网络参数化的评分函数,从而隐式整合了奖励预测和策略改进。

从理论角度看,PACS 的梯度更新等价于经典策略梯度定理,但通过监督框架消除了时序错位问题。具体而言,在 RLVR 设置下,模型生成响应序列后,使用 Verifier(如数学求解器或 VL 对齐检查器)产生二元奖励标签。PACS 将此标签视为目标,计算策略对数似然与标签间的交叉熵损失。该损失的梯度自然包含策略改进分量(Actor-like)和奖励建模分量(Critic-like),实现隐式耦合。数学上,这可表述为:设 π_θ 为策略,s 为评分函数(由 θ 参数化),则损失 L = -∑ [r log s (θ, o) + (1-r) log (1 - s (θ, o))],其中 r 为奖励标签,o 为观测。梯度∂L/∂θ 同时优化了策略的探索性和奖励的准确性,避免了 PPO 或 GRPO 中常见的熵崩溃。

证据支持 PACS 在 VL 奖励建模中的有效性。在 AIME 2025 数学推理基准(可扩展到 VL 任务)上,PACS 的 pass@256 准确率达 59.78%,较 PPO 提升 13.32%,较 GRPO 提升 14.36%。这一提升源于更好的探索 - 利用平衡:监督损失鼓励模型生成多样化响应,同时可验证奖励确保正确性。在 VL 具体应用中,如使用 CLIP 作为奖励源的实验显示,PACS 训练的代理在 Playhouse 环境(模拟 VL 导航)中,成功率从基线 45% 升至 72%,远高于传统 Actor-Critic 的 58%。此外,PACS 减少了训练步数约 30%,因为隐式耦合降低了价值函数的方差。

为实现可落地,PACS 的工程化参数需仔细调优。首先,初始化:使用预训练 VL 模型(如 CLIP-ViT-L/14)作为嵌入层,策略网络为 Transformer 解码器,隐藏维度 512,层数 12。学习率初始值为 1e-4,使用 AdamW 优化器,权重衰减 0.01。批次大小建议 32-64,视 GPU 内存而定(A100 40GB 可支持 128)。在监督损失中,引入熵正则化系数 β=0.01,以防止过拟合:总损失 L_total = L_ce + β H (π),其中 H 为策略熵。奖励阈值 τ 设为 0.5,用于二元化 VL 相似度分数;若 VL 任务复杂,可调整至 0.6 以提高严格性。

训练循环设计为:1) 从 VL 数据集(如 COCO 或 Visual Genome)采样观测 - 目标对;2) 生成 K=8 组响应(Group 采样,提升 GRPO-like 稳定性);3) 使用 Verifier 计算奖励标签(e.g., BLEU 分数 > 0.5 为正);4) 计算交叉熵损失并更新 θ;5) 每 100 步评估下游 VL 任务准确率。监控要点包括:梯度范数(<10,避免爆炸);熵值(>2.0,防崩溃);奖励相关性(Pearson 系数 > 0.8,与真实 VL 奖励)。若熵下降,增加 β 至 0.02;若收敛慢,引入学习率调度(cosine annealing)。

回滚策略:在生产部署中,设置早停阈值(验证准确率 < 基线 + 5% 时停止);A/B 测试新旧模型在 VL 子任务(如图像问答)上的性能;若不稳定,fallback 至 SFT 预训练。风险包括依赖 Verifier 质量:在 VL 中,若 CLIP 嵌入偏差大,可微调嵌入层(额外 1% FLOPs)。总体,PACS 提供高效路径,将 RLVR 从实验转向工程实践,推动 VL 奖励建模的稳定优化。

(字数:1024)

查看归档