Hotdry.
ai-systems

Engineering Emergent Collaboration in VERL via Reward Sharing

VERL的多代理RL框架通过奖励共享策略实现LLM任务分解中的涌现协作,提升离线对齐效果,提供工程化参数与监控要点。

在大型语言模型(LLM)的后训练阶段,多代理强化学习(MARL)已成为提升模型协作能力的关键技术。VERL 作为火山引擎开源的 RLHF 框架,通过奖励共享策略工程化涌现协作机制,帮助代理在任务分解和离线对齐中实现高效互动。这种方法不同于传统单轮奖励优化,而是聚焦于多轮对话的全局最优,模拟用户 - 代理协作以培养代理的意图传播和动态调整能力。最终,代理能自发形成协调行为,适用于复杂任务如文档共创或多步推理。

VERL 的核心在于其混合控制器编程模型,支持如 GRPO 和 CollabLLM 等算法扩展。CollabLLM 配方特别针对涌现协作设计,通过多轮感知奖励(MR)函数评估响应对整个对话的影响。“在有效协作中,回应的价值不仅在于即时实用性,还在于它如何促进整个对话的成功。” 这一机制通过采样多种可能响应,并基于模拟用户未来交互评分整个路径,实现奖励共享。实验显示,这种方法在文档共创任务中,用户交互体验和任务完成时间均优于单轮基线,提升了代理的协作鲁棒性。

证据来源于 VERL 的实际实现和相关研究。在 CollabLLM 中,系统从模型采样陈述、建议和问题三种响应类型,然后扩展对话路径,使用自动化指标如任务完成度和用户参与度进行评估。MR 值计算为采样对话平均分数,使用 PPO 或 GRPO 更新模型参数。VERL 的 GRPO 算法进一步优化了组相对策略,支持多代理环境中意图共享,减少误协调错误。基准测试显示,在数学和编码任务上,训练后代理的独立问题解决能力提升高达 5%,证明了奖励共享在离线对齐中的有效性。

要落地这一策略,需要关注关键参数和监控点。首先,配置 GRPO 算法时,设置组大小 n=4,确保采样多样性,同时启用 use_dynamic_bsz=True 以动态调整批次大小,最大化 GPU 利用率。ppo_max_token_len_per_gpu 建议为 3072(演员模型),critic 模型可设为其 2 倍 6144,避免序列长度不匹配。其次,在 CollabLLM 配方中,定义 Interaction 模块模拟用户行为,使用异步奖励计算分散 LLM API 请求,降低峰值并发。自定义 Agent Loop 采用 token-in-token-out 机制,保证多轮交互精度。

实施清单包括:1. 准备数据集:使用 Parquet 格式的多轮对话数据,包含 prompt-response 对。2. 模型集成:加载如 Qwen2.5 的 HuggingFace 模型,支持 vLLM rollout。3. 训练流程:初始化 VERL 实例,设置 actor_rollout_ref.rollout.multi_turn.format="hermes",运行 train_rl_collabllm.sh 脚本。4. 监控:启用 Nsight Systems 分析 GPU 利用率,设置 global_profiler.steps=[1,5,10] 追踪瓶颈。5. 验证:使用 Spider 或 AIME 基准评估协作效果,关注 actor/grad_norm 指标以检测序列不匹配。

风险管理上,注意采样轨迹的计算开销,可通过 FSDP2 后端降低内存 7%,提升吞吐 1.5%。模拟用户质量影响泛化,使用真实用户反馈微调。回滚策略:若协作失败,降级至单代理 PPO,逐步引入奖励共享。

总之,通过 VERL 的奖励共享,涌现协作从理论走向工程实践,推动 LLM 在多代理任务中的应用。未来,可扩展至 VLM 多模态协作。

资料来源:VERL GitHub 仓库(https://github.com/volcengine/verl),CollabLLM 论文(https://arxiv.org/pdf/2502.00640),VERL 文档(https://verl.readthedocs.io/en/latest/)。

查看归档