Engineering Emergent Collaboration in VERL via Reward Sharing

在大型语言模型（LLM）的后训练阶段，多代理强化学习（MARL）已成为提升模型协作能力的关键技术。VERL 作为火山引擎开源的 RLHF 框架，通过奖励共享策略工程化涌现协作机制，帮助代理在任务分解和离线对齐中实现高效互动。这种方法不同于传统单轮奖励优化，而是聚焦于多轮对话的全局最优，模拟用户 - 代理协作以培养代理的意图传播和动态调整能力。最终，代理能自发形成协调行为，适用于复杂任务如文档共创或多步推理。

VERL 的核心在于其混合控制器编程模型，支持如 GRPO 和 CollabLLM 等算法扩展。CollabLLM 配方特别针对涌现协作设计，通过多轮感知奖励（MR）函数评估响应对整个对话的影响。“在有效协作中，回应的价值不仅在于即时实用性，还在于它如何促进整个对话的成功。” 这一机制通过采样多种可能响应，并基于模拟用户未来交互评分整个路径，实现奖励共享。实验显示，这种方法在文档共创任务中，用户交互体验和任务完成时间均优于单轮基线，提升了代理的协作鲁棒性。

证据来源于 VERL 的实际实现和相关研究。在 CollabLLM 中，系统从模型采样陈述、建议和问题三种响应类型，然后扩展对话路径，使用自动化指标如任务完成度和用户参与度进行评估。MR 值计算为采样对话平均分数，使用 PPO 或 GRPO 更新模型参数。VERL 的 GRPO 算法进一步优化了组相对策略，支持多代理环境中意图共享，减少误协调错误。基准测试显示，在数学和编码任务上，训练后代理的独立问题解决能力提升高达 5%，证明了奖励共享在离线对齐中的有效性。

要落地这一策略，需要关注关键参数和监控点。首先，配置 GRPO 算法时，设置组大小 n=4，确保采样多样性，同时启用 use_dynamic_bsz=True 以动态调整批次大小，最大化 GPU 利用率。ppo_max_token_len_per_gpu 建议为 3072（演员模型），critic 模型可设为其 2 倍 6144，避免序列长度不匹配。其次，在 CollabLLM 配方中，定义 Interaction 模块模拟用户行为，使用异步奖励计算分散 LLM API 请求，降低峰值并发。自定义 Agent Loop 采用 token-in-token-out 机制，保证多轮交互精度。

实施清单包括：1. 准备数据集：使用 Parquet 格式的多轮对话数据，包含 prompt-response 对。2. 模型集成：加载如 Qwen2.5 的 HuggingFace 模型，支持 vLLM rollout。3. 训练流程：初始化 VERL 实例，设置 actor_rollout_ref.rollout.multi_turn.format="hermes"，运行 train_rl_collabllm.sh 脚本。4. 监控：启用 Nsight Systems 分析 GPU 利用率，设置 global_profiler.steps=[1,5,10] 追踪瓶颈。5. 验证：使用 Spider 或 AIME 基准评估协作效果，关注 actor/grad_norm 指标以检测序列不匹配。

风险管理上，注意采样轨迹的计算开销，可通过 FSDP2 后端降低内存 7%，提升吞吐 1.5%。模拟用户质量影响泛化，使用真实用户反馈微调。回滚策略：若协作失败，降级至单代理 PPO，逐步引入奖励共享。

总之，通过 VERL 的奖励共享，涌现协作从理论走向工程实践，推动 LLM 在多代理任务中的应用。未来，可扩展至 VLM 多模态协作。

资料来源：VERL GitHub 仓库（https://github.com/volcengine/verl），CollabLLM 论文（https://arxiv.org/pdf/2502.00640），VERL 文档（https://verl.readthedocs.io/en/latest/）。