首页 › 2025年 › 11月 › Fine-Grained Reward Decomposition and Propagation in VERL for Scalable Multi-Agent LLM RL
2025年11月19日 ai-systems

Fine-Grained Reward Decomposition and Propagation in VERL for Scalable Multi-Agent LLM RL

在 VERL 框架中,实现细粒度奖励分解和基于阈值的传播机制,支持 LLM 强化学习中的多代理协作,针对长时序任务最小化错误传播,提供工程化参数与监控要点。

内容加载中...