PopuLoRA：基于种群共演化 LoRA 适配器的推理自对弈训练

单智能体自对弈的结构性困境

当前大语言模型的后训练（post-training）越来越依赖强化学习与可验证奖励（RLVR）范式。从 DeepSeek-R1 到 Absolute Zero Reasoner（AZR），研究者们尝试让模型通过自我博弈生成训练数据，从而摆脱对人类标注数据集的依赖。然而，这类方法面临一个根本性的结构缺陷：自校准导致的模式坍塌。

当同一个模型既负责出题又负责解题时，它会逐渐收敛到生成那些自己能够稳定解答的简单题目。教师模型（出题方）的奖励依赖于学生模型（解题方）的失败率，但当两者共享同一套参数时，这种难度评估变成了自我估计。结果是训练分布迅速坍缩到一个狭窄的区间 —— 模型学会了生成格式正确且自己能解的 trivial 题目，远未触及基础模型的能力上限。

PopuLoRA 的核心洞见在于：将评判者与提出者分离。通过构建教师与学生两个独立的 LoRA 适配器种群，让难度信号成为种群间的真实交互结果，而非自我估计。

架构设计：冻结基座上的适配器种群

PopuLoRA 在 Qwen2.5-Coder-7B 等冻结的基础模型之上，挂载多个低秩适配器（LoRA）。每个种群成员都是独立的 rank-32 适配器，仅更新适配器权重而保持基座冻结。这种设计带来两个关键优势：

内存效率：种群内存占用随适配器数量线性增长，而非随完整模型副本增长。一个数十 GB 的基座模型可以承载任意数量的适配器，每个仅需数十 MB。

推理效率：借助 vLLM 的多 LoRA 调度器（S-LoRA），所有适配器共享基座的前向计算，通过标签路由将请求分发到对应适配器。匹配的教师 - 学生对可以在同一批次中完成生成与求解，无需逐请求切换基座模型。

在标准配置中，PopuLoRA 维护 4 个教师适配器和 4 个学生适配器（4T+4S）。教师负责生成代码推理题目（涵盖 code_i、code_o、code_f 三种 AZR 任务类型），学生负责求解，沙盒执行器作为验证器提供二元奖励信号。

共演化机制：从自校准到军备竞赛

PopuLoRA 的训练循环包含五个阶段：匹配、生成、求解、交叉评估与进化替换。

匹配阶段采用优先虚拟自对弈（PFSP）基于 TrueSkill 评分系统为每位教师匹配学生。配对集中发生在实力接近的组合上，确保训练信号的信息量最大化。

交叉评估是 PopuLoRA 区别于单智能体方法的关键。教师的奖励定义为 1 - ρ，其中 ρ 是匹配学生的解题成功率。这与 AZR 的自我评估形成本质差异：难度信号来自真实的跨种群交互，而非同一网络的自我估计。

进化替换每 k 步执行一次，基于 TrueSkill 下界置信度（μ - kσ）淘汰每个子种群中表现最差的 γ 比例成员，并通过 LoRA 权重空间进化算子生成子代补充种群。

权重空间进化算子

传统种群训练（PBT）通过复制并扰动完整权重实现进化，在 7B 规模下成本高昂。PopuLoRA 引入了一套 LoRA 专用的权重空间算子，可在数秒内生成同秩子代而无需重训练：

突变算子（M1-M4）：

M1（SVD 结构化）：对 LoRA 有效增量 ΔW = BA^T 进行 SVD 分解，扰动奇异值谱并施加 Cayley 旋转
M2（层选择高斯）：随机选择 33% 层模块添加自适应高斯噪声
M3（组件掩码）：随机置零部分 SVD 分量降低有效秩
M4（全高斯）：对所有 A、B 因子添加自适应噪声

交叉算子（X1-X4）：

X1（DARE）：应用 drop-and-rescale 策略后求和
X2（层 - wise）：逐层独立选择父代
X3（SVD 子空间）：混合父代的主成分与次成分
X4（外推）：沿父代差向量外推超出凸包

所有算子均在保留父代知识的前提下注入多样性，子代可在 10-20 步内恢复至父代性能水平，验证了其作为 PBT 替换步骤的有效性。

训练动态：坍缩 vs 增长

对比实验揭示了两种截然不同的训练动态。单智能体基线的解题成功率单调上升并在 200 步内趋于饱和，题目复杂度（AST 深度、圈复杂度、代码行数）随训练持续下降。到第 100 步时，基线生成的题目已退化为 return number * 3 这类 trivial 程序。

PopuLoRA 种群则呈现振荡式的共演化动态。学生成功率随训练波动而非单调上升 —— 当教师适应并生成更难题目时学生失败率上升，待学生赶上后教师被迫继续提升难度，形成持续的 "军备竞赛"。这种相态动态在三种任务类型上以不同频率显现：code_o 循环最快，code_i 与 code_f 较慢，反映出不同任务对程序理解深度的要求差异。

关键发现：训练时看似较低的种群成功率实际上是优势信号。在 held-out 基准测试上，种群最终检查点全面超越基线。

基准测试结果与计算效率

在代码推理基准上，PopuLoRA（4T+4S）种群均值相比每适配器计算量匹配的 AZR 基线 LoRA 取得：HumanEval+ 78.7% vs 76.8%、MBPP+ 70.8% vs 69.3%、LiveCodeBench 27.0% vs 17.3%。LiveCodeBench 包含在线竞赛的近期编程题，与 AZR 自生成代码三元组结构差异最大，种群优势最为显著。

在数学推理基准上（尽管 AZR 仅提供代码监督），PopuLoRA 仍全面超越基线：AIME 24 11.7% vs 6.7%、AMC 23 40.0% vs 37.5%、MATH-500 69.8% vs 59.4%、OlympiadBench 33.9% vs 27.3%。值得注意的是，种群中最弱的适配器在 aggregate 指标上仍优于基线，表明共演化提升的是整个种群而非少数专家。

计算成本：4T+4S 配置训练 8 倍于基线的适配器数量，墙钟时间仅增加 1.31 倍。这得益于 vLLM 多 LoRA 批处理：在 1×8×H100 节点上，基线每步约 1 单位时间，4T+4S 约 1.31 单位时间，实现 6.1 倍的适配器 - 步吞吐增益。

局限与工程启示

PopuLoRA 当前实现固定所有适配器的 LoRA 秩（rank-32），异构秩配置可能进一步增加种群多样性。此外，实验仅在单一基座模型（Qwen2.5-Coder-7B）和单一验证域（Python 沙盒执行器）上验证，向其他模型规模或弱验证器域的迁移效果尚待探索。

对于工程实践，PopuLoRA 提供了一条在有限算力下扩展 RLVR 训练的路径：通过 LoRA 适配器种群而非完整模型副本实现并行探索，配合权重空间进化算子实现高效的种群维护。其 TrueSkill 驱动的匹配机制也可迁移至其他多智能体训练场景，作为替代随机配对或固定配对的方案。

资料来源：

PopuLoRA: Co-Evolving LLM Populations for Reasoning Self-Play (arXiv:2605.16727v1, 2026)
Absolute Zero Reasoner (AZR) baseline comparison

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。