202510
ai-systems

Multi-Task Sequential LoRA Merging with Orthogonal Projections

通过 LoRI 方法实现 LoRA 在多任务场景下的高效合并,利用随机投影和稀疏掩码最小化干扰和遗忘,提供工程参数和最佳实践。

在多任务学习中,LoRA 适配器常用于高效微调大型模型,但顺序训练多个任务时容易产生跨任务干扰和灾难性遗忘,导致性能退化。LoRI 方法通过引入正交投影隔离和参数稀疏化,实现了无遗憾的多任务适配器合并,确保每个任务的更新独立且高效。这种方法的核心在于将投影矩阵固定为随机初始化,从而形成近似正交的子空间,避免合并时的权重冲突,同时通过任务特定掩码限制可训练参数,进一步降低计算开销。

LoRI 的机制建立在 LoRA 的低秩分解基础上,即权重更新 ΔW = B A,其中 A ∈ ℝ^{d × r} 为降维投影,B ∈ ℝ^{r × d} 为升维矩阵。传统 LoRA 训练两者均可导致参数冗余和干扰,而 LoRI 冻结 A 为标准正态分布随机投影(高维下近似正交),仅训练稀疏化的 B。通过随机投影,不同任务的适配器被映射到互不重叠的低维子空间,当合并时(如简单求和),干扰最小化。根据 LoRI 研究,这种正交性确保了合并后单个任务性能接近独立微调,仅损失 1-2%。

为稀疏化 B,LoRI 引入任务特定二元掩码 M ∈ {0,1}^{r × d},更新为 B' = B ⊙ M,仅非零位置可训练。掩码通过校准过程生成:先全训练 LoRA 几步,选取幅度最高的 10% 元素作为掩码,然后固定掩码继续训练。这不仅将可训练参数减至 LoRA 的 5%,还隔离了任务更新路径,在顺序学习中防止新任务覆盖旧知识。证据显示,在 Llama-3-8B 上,90% 稀疏度的 LoRI 在 HumanEval 任务中性能提升 17.3%,而多任务合并平均干扰低于 5%。

落地实现时,选择适配器层:优先注意力模块的 q、v、k 投影和 MLP 层,秩 r 设为 8-16 以平衡容量与效率。初始化 A 为 N(0,1),缩放因子 α = r 以稳定梯度。校准阶段:训练 10% 步长,使用 AdamW 优化器,lr=1e-4,warmup 比例 0.1。稀疏度目标 90%,但对复杂任务可降至 80% 以保留更多参数。合并策略:对于 N 个任务,ΔW_merged = ∑_{t=1}^N (B_t' A_t),若串联需扩展维度(r' = N r),但求和更高效无额外延迟。

监控要点包括:1) 干扰度:合并前后计算任务特定指标(如准确率)差值,阈值 <3%;2) 遗忘率:在顺序学习中,每新任务后评估旧任务性能,目标衰减 <5%;3) 参数利用:追踪非零 B 元素激活率,确保 >80% 有效贡献。回滚策略:若干扰超阈,隔离冲突任务重新校准掩码,或引入权重平均 α_t = 1/N 调整贡献。

实施清单:

  1. 加载预训练模型,注入 LoRI 模块到目标层。
  2. 为每个任务独立初始化 A_t(随机冻结)和 B_t。
  3. 校准掩码:短时全训练,选取 top-k 幅度元素固定 M_t。
  4. 顺序/并行训练:仅优化 B_t ⊙ M_t,批次大小 32-128,epoch 3-5。
  5. 合并适配器:求和 ΔW,融合到基础模型,验证多任务性能。
  6. 部署:合并后模型大小仅增 0.05%,推理速度不变。

这种投影隔离方法特别适用于资源受限环境,如边缘设备多任务部署。通过参数化正交性和稀疏约束,LoRI 不仅最小化遗憾,还提升了模型的泛化鲁棒性,在实际工程中可显著降低维护成本。

(正文字数:1024)