在大语言模型微调领域,如何以最小参数代价激活模型的推理能力一直是研究热点。传统 LoRA 虽然已是参数高效微调的代表性方法,但其可调参数量仍然受限于模型维度,无法进一步压缩。TinyLoRA 的出现打破了这一瓶颈 —— 它将可训练参数压缩至仅 13 个,同时在 GSM8K 数学推理基准上达到 91% 准确率。这一结果不仅刷新了参数效率的极限纪录,更揭示了预训练模型中推理能力的 latent 特性:大部分推理潜力其实已经嵌入在预训练权重中,只需极小的「 nudging 」即可激活。
核心方法:从低秩适配到极端参数压缩
TinyLoRA 的核心创新在于对低秩适配器(low-rank adapter)结构的重新设计。传统 LoRA 通过学习两个低秩矩阵 A 和 B 来实现参数高效微调,其可训练参数量为 2×d_model×r(r 为秩),当 r 降至 1 时仍需数千个参数。TinyLoRA 采取了更为激进的压缩策略:固定 U 和 Σ 矩阵,仅学习一个极小的向量 v,然后通过随机投影 P 将其作用于各层。具体而言,向量 v 被随机投影矩阵 P 变换后与模型各层交互,从而实现跨层参数共享。
参数共享策略是 TinyLoRA 实现极端压缩的关键。传统 LoRA 在同一模块类型(如所有 Query 注意力头)之间共享参数,而 TinyLoRA 进一步探索了基于局部性的 tiling 共享模式。研究团队发现,按层分布的局部共享比按模块类型共享在极端压缩场景下更有效。在极限配置下,可将可训练参数压缩至每层仅 1 个,整个模型仅需 13 个 bf16 参数(约 26 字节),即可完成对 8B 规模模型(如 Qwen2.5-7B)的推理能力激活。
RL vs SFT:信号效率的质的飞跃
TinyLoRA 论文中最引人注目的发现之一,是强化学习(GRPO 风格)微调与监督微调(SFT)在极端参数预算下的表现差异。实验表明,当可训练参数降至 13 个时,SFT 方法几乎无法带来任何有效提升,模型性能与基线无异。然而,GRPO 风格的 RL 微调却能在此参数预算下持续改进模型表现,最终在 GSM8K 上达到 91% 准确率。这一差距被论文描述为 100-1000 倍的参数效率差距:同等性能下,SFT 需要比 RL 多 100-1000 倍的可训练参数。
为什么 RL 能在极低参数预算下更有效?核心原因在于信号质量与信息密度。SFT 需要模型将大量演示样本的输入输出映射编码进权重,当参数量受限时尚不足以存储足够的监督信号。而 RL 通过奖励机制直接优化推理质量,信号更加集中、信息效率更高。简单来说,RL 就像给模型一个明确的「目标靶心」,只需极小的调整即可命中;而 SFT 则需要模型「记住」大量例子,参数不足时难以完成这一任务。
实验结果与泛化能力
TinyLoRA 的实验覆盖了多个数学推理基准。在 GSM8K(小学数学应用题)上,使用 13 个可训练参数对 Qwen2.5-7B 进行微调,达到 91% 准确率;在更高难度的 MATH500、AIME、AMC 等竞赛级别基准上,TinyLoRA 仍能恢复约 90% 的全参数微调性能,而可训练参数数量仅为后者的千分之一。这些结果表明,极端参数压缩并非仅适用于简单任务,在复杂推理场景同样具有可行性。
然而,也需要正视 TinyLoRA 的局限性。目前最强结果集中在数学推理领域,模型族依赖 Qwen2.5 系列,对于其他任务类型(代码生成、科学问答、创意写作等)的泛化能力尚待验证。此外,RL 微调本身依赖奖励函数设计,在实际部署中需要针对具体任务设计合理的奖励机制,这可能引入额外的工程复杂度。
工程落地要点
对于希望在生产环境中应用 TinyLoRA 的团队,以下参数配置和监控要点值得关注。首先是参数预算的选取:13 个参数为极端压缩配置,若任务复杂度较高或模型规模较大,可适当放宽至 50-100 个参数以获得更稳定的性能。其次是 RL 训练配置:GRPO 的学习率通常建议在 1e-5 至 5e-5 范围内,奖励函数设计应聚焦于最终答案的正确性而非中间过程,以最大化信号效率。
存储与部署方面,13 个 bf16 参数仅占用 26 字节,可轻松嵌入模型权重中或随配置文件分发。这为个性化微调和边缘部署提供了极大便利 —— 用户可以在不显式修改模型权重的情况下,通过极小的附加参数实现推理能力定制。监控指标建议重点关注奖励曲线收敛速度和最终任务准确率,若出现奖励震荡但准确率不升,可适当降低学习率或增加 PVT(per-token value)更新的稳定化手段。
总结与展望
TinyLoRA 用仅 13 个可训练参数证明了预训练大模型中蕴含的推理能力可以通过极小的「 nudging 」激活。这一发现不仅将参数高效微调的边界推向极致,更提示我们重新审视大模型预训练与后训练的关系:推理能力或许早已存在,所需只是正确的激活方式。RL 微调在此过程中展现出的信号效率优势,为未来的轻量化微调研究指明了方向。随着该方法在更多模型和任务上的验证,参数高效微调有望成为边缘设备个性化与快速迭代的核心技术基座。
资料来源:arXiv:2602.04118《Learning to Reason in 13 Parameters》(2026 年 2 月提交);Emergent Mind 相关解读。