Transformer 架构自 2017 年提出以来,其 Query-Key-Value(QKV)三投影设计已成为注意力机制的标准范式。然而,这一设计是否真的需要三个独立的投影矩阵?近期的一项系统性消融实验对这一问题给出了令人意外的答案:通过精心选择投影共享策略,可以在保持模型质量的同时显著降低推理内存占用。
投影共享的三条技术路线
研究者提出了三种投影共享变体,按约束强度递增排列:Q=K-V(统一 Query 和 Key)、Q-K=V(统一 Key 和 Value)、Q=K=V(单一投影)。这些变体的核心差异在于对注意力矩阵对称性的影响 ——Q=K-V 产生对称注意力,而 Q-K=V 保持非对称性。
实验结果显示,三种变体的表现差异显著。在 300M 参数的语言模型上,Q-K=V 配置实现了 50% 的 KV 缓存削减,验证困惑度仅比基线增加 3.1%。相比之下,Q=K-V 虽然参数相同,却因强制对称注意力而破坏方向性,困惑度增加 4.9% 且无任何缓存收益。最激进的 Q=K=V 单一投影方案则导致灾难性的 25.4% 困惑度增长,证明三投影完全合并的约束过于严苛。
为何 K=V 共享有效而 Q=K 失败
深入分析揭示了两个关键洞察。首先,Key 和 Value 投影矩阵在训练后的表示空间高度相似 —— 余弦相似度达 0.73,有效秩接近(687 vs 702),表明二者存在冗余。当强制 K=V 时,共享投影能够同时承担寻址和内容承载的双重角色。其次,Query 与 Key 保持分离至关重要,因为注意力机制依赖 Q 与 K 之间的非对称性来实现方向性信息路由。Q=K-V 的失败正是因为消除了这一关键不对称性。
这一发现与近期关于 Value 角色可简化性的研究相呼应:注意力机制的核心在于 Query-Key 的寻址能力,Value 的独立投影并非必需。
与头共享的协同效应
投影共享与 Grouped Query Attention(GQA)、Multi-Query Attention(MQA)等头共享技术位于正交优化维度,二者可叠加产生复合收益。实验验证了以下组合方案:
- Q-GQA-4:在 4 组 GQA 基础上应用 K=V 约束,实现 87.5% 缓存削减,困惑度增加 3.9%
- Q-MQA:在单头 MQA 上应用 K=V 约束,实现 96.9% 缓存削减,困惑度增加 4.8%
在 1.2B 参数规模的验证中,这些相对排名保持稳定,且大模型对投影约束的鲁棒性更强 ——Q-K=V 的困惑度损失从 300M 规模的 3.1% 降至 2.48%。
工程部署的权衡决策
对于实际部署,选择何种配置取决于资源约束场景:
内存受限环境(边缘设备、长上下文服务):Q-K=V 是最佳单点方案,50% 缓存削减意味着 32k 上下文下可从 83.9GB 降至 41.9GB 显存占用,直接支持双倍并发用户数。
极致压缩需求:Q-MQA 组合可实现近 97% 缓存削减,在 100 并发用户的代码补全场景中,可将所需 GPU 从 7 块降至 4 块,年节省成本约 43%。
质量敏感场景:若可接受 75% 缓存削减而非 50%,标准 GQA-4 仅 0.7% 困惑度损失是更稳妥的选择。
实施要点与限制
实施投影共享需注意以下工程细节:投影参数仅占 Transformer 总参数量约 30%,因此参数削减幅度有限;真正的收益来自 KV 缓存内存占用下降。该技术可与量化(INT8/INT4)、Flash Attention 等优化叠加,产生乘数效应。
当前研究的局限包括:最大验证规模为 1.2B 参数,7B + 模型的趋势尚待确认;序列长度评估上限为 2048,更长上下文的泛化性需进一步验证。
结论
QKV 三投影并非 Transformer 的必要设计。通过 Q-K=V 双投影配置,开发者可在几乎不损失模型质量(<3% 困惑度增长)的前提下,将 KV 缓存占用减半。这一优化与现有头共享技术正交,组合使用可推动大模型推理进入真正的边缘部署时代。
资料来源
- arXiv:2606.04032 - "Do Transformers Need Three Projections? Systematic Study of QKV Variants" (ICML 2026)
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。