QKV投影消融：从三投影到双投影的精度-效率权衡与KV缓存优化

Transformer 架构自 2017 年提出以来，其 Query-Key-Value（QKV）三投影设计已成为注意力机制的标准范式。然而，这一设计是否真的需要三个独立的投影矩阵？近期的一项系统性消融实验对这一问题给出了令人意外的答案：通过精心选择投影共享策略，可以在保持模型质量的同时显著降低推理内存占用。

投影共享的三条技术路线

研究者提出了三种投影共享变体，按约束强度递增排列：Q=K-V（统一 Query 和 Key）、Q-K=V（统一 Key 和 Value）、Q=K=V（单一投影）。这些变体的核心差异在于对注意力矩阵对称性的影响 ——Q=K-V 产生对称注意力，而 Q-K=V 保持非对称性。

实验结果显示，三种变体的表现差异显著。在 300M 参数的语言模型上，Q-K=V 配置实现了 50% 的 KV 缓存削减，验证困惑度仅比基线增加 3.1%。相比之下，Q=K-V 虽然参数相同，却因强制对称注意力而破坏方向性，困惑度增加 4.9% 且无任何缓存收益。最激进的 Q=K=V 单一投影方案则导致灾难性的 25.4% 困惑度增长，证明三投影完全合并的约束过于严苛。

为何 K=V 共享有效而 Q=K 失败

深入分析揭示了两个关键洞察。首先，Key 和 Value 投影矩阵在训练后的表示空间高度相似 —— 余弦相似度达 0.73，有效秩接近（687 vs 702），表明二者存在冗余。当强制 K=V 时，共享投影能够同时承担寻址和内容承载的双重角色。其次，Query 与 Key 保持分离至关重要，因为注意力机制依赖 Q 与 K 之间的非对称性来实现方向性信息路由。Q=K-V 的失败正是因为消除了这一关键不对称性。

这一发现与近期关于 Value 角色可简化性的研究相呼应：注意力机制的核心在于 Query-Key 的寻址能力，Value 的独立投影并非必需。

与头共享的协同效应

投影共享与 Grouped Query Attention（GQA）、Multi-Query Attention（MQA）等头共享技术位于正交优化维度，二者可叠加产生复合收益。实验验证了以下组合方案：

Q-GQA-4：在 4 组 GQA 基础上应用 K=V 约束，实现 87.5% 缓存削减，困惑度增加 3.9%
Q-MQA：在单头 MQA 上应用 K=V 约束，实现 96.9% 缓存削减，困惑度增加 4.8%

在 1.2B 参数规模的验证中，这些相对排名保持稳定，且大模型对投影约束的鲁棒性更强 ——Q-K=V 的困惑度损失从 300M 规模的 3.1% 降至 2.48%。

工程部署的权衡决策

对于实际部署，选择何种配置取决于资源约束场景：

内存受限环境（边缘设备、长上下文服务）：Q-K=V 是最佳单点方案，50% 缓存削减意味着 32k 上下文下可从 83.9GB 降至 41.9GB 显存占用，直接支持双倍并发用户数。

极致压缩需求：Q-MQA 组合可实现近 97% 缓存削减，在 100 并发用户的代码补全场景中，可将所需 GPU 从 7 块降至 4 块，年节省成本约 43%。

质量敏感场景：若可接受 75% 缓存削减而非 50%，标准 GQA-4 仅 0.7% 困惑度损失是更稳妥的选择。

实施要点与限制

实施投影共享需注意以下工程细节：投影参数仅占 Transformer 总参数量约 30%，因此参数削减幅度有限；真正的收益来自 KV 缓存内存占用下降。该技术可与量化（INT8/INT4）、Flash Attention 等优化叠加，产生乘数效应。

当前研究的局限包括：最大验证规模为 1.2B 参数，7B + 模型的趋势尚待确认；序列长度评估上限为 2048，更长上下文的泛化性需进一步验证。

结论

QKV 三投影并非 Transformer 的必要设计。通过 Q-K=V 双投影配置，开发者可在几乎不损失模型质量（<3% 困惑度增长）的前提下，将 KV 缓存占用减半。这一优化与现有头共享技术正交，组合使用可推动大模型推理进入真正的边缘部署时代。

资料来源

arXiv:2606.04032 - "Do Transformers Need Three Projections? Systematic Study of QKV Variants" (ICML 2026)

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。