Subquadratic稀疏注意力：12M token上下文窗口与O(n²)墙的工程突破

Transformer 架构自 2017 年诞生以来，attention 计算始终被困在 O (n²) 的复杂度牢笼里。每翻倍 token 数量，计算量就膨胀四倍 —— 这不是配置问题，而是架构层面的硬性约束。大多数工程团队通过 RAG 向量检索、分块策略和多智能体编排绕开这道墙，代价是额外的延迟和维护负担。2026 年 5 月，Subquadratic 公司携 SubQ 模型声称已在这道墙上凿穿了一个洞口：其稀疏注意力机制 SSA（Subquadratic Sparse Attention）实现了亚二次计算扩展，在 B200 GPU 上声称比 FlashAttention 2 快 52 倍，同时维持与 Claude Opus 4.6 相当的检索精度。本文从工程视角解析这一架构 claim 的核心原理、prior art 的取舍逻辑，以及如果 trilemma 确实被打破，工程团队需要重新思考哪些基础设施。

为什么密集注意力是一堵无法绕开的墙

理解 SSA 的意义，需要先看清楚密集注意力为何昂贵。Transformer 的 attention 机制中，每个 query token 需要对所有 key token 逐一打分，再以加权聚合的方式将 value 信息汇聚过来。数学上，这等价于计算一个 n × n 的注意力矩阵，其中 n 为序列长度。每个 cell 是一次 query-key 的相似度计算，每一行的 softmax 再决定如何聚合 values。

这意味着处理 1M token 的序列需要大约一万亿次 pairwise 比较。如果模型有 32 到 96 层，这个数字还要乘以层数。这不是工程实现问题，而是数学上的必然：所有 token 两两之间都要建立关联，关联数随 token 数的平方增长。

2022 年的 FlashAttention 是一个重要改进。它通过避免将完整注意力矩阵物化到显存，并利用 GPU tile 级别的 fused kernel 大幅降低了 wall-clock 时间。但改进的是执行效率，不是工作量本身。FlashAttention 执行的是完全相同的 O (n²) 比较，只是执行得更优雅。曲线的形状没变，只是在 GPU 上被压扁了。

这条约束的下游影响是系统性的。向量数据库不是模型的功能，而是绕开这堵墙的手段。RAG pipeline 里的 chunking 策略不是为了语义完整性，而是为了让序列长度控制在经济可用的范围内。多智能体架构中不同 agent 分别持有上下文窗口的子集，是为了弥补单一模型无法持有完整上下文的设计缺陷。这些工程投入都是为单一架构约束支付的利息。

Prior Art 的 trilemma 与每种方案的取舍

在深入 SSA 之前，需要理解高效注意力领域过去九年形成的设计空间。任何高效注意力方案都必须面对三个属性的取舍：亚二次计算扩展（subquadratic compute）、内容驱动路由（content routing）以及任意位置检索（arbitrary position retrieval）。

密集注意力拥有后两个属性，但在第一个属性上彻底失败 ——O (n²) 的计算成本让它在大上下文场景下经济性崩溃。

固定模式稀疏注意力的代表是滑动窗口机制。Mistral 7B 在 2023 年演示了这一路径：每个 token 只 attend 到局部邻域（如窗口大小 4096），通过多层堆叠将信息从远处传递过来。由于每层的计算成本与窗口大小线性相关，总计算量为 O (n × w)，其中 w 为窗口大小。这在计算上是亚二次的，但路由决策与内容无关 —— 选择哪些位置 attend 是预先确定的结构规则，不是由 query 内容驱动的。如果目标证据落在窗口模式之外，信息必须通过中间 token 的链条间接传递，而链条的可靠性无法保证。

状态空间模型（Mamba 系列）是另一条路。SSM 完全放弃 pairwise 比较，改为维护一个固定维度的隐状态向量，每个 token 到达时更新这个状态。计算量随序列长度线性增长 —— 这是真正的亚二次。内容门控让模型能够决定每个 token 对状态的更新强度，实现了内容路由。但隐状态的容量是固定的，新的 token 必须与旧 token 竞争同一个容器。在足够长的上下文中，状态会压缩特定细节以容纳整体信息，这直接导致检索精度随距离下降 —— 在 needle-in-a-haystack 任务上表现尤为明显。

混合架构（Hybrid）试图取长补短：在模型中交替放置高效层和密集层，用密集层负责关键检索路径。这确实改善了质量，但计算分布不均衡。在 128K 上下文中，密集层可能消耗 60% 的注意力算力；在 1M 上下文中，同一配置下密集层消耗超过 90% 的算力 —— 少数二次层淹没了多数线性层节省的成本。曲线依然弯曲，只是弯曲发生的时刻被推迟了。

DeepSeek 的稀疏注意力（DSA）引入了 lightning indexer，先对所有 query-key 对进行轻量打分，再选择 top-k 位置执行稀疏 attention。这看起来是亚二次，但 indexer 本身仍然遍历了所有 n² 个 pair 对 —— 只是每对的计算量更小。复杂度被转移了，没有被消除。在极长上下文中，n² 项会再次主导。

SSA 的架构声明与 trilemma 的真实突破

Subquadratic 声称 SSA 首次同时实现了三个属性。关键差异在于选择机制的本身是亚二次的。Dense attention 对所有 pair 执行重型操作；DSA 对所有 pair 执行轻型操作后再筛选；SSA 的 selector 根本不扫描全部 pair 对，而是通过哈希查找、分层聚类或学习路由等结构直接定位相关位置。

如果这个声明成立，SSA 是第一个在渐近极限处同时持有 trilemma 三个角的架构。Subquadratic 报告的 benchmark 数据值得玩味：RULER 128K 上得 95.0%，与 Claude Opus 4.6 的 94.8% 持平；在 MRCR v2（多证据整合）上得 65.9%，落后 Opus 4.6 的 78.3% 和 GPT 5.5 的 74.0%；在 SWE Bench Verified 上得 81.8%，介于 Opus 4.7 的 87.6% 和 Opus 4.6 的 80.8% 之间。这组数字的解读是：长距离检索质量可信，多文档推理有差距，编码任务具有竞争力但未领先。质量分布在不同任务类型上不均匀，这本身是合理的 —— 架构首次部署的初期通常会有这种特征。

硬件无关的 FLOP 减少量更能说明问题：128K 时 SSA 执行约 1/8 的密集注意力 FLOP；512K 时约 1/25；1M 时约 1/62.5。成本增长曲线是线性的而非二次的，差距随上下文长度扩大而扩大。

工程团队需要重新思考什么

如果 SSA 的 trilemma 声明最终通过独立验证被确认，工程影响将是分层的。

被压缩的部分是：以扩大上下文为存在的 RAG 管道、以 chunk 为单位切分文档的检索策略、专为将上下文塞入小窗口而设计的多智能体编排层。这些基础设施不是功能特性，而是为模型上下文限制支付的成本。如果限制本身变得更便宜，部分成本会消失 —— 但消失的是特定用途的补偿层，不是所有基础设施。

被加重或新增的部分是：12M token 的单次前向传播产生了一个比以往更大的决策空间，验证输出是否正确利用了全部上下文比验证 128K 输出更难；跨上下文长度的评估需要覆盖以前不经济的区间；成本管理在新的数量级上重新成为问题；模型的生命周期和回归测试需要更大的测试用例集合。

SubQ 使用开源权重基础模型（据 CTO Alexander Whedon 透露，疑似 Kimi 或 DeepSeek 系列）作为训练起点，SSA 作为附加模块 grafted 到基础架构上。这种开发路径在工程上合理：复用成熟的基础架构能力，专注于 novel 的 attention 机制突破。但这也意味着模型质量的上限部分取决于基础模型的能力，SSA 的贡献需要在后续的独立 benchmark 中被隔离验证。

参数清单：评估 SSA 类架构时的工程检查项

对于考虑将 SSA 类架构纳入生产系统的团队，以下参数值得在 POC 阶段明确验证。

延迟曲线测量：在固定 GPU 配置（B200 或同等硬件）下，测量 64K、128K、256K、512K、1M token 的端到端延迟，绘制延迟 - 上下文长度曲线。如果曲线在 256K 后仍接近线性，则亚二次声明可信；如果出现拐点，则底层仍有二次成分。

检索精度衰减测试：在 512K 到 1M 范围内，用自定义 needle-in-a-haystack 任务测试关键信息召回率。如果精度随距离下降严重，则状态压缩问题仍存在于该实现中。

多证据整合基准：运行 MRCR v2 或类似的多文档综合任务，测量模型在不同证据数量下的输出质量。这比单证据检索更能反映实际工作负载的表现。

FLOP 预算核算：根据目标上下文长度和预期 QPS，计算每月的 GPU 算力账单。如果在 1M token 场景下，算力成本仍在可接受范围内，则该架构适合当前业务场景。

验证基础设施投入：确认团队是否有能力对长上下文输出进行系统性验证，包括自动评估、采样对比和回归检测。如果没有，12M token 上下文的运维会很快成为痛点。

资料来源：SiliconANGLE 报道及 Cozypet 编写的 SSA 技术解析（2026 年 5 月）。

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。