Hotdry.

Article

Subquadratic稀疏注意力:12M token上下文窗口与O(n²)墙的工程突破

解析 Subquadratic SSA 如何突破 attention 的二次复杂度墙,实现 12M token 上下文窗口的工程路径与 trilemma 设计权衡。

2026-05-09ai-systems

Transformer 架构自 2017 年诞生以来,attention 计算始终被困在 O (n²) 的复杂度牢笼里。每翻倍 token 数量,计算量就膨胀四倍 —— 这不是配置问题,而是架构层面的硬性约束。大多数工程团队通过 RAG 向量检索、分块策略和多智能体编排绕开这道墙,代价是额外的延迟和维护负担。2026 年 5 月,Subquadratic 公司携 SubQ 模型声称已在这道墙上凿穿了一个洞口:其稀疏注意力机制 SSA(Subquadratic Sparse Attention)实现了亚二次计算扩展,在 B200 GPU 上声称比 FlashAttention 2 快 52 倍,同时维持与 Claude Opus 4.6 相当的检索精度。本文从工程视角解析这一架构 claim 的核心原理、prior art 的取舍逻辑,以及如果 trilemma 确实被打破,工程团队需要重新思考哪些基础设施。

为什么密集注意力是一堵无法绕开的墙

理解 SSA 的意义,需要先看清楚密集注意力为何昂贵。Transformer 的 attention 机制中,每个 query token 需要对所有 key token 逐一打分,再以加权聚合的方式将 value 信息汇聚过来。数学上,这等价于计算一个 n × n 的注意力矩阵,其中 n 为序列长度。每个 cell 是一次 query-key 的相似度计算,每一行的 softmax 再决定如何聚合 values。

这意味着处理 1M token 的序列需要大约一万亿次 pairwise 比较。如果模型有 32 到 96 层,这个数字还要乘以层数。这不是工程实现问题,而是数学上的必然:所有 token 两两之间都要建立关联,关联数随 token 数的平方增长。

2022 年的 FlashAttention 是一个重要改进。它通过避免将完整注意力矩阵物化到显存,并利用 GPU tile 级别的 fused kernel 大幅降低了 wall-clock 时间。但改进的是执行效率,不是工作量本身。FlashAttention 执行的是完全相同的 O (n²) 比较,只是执行得更优雅。曲线的形状没变,只是在 GPU 上被压扁了。

这条约束的下游影响是系统性的。向量数据库不是模型的功能,而是绕开这堵墙的手段。RAG pipeline 里的 chunking 策略不是为了语义完整性,而是为了让序列长度控制在经济可用的范围内。多智能体架构中不同 agent 分别持有上下文窗口的子集,是为了弥补单一模型无法持有完整上下文的设计缺陷。这些工程投入都是为单一架构约束支付的利息。

Prior Art 的 trilemma 与每种方案的取舍

在深入 SSA 之前,需要理解高效注意力领域过去九年形成的设计空间。任何高效注意力方案都必须面对三个属性的取舍:亚二次计算扩展(subquadratic compute)、内容驱动路由(content routing)以及任意位置检索(arbitrary position retrieval)。

密集注意力拥有后两个属性,但在第一个属性上彻底失败 ——O (n²) 的计算成本让它在大上下文场景下经济性崩溃。

固定模式稀疏注意力的代表是滑动窗口机制。Mistral 7B 在 2023 年演示了这一路径:每个 token 只 attend 到局部邻域(如窗口大小 4096),通过多层堆叠将信息从远处传递过来。由于每层的计算成本与窗口大小线性相关,总计算量为 O (n × w),其中 w 为窗口大小。这在计算上是亚二次的,但路由决策与内容无关 —— 选择哪些位置 attend 是预先确定的结构规则,不是由 query 内容驱动的。如果目标证据落在窗口模式之外,信息必须通过中间 token 的链条间接传递,而链条的可靠性无法保证。

状态空间模型(Mamba 系列)是另一条路。SSM 完全放弃 pairwise 比较,改为维护一个固定维度的隐状态向量,每个 token 到达时更新这个状态。计算量随序列长度线性增长 —— 这是真正的亚二次。内容门控让模型能够决定每个 token 对状态的更新强度,实现了内容路由。但隐状态的容量是固定的,新的 token 必须与旧 token 竞争同一个容器。在足够长的上下文中,状态会压缩特定细节以容纳整体信息,这直接导致检索精度随距离下降 —— 在 needle-in-a-haystack 任务上表现尤为明显。

混合架构(Hybrid)试图取长补短:在模型中交替放置高效层和密集层,用密集层负责关键检索路径。这确实改善了质量,但计算分布不均衡。在 128K 上下文中,密集层可能消耗 60% 的注意力算力;在 1M 上下文中,同一配置下密集层消耗超过 90% 的算力 —— 少数二次层淹没了多数线性层节省的成本。曲线依然弯曲,只是弯曲发生的时刻被推迟了。

DeepSeek 的稀疏注意力(DSA)引入了 lightning indexer,先对所有 query-key 对进行轻量打分,再选择 top-k 位置执行稀疏 attention。这看起来是亚二次,但 indexer 本身仍然遍历了所有 n² 个 pair 对 —— 只是每对的计算量更小。复杂度被转移了,没有被消除。在极长上下文中,n² 项会再次主导。

SSA 的架构声明与 trilemma 的真实突破

Subquadratic 声称 SSA 首次同时实现了三个属性。关键差异在于选择机制的本身是亚二次的。Dense attention 对所有 pair 执行重型操作;DSA 对所有 pair 执行轻型操作后再筛选;SSA 的 selector 根本不扫描全部 pair 对,而是通过哈希查找、分层聚类或学习路由等结构直接定位相关位置。

如果这个声明成立,SSA 是第一个在渐近极限处同时持有 trilemma 三个角的架构。Subquadratic 报告的 benchmark 数据值得玩味:RULER 128K 上得 95.0%,与 Claude Opus 4.6 的 94.8% 持平;在 MRCR v2(多证据整合)上得 65.9%,落后 Opus 4.6 的 78.3% 和 GPT 5.5 的 74.0%;在 SWE Bench Verified 上得 81.8%,介于 Opus 4.7 的 87.6% 和 Opus 4.6 的 80.8% 之间。这组数字的解读是:长距离检索质量可信,多文档推理有差距,编码任务具有竞争力但未领先。质量分布在不同任务类型上不均匀,这本身是合理的 —— 架构首次部署的初期通常会有这种特征。

硬件无关的 FLOP 减少量更能说明问题:128K 时 SSA 执行约 1/8 的密集注意力 FLOP;512K 时约 1/25;1M 时约 1/62.5。成本增长曲线是线性的而非二次的,差距随上下文长度扩大而扩大。

工程团队需要重新思考什么

如果 SSA 的 trilemma 声明最终通过独立验证被确认,工程影响将是分层的。

被压缩的部分是:以扩大上下文为存在的 RAG 管道、以 chunk 为单位切分文档的检索策略、专为将上下文塞入小窗口而设计的多智能体编排层。这些基础设施不是功能特性,而是为模型上下文限制支付的成本。如果限制本身变得更便宜,部分成本会消失 —— 但消失的是特定用途的补偿层,不是所有基础设施。

被加重或新增的部分是:12M token 的单次前向传播产生了一个比以往更大的决策空间,验证输出是否正确利用了全部上下文比验证 128K 输出更难;跨上下文长度的评估需要覆盖以前不经济的区间;成本管理在新的数量级上重新成为问题;模型的生命周期和回归测试需要更大的测试用例集合。

SubQ 使用开源权重基础模型(据 CTO Alexander Whedon 透露,疑似 Kimi 或 DeepSeek 系列)作为训练起点,SSA 作为附加模块 grafted 到基础架构上。这种开发路径在工程上合理:复用成熟的基础架构能力,专注于 novel 的 attention 机制突破。但这也意味着模型质量的上限部分取决于基础模型的能力,SSA 的贡献需要在后续的独立 benchmark 中被隔离验证。

参数清单:评估 SSA 类架构时的工程检查项

对于考虑将 SSA 类架构纳入生产系统的团队,以下参数值得在 POC 阶段明确验证。

延迟曲线测量:在固定 GPU 配置(B200 或同等硬件)下,测量 64K、128K、256K、512K、1M token 的端到端延迟,绘制延迟 - 上下文长度曲线。如果曲线在 256K 后仍接近线性,则亚二次声明可信;如果出现拐点,则底层仍有二次成分。

检索精度衰减测试:在 512K 到 1M 范围内,用自定义 needle-in-a-haystack 任务测试关键信息召回率。如果精度随距离下降严重,则状态压缩问题仍存在于该实现中。

多证据整合基准:运行 MRCR v2 或类似的多文档综合任务,测量模型在不同证据数量下的输出质量。这比单证据检索更能反映实际工作负载的表现。

FLOP 预算核算:根据目标上下文长度和预期 QPS,计算每月的 GPU 算力账单。如果在 1M token 场景下,算力成本仍在可接受范围内,则该架构适合当前业务场景。

验证基础设施投入:确认团队是否有能力对长上下文输出进行系统性验证,包括自动评估、采样对比和回归检测。如果没有,12M token 上下文的运维会很快成为痛点。


资料来源:SiliconANGLE 报道及 Cozypet 编写的 SSA 技术解析(2026 年 5 月)。

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com