阿里巴巴通义千问团队近期发布的 Qwen3.7-Max 模型,在没有任何芯片架构文档或性能分析数据的前提下,通过 35 小时的自主内核优化,实现了在平头哥玄铁 M890 处理器上 10 倍的几何平均加速。这一成果不仅刷新了长上下文推理优化的性能基准,更展示了 AI 模型在硬件适配层面的自主进化能力。
自主优化的五个核心阶段
Qwen3.7-Max 的优化过程经历了五个关键的技术演进阶段,最终生成了 1,158 行优化代码。第一阶段采用 Split-K 分区策略,沿 token 维度对前缀 KV 缓存进行分割,确保全部 36 个 SM 核心得到充分利用。这一策略的核心在于打破传统串行处理模式,将长序列的计算负载均匀分布到多核架构上。
第二阶段聚焦于内存管理层的重构。优化团队将同步的 cudaMalloc 调用替换为预分配的 PyTorch 张量,消除了动态内存分配带来的延迟抖动。第三阶段进一步利用张量元数据替代同步 cudaMemcpy 操作来查询前缀长度,彻底消除了主机与设备之间的通信开销。这两个阶段的组合使得内存子系统从瓶颈转变为流水线的一部分。
第四阶段实现了算子级别的深度重构。通过将四个查询 token 的处理整合到单个线程块内,并共享内存加载操作,显著摊薄了内存访问成本。第五阶段则完成了针对 M890 处理器微架构的特异性优化,包括寄存器分配策略和 warp 调度模式的微调。
KV 缓存管理的工程实践
长上下文推理的核心瓶颈在于 KV 缓存的存储与访问效率。Qwen3.7-Max 采用的 Split-K 分区策略,本质上是一种计算与通信的重新平衡。传统的 KV 缓存按层存储,在解码阶段需要频繁跨层访问,造成严重的内存带宽压力。通过沿 token 维度分割,每个 SM 核心可以独立处理子序列,将全局内存访问转化为共享内存访问。
预分配张量的引入则解决了另一个隐性成本 —— 内存碎片。在长上下文场景下,序列长度的动态变化会导致频繁的内存重新分配,不仅消耗计算周期,还会引发缓存失效。预分配策略配合张量元数据的惰性查询,将内存管理从运行时转移到初始化阶段。
线程级并行与批处理策略
单线程块多 token 处理是 Qwen3.7-Max 最具特色的优化之一。传统实现中,每个查询 token 通常独占一个线程块,导致 SM 核心间的负载不均衡和同步开销。通过将四个 token 捆绑到同一线程块,可以利用 warp 内的数据共享特性,减少全局内存的访问次数。
这一设计对长上下文推理具有特殊意义。当处理百万级 token 的上下文时,查询阶段的计算密度相对较低,内存带宽成为主要瓶颈。通过线程块内的内存共享,可以将原本分散的随机访问转化为批量顺序访问,更好地利用内存控制器的预取机制。
跨框架强化学习与泛化能力
Qwen3.7-Max 在训练阶段采用了任务、执行框架和验证器的解耦设计,并引入跨框架强化学习以避免对特定基准的捷径过拟合。这一方法论直接体现在优化结果的泛化能力上 —— 模型在 MCP-Mark 和 SpreadSheetBench 两个通用智能体基准上分别取得了 60.8 和 87.0 的分数,整体性能已接近 Claude-4.6-Opus-Max 的水平。
与同类模型相比,Qwen3.7-Max 的 10 倍加速显著优于 GLM 5.1 的 7.3 倍和 Kimi K2.6 的 5.0 倍。值得注意的是,DeepSeek V4 Pro 在相同任务上仅实现 3.3 倍加速,并在连续五轮无工具调用后提前终止任务,这从侧面印证了 Qwen3.7-Max 在持续优化任务中的稳定性优势。
可落地的工程参数清单
基于 Qwen3.7-Max 的优化实践,可提取以下可直接应用的配置参数:
KV 缓存分区参数
- Split-K 因子:根据 SM 核心数量调整,M890 的 36 核配置建议采用 4 或 9 的因子
- 前缀缓存块大小:建议设置为 256 或 512 token,平衡内存利用率与计算并行度
内存管理配置
- 预分配缓冲区大小:按最大上下文长度的 1.2 倍预留,避免动态扩展
- 张量元数据缓存:启用惰性查询模式,延迟至首次访问时才同步
线程级优化阈值
- 单线程块 token 数:4 个查询 token 为一个批次单元
- 共享内存分配:每个线程块预留 48KB 用于 KV 缓存片段的临时存储
监控与回滚策略
- 性能回归阈值:当单步优化导致吞吐量下降超过 5% 时触发回滚
- 内存碎片率告警:当空闲内存块占比超过 20% 时触发整理
局限与风险提示
需要明确的是,10 倍加速是在特定硬件(平头哥 M890)和特定优化任务(Triton 算子)上的结果。不同 GPU 架构的内存层次结构和指令集差异,意味着这些优化策略需要针对目标硬件重新调参。此外,35 小时的自主优化过程消耗了大量计算资源,在资源受限场景下需要权衡优化收益与成本。
模型在无芯片架构信息的情况下工作,某些优化可能依赖于启发式策略而非理论最优解。生产环境中建议结合硬件厂商提供的性能分析工具进行验证。
资料来源
- KuCoin News: "Qwen3.7-Max Achieves 10x Performance Improvement on Domestic Chip in 35-Hour Optimization Task"
- TestingCatalog: "Qwen3.7-Max Autonomously Wrote 1,158 Lines of Code to 10x Chinese Chip Performance"
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。