Hotdry.

Article

Rotary GPU:有限显存下的MoE模型本地执行策略

通过旋转式专家调度与分层卸载策略,在单卡8GB显存下实现35B参数MoE模型的本地推理,解码速度达21 tokens/秒。

2026-05-31ai-systems

大语言模型的能力边界正随着参数量级不断扩展,但部署门槛也在同步攀升。当 Mixture-of-Experts(MoE)架构将模型规模推向数百亿甚至千亿参数时,显存需求与硬件成本成为制约本地部署的核心瓶颈。传统思路倾向于 "堆硬件"—— 更大的显存、更强的算力、更昂贵的集群 —— 但对于资源受限的组织或个人开发者而言,这种路径往往不可行。

Rotary GPU 提出了一种不同的视角:与其不断扩展硬件以容纳完整的模型,不如让模型的驻留状态随执行上下文动态旋转。这一思路的核心在于重新理解加速器内存的角色 —— 它不是静态仓库,而是可按需轮转的工作台。

从静态驻留到旋转调度

MoE 架构的稀疏激活特性为内存优化提供了天然契机。在任意时刻,只有部分专家(experts)参与实际计算,其余参数处于休眠状态。然而,传统推理框架通常选择将所有专家权重预加载至显存,以规避运行时加载的延迟。这种 "全量驻留" 策略在数据中心场景下无可厚非,但在消费级硬件上则寸步难行。

Rotary GPU 将加速器驻留重新定义为 "旋转资源管理问题"。系统维护一组固定数量的驻留槽位(slots),而非为每个专家分配永久地址。完整模型权重保留在主机内存或存储层,只有当前及近期可能调用的专家子集被加载至 GPU。关键在于,驻留槽位的更新遵循结构化循环模式 —— 当新的执行上下文出现时,系统按预定旋转策略替换槽位内容,而非简单的 LRU(最近最少使用)淘汰。

这种循环式调度与 LRU 的本质区别在于 "可逆性"。LRU 沿单一方向推进,一旦某个专家被逐出,重返驻留集需要重新经历完整的优先级累积过程;而旋转调度允许系统根据语义上下文的周期性特征,主动返回到先前的驻留配置。这种设计特别适合 MoE 模型中专家调用的局部性规律 —— 某些主题或任务模式可能在对话中反复出现,对应的专家集合可以被循环召回。

分层架构与调度机制

Rotary GPU 的架构可概括为三层:存储层(完整模型权重)、主机内存层(专家子模块缓存)、加速器驻留层(活跃专家槽位)。路由决策基于隐藏状态生成路由向量,通过查找表映射至槽位位置,旋转控制器则负责执行前向或反向的旋转变换。

在典型的配置中,系统同时驻留 32 个专家于 GPU(n-cpu-moe=32),其余专家由 CPU 管理。当路由决策指向非驻留专家时,触发专家切换流程:目标专家从主机内存加载至空闲槽位或按旋转策略替换现有槽位。这一过程与计算流水线重叠,以最小化延迟开销。

值得注意的是,Rotary GPU 的调度并非纯粹基于预测或启发式规则,而是与执行过程中生成的隐藏状态紧密耦合。路由结果直接影响下一轮驻留配置,形成反馈闭环。这种 "上下文感知" 的驻留管理使得系统能够适应动态变化的输入模式,而非依赖静态的预加载策略。

实验验证:消费级硬件上的可行性

论文作者在 RTX 4060 Laptop GPU(8GB 显存)上验证了 Rotary GPU 的可行性。测试模型为 Qwen3.6-35B-A3B-class MoE(Q4_K_M 量化),总参数量 35B,激活参数约 3B。这一配置在常规推理框架下远超 8GB 显存的承载能力。

在推荐配置(n-cpu-moe=32,上下文长度 4096,启用 Flash Attention)下,系统成功生成 2048 个输出 token,显存占用稳定在约 6.3GB,解码吞吐量达到 21.06 tokens / 秒。作为对比,当尝试将驻留专家数提升至 36(n-cpu-moe=36)并保持相同上下文长度时,系统初始化失败,无法进入就绪状态。这一失败案例揭示了内存预算与初始化稳定性之间的微妙平衡 —— 过度追求 GPU 驻留比例可能侵蚀必要的启动余量。

烟雾测试(smoke-set)包含 10 组不同 prompt,全部成功完成,无异常终止。虽然测试规模有限,但初步验证了系统在多样化输入下的稳定性。

可落地的配置参数与实践要点

基于验证结果,可提炼以下工程实践参数:

显存预算分配:在 8GB 显存设备上,建议将 GPU 驻留显存控制在 6-6.5GB 区间,保留 1.5-2GB 余量应对初始化峰值和运行时波动。

专家驻留比例:n-cpu-moe=32 是 RTX 4060 上的推荐值,对应约 80-85% 的专家由 CPU 管理。该参数需根据具体模型专家总数和单专家体积调整。

上下文长度权衡:4096 token 上下文在测试配置下可行,但增加上下文会线性增长 KV 缓存占用。若需更长上下文,应相应降低 n-cpu-moe 以释放显存。

量化策略:Q4_K_M 量化在保持可接受精度的同时,将单专家体积压缩至原始大小的约 25%,是本地部署的必要前提。

失败回退:当遭遇初始化失败时,优先尝试降低 n-cpu-moe 或缩短上下文长度,而非调整其他运行时参数。

局限与未来方向

当前验证存在明显局限:单一硬件平台(RTX 4060 Laptop)、有限的基准覆盖(仅 10 组 prompt)、未公开的实现细节。更广泛的硬件验证(桌面 GPU、工作站加速器、边缘 AI 设备)和更长上下文的评估是未来工作的重点。

多用户并发场景下的行为尚未探索 —— 企业环境通常需要同时服务多个会话,旋转调度策略在共享驻留池条件下的表现仍是开放问题。此外,Rotary GPU 与现有推理框架(如 llama.cpp、vLLM)的集成路径也有待厘清。

尽管如此,Rotary GPU 的核心洞察具有普适价值:大模型部署的瓶颈未必在于模型本身的大小,而在于我们假设 "必须同时访问所有参数" 的前提。当驻留管理从静态分配转向动态旋转,消费级硬件与大规模 MoE 模型之间的鸿沟或许并非不可逾越。

资料来源

  • Jo, M. "Rotary GPU: Exploring Local Execution Paths for Large Mixture-of-Experts Models Under Limited GPU Memory." arXiv:2605.29135, 2026.
  • Jo, M. "Large Language Model Rotary-Based Accelerator Loading and Execution System and Method." Korean Patent Publication KR 10-2026-0070380, 2026.

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com