DS4 推理引擎设计解析：非对称量化与磁盘 KV 缓存策略

单模型专用推理引擎的定位

DwarfStar 4（DS4）是 Redis 作者 antirez 最新发布的推理引擎项目，其设计哲学与主流推理框架形成鲜明对比 —— 它并非通用 GGUF 运行器，而是专为 DeepSeek V4 Flash 量身定制的原生实现。这种 "窄而深" 的设计选择源于对本地 AI 体验的特定需求：在 96GB 或 128GB 内存的消费级设备上，运行一个接近前沿模型能力的本地推理服务。

DS4 的核心假设是，当模型、推理引擎和量化方案三者协同设计时，可以在资源受限环境下获得远超通用方案的体验。这一假设在 DeepSeek V4 Flash 上得到验证：通过 2/8 bit 非对称量化配方，该模型可在 128GB 内存的 MacBook 上流畅运行，甚至部分用户在 96GB 配置下也能支撑 25 万 token 的上下文窗口。

非对称量化策略的内存布局

DS4 的量化策略体现了对 MoE（混合专家）架构的深入理解。与统一量化的常规做法不同，DS4 采用非对称量化：仅对路由 MoE 专家进行压缩，其中 up/gate 投影使用 IQ2_XXS 格式，down 投影使用 Q2_K 格式；而共享专家、路由层和投影层则保持原始精度。

这种设计的工程考量在于，路由专家占据了模型参数空间的绝大部分，而共享专家和关键投影层对输出质量的影响更为敏感。通过保留这些组件的精度，DS4 在 2-bit 量化的激进压缩下仍能保持可接受的推理质量。根据项目文档，这种非对称量化方案在编码代理和工具调用场景下表现稳定，打破了 "2-bit 量化不可用" 的固有认知。

内存布局方面，DS4 针对 Metal 和 CUDA 后端分别优化了张量排布和内核调度。Metal 作为主要目标平台，充分利用了 Apple Silicon 的统一内存架构；CUDA 后端则特别适配了 DGX Spark 等 "GPU in a box" 设备。CPU 路径仅保留用于正确性验证和诊断，明确划定了生产环境与调试环境的边界。

磁盘 KV 缓存：重新定义存储层级

DS4 最具创新性的设计决策之一是将 KV 缓存视为磁盘的一级公民（first-class disk citizen）。传统推理引擎将 KV 缓存完全驻留内存，这在长上下文场景下迅速成为瓶颈。DS4 则利用现代 NVMe SSD 的高吞吐特性，实现了分层存储架构。

具体实现上，DS4 采用压缩 KV 缓存技术，支持高达 100 万 token 的上下文窗口。对于 10 万 token 的上下文，压缩后的索引器仅占用约 22GB 内存，使得在 128GB 内存设备上运行成为可能。磁盘 KV 缓存的启用方式简洁：--kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192。

缓存文件采用自定义格式（KVC 头部 + 载荷），支持精确重放机制。当客户端以 JSON 格式回传工具调用结果时，DS4 通过工具 ID 映射确保渲染的 DSML 文本与模型原始采样完全一致，避免因重渲染导致的 KV 缓存失效。这种设计对于支持 OpenAI/Anthropic 兼容 API 的代理客户端尤为关键 —— 状态 less 的 HTTP 接口与状态 ful 的推理会话之间的鸿沟由此弥合。

多后端支持的工程取舍

DS4 的后端策略体现了务实的工程权衡：

Metal 优先：作为首要目标平台，Metal 后端获得了最充分的优化。在 M3 Max（128GB）上，短提示的预填充速度可达 58.52 t/s，生成速度 26.68 t/s；M3 Ultra（512GB）上预填充速度进一步提升至 84.43 t/s。

CUDA 适配：Linux CUDA 后端针对 DGX Spark（GB10）进行了专门优化，128GB 配置下长提示预填充速度达 343.81 t/s。通用 CUDA 构建通过 make cuda-generic 提供，支持自定义架构指定。

ROCm 社区维护：AMD ROCm 支持被置于独立分支，由社区维护。这种 "核心维护者 + 社区贡献" 的分层模式，在资源有限的情况下保证了多平台覆盖。

值得注意的是，DS4 明确将 CPU 路径降级为调试用途，甚至在 macOS 上因虚拟内存实现缺陷而完全禁用 CPU 推理。这种 "有所不为" 的决断，避免了在次要路径上消耗过多工程资源。

API 兼容与代理生态

DS4 服务器提供 OpenAI 风格的 /v1/chat/completions、Anthropic 风格的 /v1/messages 以及 OpenAI Responses 风格的 /v1/responses 端点。这种多协议支持使得 DS4 可无缝接入现有代理工具链：

Codex CLI：通过 Responses API 接入
Claude Code：通过 Anthropic 兼容端点接入
Pi / opencode：通过 OpenAI 兼容端点接入

工具调用方面，DS4 将 DeepSeek 的 DSML 格式与 OpenAI/Anthropic 的 JSON 工具调用格式进行双向映射，并在服务端维护精确重放缓存，确保多轮对话中工具调用历史的语义一致性。

工程启示

DS4 的设计实践为本地大模型部署提供了几点启示：

专用优于通用：针对单一模型深度优化，可能比追求通用性获得更好的资源效率。DS4 的量化方案、内存布局和内核调度都围绕 DeepSeek V4 Flash 的特定架构展开。

存储层级重定义：当 SSD 速度足够快时，KV 缓存不必完全驻留内存。DS4 的磁盘 KV 缓存策略为长上下文本地推理开辟了新路径。

API 兼容作为生态入口：通过兼容主流 API 协议，专用推理引擎可以快速接入现有工具生态，降低用户迁移成本。

AI 辅助开发的边界：DS4 明确声明其代码由 GPT 5.5 辅助生成，但核心内核和量化方案借鉴了 llama.cpp/GGML 的手工优化成果。这提示我们，AI 辅助开发在架构设计和关键路径优化上仍需人类专家的主导。

资料来源

antirez, "A few words on DS4", https://antirez.com/news/165
antirez/ds4 GitHub 仓库，https://github.com/antirez/ds4

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。