Hotdry.

Article

DFlash:基于块级扩散的极速投机解码实现

DFlash通过轻量级块扩散模型实现并行草案生成,在目标模型的上下文特征条件下完成验证,实现超过6倍的无损加速。

2026-04-16ai-systems

在大语言模型推理部署的场景中,自回归解码的顺序生成特性一直是性能瓶颈的核心来源。传统投机解码虽然引入了 draft 模型来加速 token 生成,但仍然依赖自回归方式逐个预测下一个 token,实际加速比受限于串行开销。DFlash(Block Diffusion for Flash Speculative Decoding)提出了一种全新的思路 —— 将块级扩散模型引入投机解码流程,通过单次前向传播并行生成多个 token,从而将 draft 阶段的延迟与生成的 token 数量解耦。根据论文实验数据,DFlash 在多种模型和任务上实现了超过 6 倍的无损加速,相比当前最先进的投机解码方法 EAGLE-3 可提升最高 2.5 倍。

核心设计:并行草案与上下文条件化

DFlash 的技术创新体现在两个关键维度。首先是并行草案生成机制:传统的自回归 draft 模型需要循环执行,每生成一个 token 就要完成一次完整的前向传播,这种串行特性极大限制了吞吐量。DFlash 采用的块级扩散模型能够在单次前向传播中并行生成多个 token,draft 延迟不再随 token 数量线性增长,从而显著提升了 GPU 利用率和整体推理速度。

其次是上下文条件化机制。扩散模型在生成过程中需要依赖目标模型的隐藏状态来确保草案质量,DFlash 通过 KV Cache 注入机制实现了这一点。具体而言,draft 模型在生成时会接收目标模型提取的上下文特征,使其输出分布与目标模型的分布保持高度对齐。这种设计既保留了扩散模型并行生成的效率优势,又确保了草案 token 的高接受率,最终在目标模型的验证阶段能够通过大多数 draft token,实现真正的无损加速。

性能表现与适用场景

根据官方在 GitHub 仓库中公布的基准测试结果,DFlash 在数学推理(GSM8K)、代码生成(HumanEval、MBPP)、通用对话(MT-Bench)等多个 benchmark 上验证了其加速效果。值得注意的是,这种加速在开启采样模式后尤为明显,因为采样场景下 token 分布的多样性更高,对 draft 模型的质量要求也更苛刻,DFlash 的条件化机制在这一场景下表现出更强的适应性。

当前 DFlash 已支持主流的开源模型系列,包括 Qwen3.5(4B 到 27B 参数)、Qwen3-Coder 系列、Llama3.1-8B-Instruct 以及 Kimi-K2.5-preview 等。模型 weights 已发布在 HuggingFace 上,开发者可以直接下载并集成到现有推理 pipeline 中。

工程实现与部署参数

DFlash 提供了多后端支持,开发者可根据实际部署环境选择最适合的方案。vLLM 后端适合追求极致吞吐量的在线服务场景,典型配置如下:使用 vLLM 启动目标模型,并通过 speculative_config 指定 dflash 方法和 draft 模型路径,推荐的 num_speculative_tokens 设为 15,可根据目标延迟要求动态调整。SGLang 后端提供了更灵活的调度策略,支持实验性的 schedule overlapping 特性,适合对延迟敏感且需要细粒度控制的场景。Transformers 后端目前仅支持 Qwen3 和 LLaMA3.1 系列,适合快速原型验证。对于 Apple Silicon 设备,DFlash 还提供了 MLX 后端实现,可在 M 系列芯片上获得高效推理能力。

在性能调优方面,建议关注以下几个关键参数:num_speculative_tokens 决定了每次 draft 阶段生成的 token 块大小,较大的值能提高理论加速比但会增加验证失败的重算开销,推荐从 16 开始尝试并根据实际接受率调整;block_size 参数控制扩散模型的采样步长和生成质量,较小的 block_size 生成速度更快但质量略低;temperature 和 top_p 等采样参数需要与目标模型保持一致,以确保 draft 分布与目标分布的对齐。此外,确保目标模型和 draft 模型的 KV Cache 能够有效共享或同步,是实现低延迟验证的关键。

实践建议与局限考量

在生产环境中部署 DFlash 时,需要注意以下几点:第一,由于引入了额外的 draft 模型推理和 KV 注入机制,显存占用会比纯自回归解码增加约 20% 到 30%,需要评估 GPU 显存是否充裕;第二,扩散模型的推理延迟虽然与块大小解耦,但仍受到模型参数量和硬件算力的影响,建议使用量化后的 draft 模型(如 Q4_K_M 量化)来进一步降低延迟;第三,当前版本对非 Qwen 和 LLaMA 系列模型的支持仍在完善中,若需要支持新的模型架构,可能需要按照官方开源的训练配方自行微调 draft 模型。

总体而言,DFlash 为推理加速提供了一条可行且高效的新路径,特别适合对延迟有严格要求且需要保持生成质量的在线服务场景。随着更多模型适配和工具链的完善,块级扩散与投机解码的结合有望成为下一代 LLM 推理系统的标准配置。

资料来源:本文技术细节主要参考 DFlash 官方 GitHub 仓库(https://github.com/z-lab/dflash)及 arXiv 论文(arXiv:2602.06036)。

ai-systems