首页 › 2025年 › 10月 › 在 ATLAS 推测解码中实现内核融合:减少 75% 内存带宽并实现 4x LLM 推理加速
2025年10月13日 ai-systems

在 ATLAS 推测解码中实现内核融合:减少 75% 内存带宽并实现 4x LLM 推理加速

本文聚焦 ATLAS 系统的推测解码优化,通过 CUDA 内核融合减少 75% 内存带宽,实现多 GPU 上 4x LLM 推理加速,提供动态 draft 模型适应参数与工程落地清单。

内容加载中...