首页 › 2025年 › 10月 › Together AI 的推测解码内核融合优化:多GPU上4倍加速的内存带宽减法
2025年10月13日 ai-systems

Together AI 的推测解码内核融合优化:多GPU上4倍加速的内存带宽减法

Together AI 通过在推测解码中应用内核融合技术,融合 attention 和 MLP 操作,显著降低内存带宽消耗,实现多 GPU 环境下 LLM 推理 4 倍加速。文章提供工程参数、阈值设置与监控要点。

内容加载中...