首页 › 2025年 › 09月 › 通过 cuBLASLt 的 epilog 机制实现单内核偏置融合:参数配置与性能收益
2025年09月22日 ai-systems

通过 cuBLASLt 的 epilog 机制实现单内核偏置融合:参数配置与性能收益

深入探讨如何配置 compute_type 和 epilog_inputs,利用 cuBLASLt 的 epilog 机制在单内核内融合矩阵乘、偏置加法与激活函数,消除 PyTorch 中的多内核启动与显存往返开销。

内容加载中...