首页 › 2025年 › 09月 › 在 PyTorch 推理中使用 cuBLASLt 实现偏差融合:减少内核启动与内存访问
2025年09月22日 ai-systems

在 PyTorch 推理中使用 cuBLASLt 实现偏差融合:减少内核启动与内存访问

通过 cuBLASLt 的 epilogue 机制,在单次矩阵乘法后直接融合偏差加法,避免额外内核启动与中间内存读写,提升 GPU 利用率与推理吞吐。

内容加载中...