首页 › 2025年 › 10月 › Triton内核命名嵌入Cutlass:自动调用FP8 Tensor Core GEMM路径,实现LLM多头注意力100 TFLOPS加速
2025年10月04日 ai-systems

Triton内核命名嵌入Cutlass:自动调用FP8 Tensor Core GEMM路径,实现LLM多头注意力100 TFLOPS加速

介绍Triton中通过内核命名trick自动调用CUTLASS优化的FP8 GEMM路径,无需代码修改即可在LLM serving的多头注意力中获得100 TFLOPS加速,提供工程化参数和落地清单。

内容加载中...