首页 › 2025年 › 10月 › 使用 Triton 实现 Cutlass 风格的 FP8 GEMM 内核加速
2025年10月03日 ai-systems

使用 Triton 实现 Cutlass 风格的 FP8 GEMM 内核加速

在 Triton 中实现 FP8 GEMM 内核,借鉴 Cutlass 命名与优化策略,利用 Tensor Cores 实现 100 TFLOPS 加速,提升 LLM 高效推理。

内容加载中...