首页 › 2025年 › 10月 › JAX 中使用 Triton 优化 Blackwell GPU 的 FP8 GEMM 内核:TMA 异步加载与 Warp 级原语
2025年10月07日 mlops

JAX 中使用 Triton 优化 Blackwell GPU 的 FP8 GEMM 内核:TMA 异步加载与 Warp 级原语

在 JAX 框架下,利用 Triton 自定义 GEMM 内核,针对 Blackwell GPU 的 FP8 Tensor Cores 和 TMA 异步加载,实现峰值 TFLOPS 的矩阵乘法优化,适用于 ML 训练与推理。

内容加载中...