首页 › 2025年 › 10月 › 在 Triton 中利用 Cutlass 内核命名解锁 FP8 张量核心加速
2025年10月03日 ai-systems

在 Triton 中利用 Cutlass 内核命名解锁 FP8 张量核心加速

借助 Triton 借鉴 Cutlass 内核命名,实现 FP8 GEMM 优化,在 LLM 多头注意力推理中获得约 100 TFLOPS 加速,提供工程参数与监控要点。

内容加载中...