首页 › 2025年 › 10月 › 利用 Cutlass 内核命名惯例在 Triton 中实现 FP8 张量核的多头注意力 100 TFLOPS 加速
2025年10月03日 ai-systems

利用 Cutlass 内核命名惯例在 Triton 中实现 FP8 张量核的多头注意力 100 TFLOPS 加速

在 LLM 推理中,利用 Triton 借鉴 Cutlass 内核命名优化 FP8 张量核,实现多头注意力 100 TFLOPS 加速,提供落地参数和监控策略。

内容加载中...