首页 › 2025年 › 09月 › FlashAttention-4 中的 IO 感知块分块策略
2025年09月28日 ai-systems

FlashAttention-4 中的 IO 感知块分块策略

探讨 FlashAttention-4 中 IO-aware 块分块策略的工程实现,通过重叠计算与 HBM 访问,在 A100 GPU 上实现长序列 MQA 推理的 2 倍吞吐量提升。提供参数调优与监控要点。

内容加载中...