首页 › 2025年 › 09月 › Moondream3 边缘推理自定义 CUDA 内核:分组查询注意力优化
2025年09月27日 ai-systems

Moondream3 边缘推理自定义 CUDA 内核:分组查询注意力优化

针对 Moondream3 的分组查询注意力,工程自定义 CUDA 内核,实现边缘 GPU 上 2 倍加速的实时推理,提供无精度损失的低功耗参数与监控要点。

内容加载中...