首页 › 2025年 › 09月 › Moondream 3 中分组查询注意力与内核融合的工程实践:边缘设备高吞吐量推理
2025年09月27日 ai-systems

Moondream 3 中分组查询注意力与内核融合的工程实践:边缘设备高吞吐量推理

针对Moondream 3的视觉推理任务,介绍GQA机制与内核融合的集成,实现边缘设备上50+ tokens/sec的吞吐量优化,同时保持准确性。

内容加载中...