首页 › 2025年 › 09月 › 在 PyTorch 中实现多查询注意力:自定义 LLM 中高效长上下文自回归生成的 KV 缓存内存优化
2025年09月29日 ai-systems

在 PyTorch 中实现多查询注意力:自定义 LLM 中高效长上下文自回归生成的 KV 缓存内存优化

面向长上下文自回归生成,给出 PyTorch 中 MQA 的实现与 KV 缓存优化的工程参数。

内容加载中...