首页 › 2025年 › 09月 › Gemini 2.5 Flash-Lite:KV 缓存压缩与分组查询注意力实现亚秒级移动长上下文推理
2025年09月26日 ai-systems

Gemini 2.5 Flash-Lite:KV 缓存压缩与分组查询注意力实现亚秒级移动长上下文推理

针对移动端长上下文推理,介绍 Gemini 2.5 Flash-Lite 中的 KV 缓存压缩和 GQA 优化,给出压缩参数、注意力分组策略及监控要点。

内容加载中...