首页 › 2025年 › 09月 › 在Cactus框架中实现INT8训练后量化和NPU卸载:移动设备低延迟LLM推理
2025年09月19日 ai-systems

在Cactus框架中实现INT8训练后量化和NPU卸载:移动设备低延迟LLM推理

基于Cactus框架,探讨INT8 PTQ与NPU卸载的集成,提供量化阈值、运行时分区参数和性能监控要点,实现手机端高效LLM推理。

内容加载中...