在Cactus框架中实现INT8训练后量化和NPU卸载:移动设备低延迟LLM推理
基于Cactus框架,探讨INT8 PTQ与NPU卸载的集成,提供量化阈值、运行时分区参数和性能监控要点,实现手机端高效LLM推理。
Latest Essays
继续沿着时间线阅读近期的工程实践与技术观察。
近期的思考与工程笔记。
基于Cactus框架,探讨INT8 PTQ与NPU卸载的集成,提供量化阈值、运行时分区参数和性能监控要点,实现手机端高效LLM推理。
使用Rust内核模块集成Landlock,实现多进程文件系统隔离的工程参数与监控要点。
在现代Web应用中,利用Cypress构建可靠的端到端测试管道,包括跨浏览器自动化、视觉回归测试以及无缝CI/CD集成。
面向字符串处理系统,给出使用 NFC 规范化捕获零宽 Unicode 伪影的运行时过滤器实现、参数配置与监控策略。
基于 OpenAI Codex CLI,构建无云依赖的终端代理,使用 RAG 从代码库检索上下文,支持本地 LLM 进行准确代码合成和调试。
探讨 TernFS 中使用一致性哈希进行元数据分片和多区域复制的工程实践,提供负载均衡参数与故障恢复策略。
基于 Brush 项目,探讨从单目视频利用高斯溅射进行实时 3D 重建的 Rust 实现,支持 WebGPU 浏览器渲染,实现可访问的 AR/VR 管道。
利用 Gemini Nano 和 WebNN API 在 Chrome 中构建隐私友好的 on-device AI 功能,包括标签智能组织、写作辅助和提示优化。
基于 Monad 架构,用 C++ 构建 BFT 共识机制,支持并行 EVM 执行,实现 10k+ TPS,通过流水线交易处理和状态分片在普通硬件上优化。
探讨如何利用 SLJIT 后端为栈式虚拟机构建可移植 JIT 编译器,聚焦代码生成策略、寄存器分配优化及运行时反汇编调试技巧。
利用 TT-Metalium 开发低级内核,并在 Wormhole 上通过 TT-Buda 实现张量优化与融合,提供工程参数与监控要点。
针对嵌入式游戏脚本引擎,探讨 Luau 中渐进式类型系统的类型推断规则、运行时类型检查机制,以及性能优化策略与参数配置。
探讨基于 Wolfram ruliology 的 Lambda 演算评估引擎,支持单步规约与多路演化分析,提升函数式编程管道的计算能力。
基于Cactus框架,结合INT8量化与NPU硬件加速,实现智能手机低功耗多模态AI模型部署,支持实时语音与视觉任务的工程参数与优化策略。
Explore integrating {fmt} in C++ for safe, fast formatting with Unicode and chrono support, replacing legacy methods zero-overhead.
面向 C++ 开发,给出 {fmt} 库在日志、序列化和 UI 渲染中的集成参数与最佳实践。
利用 Gemini Nano 在 Chrome 扩展中实现本地标签聚类、内容摘要和 AI 提示生成,提升实时浏览生产力。
在 Chrome 浏览器中利用 WebNN API 集成 Gemini Nano,实现设备端 AI 任务如标签页总结和内容生成,提供离线工程化参数与监控要点。
利用 nvmath-python 集成 cuBLAS 和 cuSOLVER,实现 GPU 优化的张量操作和稀疏求解器,提升模型训练的可扩展性。
在低资源硬件终端环境中,集成官方 OpenAI Codex CLI 与本地 LLM 回退,实现离线 RAG 检索、代码合成及调试,提供混合在线-离线管道的工程化参数与优化策略。