LLM推理工程:KV缓存优化参数与监控要点
剖析Transformer推理中KV缓存的核心作用、内存消耗机制与工程优化参数,实现高吞吐、低延迟的LLM部署实践。
Latest Essays
继续沿着时间线阅读近期的工程实践与技术观察。
近期的思考与工程笔记。
剖析Transformer推理中KV缓存的核心作用、内存消耗机制与工程优化参数,实现高吞吐、低延迟的LLM部署实践。
基于 Claude Code 的 agents 项目,实现多代理协作的终端代码自动化。详解插件安装、混合模型编排参数与工作流监控要点。
基于 Basecamp Fizzy 开源项目,剖析 Rails 中用 ActionCable 和 Hotwire 实现简约 Kanban 板的实时多用户拖拽协作,提供工程参数、阈值与部署清单。
基于 Opencode 开源框架,用 TypeScript 实现终端 AI 编码代理,集成 Claude 模型,支持代码编辑、自动化任务及多代理协作,提供工程参数与部署清单。
借鉴 Browser Buddy,利用嵌入向量和协同过滤构建跨浏览器个性化写作内容推荐系统,提供算法参数、落地清单与监控策略。
小数据集评估模型时,传统train-test split方差过大;转向repeated k-fold CV、bootstrap重采样,提供参数阈值、监控指标和实现清单。
Proxmox Datacenter Manager 1.0 统一管理多站点 Proxmox VE 集群,支持实时迁移、HA 与资源编排,给出工程化部署参数与监控要点。
Ladybird 用 C++ 从零打造独立 Web 引擎,聚焦标准合规、渲染性能与模块化设计,提供多进程架构参数与优化清单,避免遗留依赖。
OpenAI Codex CLI 轻量 Rust 终端代理,支持代码生成编辑自动化。详解 Execpolicy 参数、Sandbox 清单与工程化落地要点。
基于 Next.js 的 next-ai-draw-io 开源应用,通过自然语言与 AI 协作创建/修改 Draw.io 图表。聚焦对话式工程管道,包括多 LLM 支持、XML 处理、历史版本管理与生产部署参数。
Bun 以 Zig 打造的高性能 JS runtime,集成 bundler/transpiler/SQLite/npm compat,通过 prebundling 实现 3x 冷启动加速,提供工程参数与迁移清单。
面向可组合层次结构,在 OO VM 中通过动态接收器传递实现 mixin/traits 的开放递归,支持 super() 调用链而无需显式 self 参数。
通过 Porffor 和 QuickJS 等工具,将 JS 字节码解释器原生编译为无需 VM 依赖的独立可执行文件,提供优化性能参数与落地清单。
通过 API 发起 AI 代理外呼,实现电话后端与 STT/LLM/TTS 的实时自然对话与呼叫控制,提供工程参数与监控要点。
Porffor AOT 编译器实现 JS 独立可执行文件,提供编译参数、优化清单与部署要点。
通过随机上下文注入机制,实现LLM自适应提示工程与噪声鲁棒训练,提供工程参数与监控要点。
剖析 NoeticMap 处理 8000+ 濒死报告的 AI 管道:LLM 提取总结、主题聚类、TTS 音频化,提供工程化参数与落地清单。
在 Rails 中利用 Web Components 的自定义元素实现乐观 UI,用户操作即时反馈,通过 Turbo Stream 服务器协调,无需完整重载。
Valve 资助的 FEX-Emu 提供高效 x86 到 Arm 动态翻译,支持 Windows 游戏无缝运行在 Arm Steam Deck 和 Windows PC 上,附工程部署参数与监控要点。
Uncloud 通过 WireGuard mesh 网络和内置 DNS,实现跨多服务器的容器自动发现、负载均衡与状态应用迁移,提供零宕机部署的关键参数与工程清单。