# Hotdry Blog

> 代码、系统与工程实践的长期写作记录，适合按文章、分类和归档路径持续检索。

## 页面摘要
- 路径: /page/412/
- 当前页: 412 / 843
- 每页文章数: 20
- 文章总数: 16860
- 分类数: 267
- 归档年份数: 4
- 归档月份数: 17

## 快速导航
- [分类索引](/categories/)
- [归档索引](/archive/)
- [关于](/about/)
- [RSS](/rss.xml)

## 本页文章
### [Qwen3-Omni-Flash 8GB 吞吐延迟曲线实测：端侧量化策略与原生多模态推理](/posts/2025/12/11/qwen3-omni-flash-8gb-throughput-latency-curve/)
- 日期: 2025-12-11T19:03:26+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 实测 Qwen3-Omni-Flash 在 8GB 显存 RTX 4060 下的 INT8 量化吞吐/延迟曲线，给出工程参数清单与监控要点。

### [用 Wirebrowser 实现断点驱动的 JavaScript 堆内存搜索：大型 Web 应用内存泄漏自动化调试](/posts/2025/12/11/wirebrowser-breakpoint-driven-heap-search-javascript-memory-debugging/)
- 日期: 2025-12-11T18:42:13+08:00
- 分类: [systems-engineering](/categories/systems-engineering/)
- 摘要: 基于 BDHS 算法，优化大型 Web 应用的内存泄漏检测流程，提供断点搜索、可视化追溯与运行时修补参数配置。

### [Qwen3-Omni-Flash：8B端侧原生多模态流式推理的异构缓存设计](/posts/2025/12/11/qwen3-omni-flash-heterogeneous-cache-streaming-inference/)
- 日期: 2025-12-11T18:33:34+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 聚焦Qwen3-Omni-Flash原生多模态推理：流式I/O与异构缓存设计，让8B端侧模型实时处理图文音混合请求。

### [VCMI 如何把 90 年代 Heroes III 引擎重构成可热插拔、Lua 可扩展的现代游戏运行时](/posts/2025/12/11/vcmi-open-source-game-engine-heroes-iii-lua-hot-pluggable-architecture/)
- 日期: 2025-12-11T18:17:51+08:00
- 分类: [systems-engineering](/categories/systems-engineering/)
- 摘要: 拆解 VCMI 的 C++ 重构思路：JSON 描述 + 动态脚本加载 + Lua 事件总线，实现零冲突模组与热插拔。

### [Goose：Rust 实现的 LLM 驱动本地代码执行运行时](/posts/2025/12/11/goose-rust-llm-local-code-runtime/)
- 日期: 2025-12-11T18:08:27+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 聚焦 Goose 如何借助 Rust 异步运行时把 LLM 调用翻译成可验证的本地代码执行，并给出并发、成本、安全三维度可落地参数与回滚策略。

### [VCMI 如何用 C++ 重写 Heroes III 引擎并暴露 Lua 模组 API，实现跨平台沙盒与热重载](/posts/2025/12/11/vcmi-cpp-heroes3-lua-modding-hot-reload/)
- 日期: 2025-12-11T18:03:34+08:00
- 分类: [systems-engineering](/categories/systems-engineering/)
- 摘要: 拆解 VCMI 的 C++ 引擎重写、Lua 事件总线与热重载机制，给出可落地的跨平台沙盒参数与开发清单。

### [用 Qwen3-Omni-Flash 原生多模态推理链实战：端到端语音+视觉 token 融合与流式输出优化](/posts/2025/12/11/qwen3-omni-flash-native-multimodal-inference-chain-end-to-end-voice-vision-token-fusion-and-streaming-output-optimization/)
- 日期: 2025-12-11T17:32:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向实时多模态交互，详解 Qwen3-Omni-Flash 原生推理链中语音视觉 token 融合机制与流式输出低延迟工程参数。

### [拆解 Qwen3-Omni-Flash 原生多模态架构：统一编码器+交错推理的延迟与吞吐优化要点](/posts/2025/12/11/qwen3-omni-flash-unified-encoder-interleaved-reasoning/)
- 日期: 2025-12-11T17:03:48+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从统一编码到交错推理，逐帧拆解 Qwen3-Omni-Flash 如何在 234 ms 首包延迟下仍保持单模态性能无损，并给出可直接落地的显存与并发参数表。

### [Qwen3-Omni-Flash原生多模态推理的端侧量化与流式调度实践](/posts/2025/12/11/qwen3-omni-flash-native-multimodal-inference-edge-quantization-streaming/)
- 日期: 2025-12-11T16:33:41+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 用 INT4 量化把 30B 模型压到消费级显存，用流式 chunk 把延迟压到 200ms 以内，给出可落地的显存/延迟/并发参数表与回滚策略。

### [Qwen3-Omni-Flash 多模态流式并发实测：延迟、显存与可复制脚本](/posts/2025/12/11/qwen3-omni-flash-streaming-benchmark/)
- 日期: 2025-12-11T16:21:30+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 给出 1×A100 上 Qwen3-Omni-Flash 并发 1/2/4 路的延迟与显存曲线，附 vLLM 压测脚本与三项优化阈值，可直接落地。

### [RAGFlow Agentic RAG：Planner-Executor 多跳工作流实战](/posts/2025/12/11/ragflow-agentic-planner-executor/)
- 日期: 2025-12-11T16:08:11+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: RAGFlow v0.20+ 内建 Agentic Workflow，用 Planner-Executor 串联多跳查询、API调用与动态重排，提升召回15%、准确率显著。给出无代码配置清单与阈值参数。

### [Qwen3-Omni-Flash 本地多模态推理优化：量化与批调度实测](/posts/2025/12/11/qwen3-omni-flash-local-inference-optimization/)
- 日期: 2025-12-11T16:04:29+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 实测 Qwen3-Omni-Flash 端到端多模态延迟与显存，FP16 14GB→INT4 &lt;4GB，RTX4080 跑 15s 视频；vLLM 批调度参数与 KV-cache 压缩清单。

### [Qwen3-Omni-Flash 原生多模态流式推理：234 ms 端到端延迟与 28 GB 显存实战](/posts/2025/12/11/qwen3-omni-flash-native-multimodal-streaming-inference-234-ms-e2e-latency-and-28-gb-vram-in-practice/)
- 日期: 2025-12-11T15:48:42+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于官方技术报告与实测数据，拆解 Qwen3-Omni-Flash 在 234 ms 冷启动首包、28 GB 显存内并发 2 路音视频流的关键参数与落地清单。

### [拆解 Qwen3-Omni 原生多模态流式推理管线与异构调度优化点](/posts/2025/12/11/qwen3-omni-streaming-inference-scheduling/)
- 日期: 2025-12-11T15:03:53+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从分块预填充到多码本语音合成，给出可落地的 234 ms 首包延迟参数与 GPU-CPU 异构并发配置表。

### [拆解 Qwen3-Omni 原生多模态推理链：统一音频/视觉/文本的流式调度与 KV-Cache 跨模态复用策略](/posts/2025/12/11/qwen3-omni-native-multimodal-streaming-kv-cache-reuse/)
- 日期: 2025-12-11T14:48:59+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从统一 KV-Cache 到跨模态注意力熵，逐层拆解 Qwen3-Omni 如何在 234 ms 内完成音频/视觉/文本的流式协同，并给出可直接落地的缓存命中率、剪枝阈值与监控指标。

### [Qwen3-Omni-Flash 端到端多模态流式推理：首 Token 延迟与视觉-音频并发调度](/posts/2025/12/11/qwen3-omni-flash-end-to-end-multimodal-streaming-inference-ttft-and-av-scheduling/)
- 日期: 2025-12-11T14:18:27+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 用 Qwen3-Omni-Flash 的端到端多模态流式推理栈，实测首 token 延迟与视觉-音频并发调度，给出工程参数与监控要点。

### [Rust Goose 多 LLM Agent 运行时：插件化工具链与本地沙箱执行](/posts/2025/12/11/rust-goose-multi-llm-agent-runtime-pluggable-tools-sandbox/)
- 日期: 2025-12-11T14:09:30+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Goose 通过 MCP 协议实现任意 LLM 接入、插件化工具链与 Docker 沙箱执行，提供工程级 Agent 运行时参数与监控要点。

### [拆解 Qwen3-Omni-Flash 原生多模态架构：统一语音-视觉-文本推理的流式实现与端侧落地要点](/posts/2025/12/11/qwen3-omni-flash-multimodal-native-inference/)
- 日期: 2025-12-11T13:48:21+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从 Thinker-Talker MoE 到 12.5 Hz 多码本，逐帧拆解 234 ms 超低延迟的端侧落地最小参数集。

### [拆解 Qwen3-Omni-Flash 原生多模态架构：零耦合融合音频-视觉-文本推理到 8K 实时流](/posts/2025/12/11/qwen3-omni-flash-native-streaming-fusion/)
- 日期: 2025-12-11T13:33:51+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从 Thinker-Talker 双 MoE 到 12.5 Hz 编解码，给出可落地的上下文窗口、显存与并发调优清单，并附长视频显存尖峰回滚策略。

### [实测 Qwen3-Omni-Flash 多模态推理延迟与显存：量化切分批处理最佳实践](/posts/2025/12/11/qwen3-omni-flash-native-inference-latency-memory-benchmark/)
- 日期: 2025-12-11T13:04:28+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 端到端多模态推理延迟230ms、INT4显存11.8GB，提供vLLM量化-切分-批处理参数清单，实现单卡RTX4080 30fps视频对话。

## 热门分类
- [ai-systems](/categories/ai-systems/): 5960 篇
- [systems-engineering](/categories/systems-engineering/): 4056 篇
- [systems](/categories/systems/): 1860 篇
- [ai-security](/categories/ai-security/): 868 篇
- [application-security](/categories/application-security/): 842 篇
- [compiler-design](/categories/compiler-design/): 699 篇
- [security](/categories/security/): 526 篇
- [ai-engineering](/categories/ai-engineering/): 329 篇
- [compilers](/categories/compilers/): 322 篇
- [web](/categories/web/): 205 篇
- [general](/categories/general/): 198 篇
- [mlops](/categories/mlops/): 81 篇

## 最近归档
### [2026 年](/archive/2026/)
- 年度文章数: 6466
- 月份概览: [2026-04](/archive/2026/04/) (494)、[2026-03](/archive/2026/03/) (905)、[2026-02](/archive/2026/02/) (2318)、[2026-01](/archive/2026/01/) (2749)

### [2025 年](/archive/2025/)
- 年度文章数: 10386
- 月份概览: [2025-12](/archive/2025/12/) (2684)、[2025-11](/archive/2025/11/) (2842)、[2025-10](/archive/2025/10/) (2885)、[2025-09](/archive/2025/09/) (1967)、[2025-08](/archive/2025/08/) (1)、[2025-07](/archive/2025/07/) (1)

### [2024 年](/archive/2024/)
- 年度文章数: 5
- 月份概览: [2024-10](/archive/2024/10/) (2)、[2024-09](/archive/2024/09/) (2)、[2024-07](/archive/2024/07/) (1)

### [2023 年](/archive/2023/)
- 年度文章数: 3
- 月份概览: [2023-10](/archive/2023/10/) (2)、[2023-03](/archive/2023/03/) (1)
