# Hotdry Blog

> 代码、系统与工程实践的长期写作记录，适合按文章、分类和归档路径持续检索。

## 页面摘要
- 路径: /page/413/
- 当前页: 413 / 843
- 每页文章数: 20
- 文章总数: 16860
- 分类数: 267
- 归档年份数: 4
- 归档月份数: 17

## 快速导航
- [分类索引](/categories/)
- [归档索引](/archive/)
- [关于](/about/)
- [RSS](/rss.xml)

## 本页文章
### [边缘端 Qwen3-Omni 原生多模态流式实战：断线续传与 750 ms 延迟红线](/posts/2025/12/11/qwen3-omni-edge-streaming-resume/)
- 日期: 2025-12-11T12:49:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 给出在边缘 GPU 上跑 Qwen3-Omni 双模态流式推理的裁剪方案、断线续传三参数模板与音视频对齐监控点，实测 4G 网 10% 丢包仍保 750 ms 延迟与 98% 续传成功率。

### [Qwen3-Omni-Flash 多模态流式推理管线：实时图文音输入融合与低延迟输出](/posts/2025/12/11/qwen3-omni-flash-multimodal-streaming-inference/)
- 日期: 2025-12-11T12:32:29+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于Qwen3-Omni-Flash构建多模态流式推理，实现文本图像音频实时输入的低延迟合并输出，详解架构参数、部署清单与监控要点。

### [实测 Qwen3-Omni-Flash 原生多模态推理链路：显存占用与边缘 INT4 部署方案](/posts/2025/12/11/qwen3-omni-flash-native-multimodal-inference-vram-edge-quantization/)
- 日期: 2025-12-11T12:19:13+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 实测 Qwen3-Omni-Flash Thinker-Talker 端到端多模态链路延迟 200ms、15s 视频 BF16 18GB → INT4 5GB 量化，RTX 4070 边缘部署阈值与监控要点。

### [GitHub Trending 实时爬取与去重策略：构建轻量级监控服务](/posts/2025/12/11/github-trending-real-time-crawl-deduplication-monitor/)
- 日期: 2025-12-11T12:09:07+08:00
- 分类: [systems-engineering](/categories/systems-engineering/)
- 摘要: 解析 GitHub Trending 榜单的爬取要点、去重机制与监控服务的工程化参数配置与代码实现。

### [Qwen3-Omni 原生多模态流式推理链：零拷贝进GPU批处理的工程参数](/posts/2025/12/11/qwen3-omni-native-multimodal-streaming-zero-copy-gpu-batch-processing/)
- 日期: 2025-12-11T12:04:29+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 拆解连续音频-视觉-文本流如何零拷贝进GPU，实现低延迟多模态批处理的架构原理、参数阈值与监控清单。

### [实测 Qwen3-Omni-Flash：把多模态首包延迟压到 234ms 的五个工程参数](/posts/2025/12/11/qwen3-omni-flash-latency-optimization/)
- 日期: 2025-12-11T11:49:05+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 RServe/EPD 论文与实测数据，给出端侧 234ms 首包落地的五个可拷贝参数：encode-prefill 重叠窗口、chunked-prefill size、decode batch、INT8 显存预算与 MoE 路由剪枝阈值。

### [Go 1.23 内存 Arena 的设计缺陷与性能误用场景](/posts/2025/12/11/go-123-memory-arena-design-flaws-performance-misuse-alternatives/)
- 日期: 2025-12-11T11:33:43+08:00
- 分类: [systems-engineering](/categories/systems-engineering/)
- 摘要: 解析 Go 1.23 引入内存 arena 的设计缺陷与性能误用场景，给出替代调优策略。

### [再生光子锁存器：超快光内存的工程实现与商业化路径](/posts/2025/12/11/regenerative-photonic-latch-ultra-fast-optical-memory/)
- 日期: 2025-12-11T11:08:49+08:00
- 分类: [systems-engineering](/categories/systems-engineering/)
- 摘要: 基于GlobalFoundries Fotonix™平台的再生光子锁存器技术，解决互连延迟瓶颈，提供光子内存的工程参数、系统集成策略与商业化路径。

### [Terraform CDK停止维护：类型安全与多语言支持的工程教训](/posts/2025/12/11/terraform-cdk-sunset-analysis-lessons-learned/)
- 日期: 2025-12-11T10:35:58+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 分析Terraform CDK停止维护背后的技术原因，探讨类型安全、多语言支持在基础设施即代码领域的工程实现挑战，并提供迁移策略与替代方案。

### [Qwen3-Omni-Flash 原生多模态推理链路实测：端侧延迟 600 ms 以内可落地](/posts/2025/12/11/qwen3-omni-flash-latency-benchmark/)
- 日期: 2025-12-11T08:33:11+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从 A100 到 RK3588 NPU，给出首包/尾包延迟、并发数与功耗量化数据，并提供 4-bit 量化+流式解码的端侧落地清单。

### [实测 Qwen3-Omni-Flash 原生多模态推理链路：显存、首帧与端侧落地参数](/posts/2025/12/11/qwen3-omni-flash-native-multimodal-inference/)
- 日期: 2025-12-11T08:18:17+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 对比单/多模态分离方案，给出 vLLM 连续批处理下的显存占用、首帧延迟与吞吐实测数据，并提供可落地的端侧部署参数清单。

### [Qwen3-Omni 原生多模态流式推理：图文音实时混合的端到端实践](/posts/2025/12/11/qwen3-omni-streaming-multimodal-inference/)
- 日期: 2025-12-11T07:50:36+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 拆解 Qwen3-Omni 的 Thinker-Talker MoE 架构，给出 234 ms 首包延迟背后的工程化参数与落地清单。

### [实测 Qwen3-Omni-Flash 原生多模态推理链路与端侧部署极限](/posts/2025/12/11/qwen3-omni-flash-native-multimodal-inference-chain-deployment-benchmark/)
- 日期: 2025-12-11T07:33:44+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从骁龙 8397 到 RTX 4090，拆解 Qwen3-Omni-Flash 在 211 ms 音频延迟下的双核架构、量化策略与可落地参数清单。

### [Qwen3-Omni-Flash 多模态原生流式推理：首 token 延迟与缓存复用实测](/posts/2025/12/11/qwen3-omni-flash-streaming-latency-cache/)
- 日期: 2025-12-11T07:20:36+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从 234 ms 到 50 ms 的三级跳：拆解 Thinker-Talker 架构延迟来源，给出可落地的 Prompt Cache 与多模态特征窗口复用参数。

### [Qwen3-Omni 原生多模态统一架构：端到端延迟与显存实测](/posts/2025/12/11/qwen3-omni-native-multimodal-latency-memory/)
- 日期: 2025-12-11T07:03:05+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 MoE Thinker-Talker 与多码本语音生成，给出 211 ms 音频延迟、144 GB 显存的真实测试数据与生产部署清单。

### [Qwen3-Omni-Flash 原生多模态架构的推理优化与端侧部署切口](/posts/2025/12/11/qwen3-omni-flash-edge-inference-optimization/)
- 日期: 2025-12-11T06:19:43+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从 Thinker-Talker 双引擎到 INT4 分段量化，给出在 24 GB 边缘盒落地 120 s 全模态视频的工程参数与踩坑表。

### [用 Rust 打造本地优先的插件化 AI Agent：Goose 架构与实战](/posts/2025/12/11/rust-goose-plugin-ai-agent/)
- 日期: 2025-12-11T06:08:58+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 本地安装、执行、编辑与测试的 Rust 插件化 AI Agent，支持任意 LLM 后端，给出可落地的冷启动参数与扩展开发清单。

### [用 SSE 承载 Qwen3-Omni 多模态流式推理：断线续传与背压控速方案](/posts/2025/12/11/sse-multimodal-streaming-resume-backpressure/)
- 日期: 2025-12-11T06:04:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向多模型流式输出，给出 SSE 连接管理与断线续传的工程化参数与监控要点。

### [用 Linux 内核逆向实现 HDMI 2.1 FRL：48 Gbps 满血输出笔记](/posts/2025/12/11/HDMI-2-1-FRL-Linux-Reverse-Engineering/)
- 日期: 2025-12-11T05:34:54+08:00
- 分类: [systems-engineering](/categories/systems-engineering/)
- 摘要: 在内核侧反向实现 FRL 链路训练与 DSC 解压，绕过封闭 HDMI 2.1 spec 实现 4K120/8K 满血输出。

### [实测 Qwen3-Omni-Flash 原生多模态推理链路：端侧延迟与视觉-音频交叉注意力调度](/posts/2025/12/11/qwen3-omni-flash-ondevice-latency-cross-attention-scheduling/)
- 日期: 2025-12-11T05:22:43+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在骁龙 8 Gen2 开发板上实测 Qwen3-Omni-3B-INT4，从 patch 切片、交叉注意力提前退出到 token budget，给出可复现的端到端延迟公式与调优清单。

## 热门分类
- [ai-systems](/categories/ai-systems/): 5960 篇
- [systems-engineering](/categories/systems-engineering/): 4056 篇
- [systems](/categories/systems/): 1860 篇
- [ai-security](/categories/ai-security/): 868 篇
- [application-security](/categories/application-security/): 842 篇
- [compiler-design](/categories/compiler-design/): 699 篇
- [security](/categories/security/): 526 篇
- [ai-engineering](/categories/ai-engineering/): 329 篇
- [compilers](/categories/compilers/): 322 篇
- [web](/categories/web/): 205 篇
- [general](/categories/general/): 198 篇
- [mlops](/categories/mlops/): 81 篇

## 最近归档
### [2026 年](/archive/2026/)
- 年度文章数: 6466
- 月份概览: [2026-04](/archive/2026/04/) (494)、[2026-03](/archive/2026/03/) (905)、[2026-02](/archive/2026/02/) (2318)、[2026-01](/archive/2026/01/) (2749)

### [2025 年](/archive/2025/)
- 年度文章数: 10386
- 月份概览: [2025-12](/archive/2025/12/) (2684)、[2025-11](/archive/2025/11/) (2842)、[2025-10](/archive/2025/10/) (2885)、[2025-09](/archive/2025/09/) (1967)、[2025-08](/archive/2025/08/) (1)、[2025-07](/archive/2025/07/) (1)

### [2024 年](/archive/2024/)
- 年度文章数: 5
- 月份概览: [2024-10](/archive/2024/10/) (2)、[2024-09](/archive/2024/09/) (2)、[2024-07](/archive/2024/07/) (1)

### [2023 年](/archive/2023/)
- 年度文章数: 3
- 月份概览: [2023-10](/archive/2023/10/) (2)、[2023-03](/archive/2023/03/) (1)
