# 分类：ai-systems

> 该分类下的文章按时间倒序排列，便于按主题继续深挖。

## 页面摘要
- 路径: /categories/ai-systems/page/55/
- 当前页: 55 / 75
- 文章总数: 5960
- 当前页文章数: 80

## 快速导航
- [首页](/)
- [分类索引](/categories/)
- [归档索引](/archive/)

## 本页文章
### [RAG系统中DeepSeek-OCR的混合像素-文本嵌入适应：精确子文档检索与幻觉减少](/posts/2025/10/23/adapting-deepseek-ocr-for-hybrid-pixel-text-embeddings-in-rag-systems/)
- 日期: 2025-10-23T16:01:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向视觉增强LLM的RAG应用，给出DeepSeek-OCR混合嵌入的集成策略、参数配置与监控要点。

### [Ovi 双骨干低延迟同步：帧对齐与缓冲管理工程实践](/posts/2025/10/23/engineering-low-latency-synchronization-in-ovis-twin-backbone-frame-alignment-and-buffer-management/)
- 日期: 2025-10-23T15:02:28+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 针对 Ovi 双骨干架构，工程化实现低延迟帧对齐和自适应缓冲管理，确保实时交互音视频生成的同步与稳定性。

### [Willow 芯片中表面码纠错的实现：阈值解码与逻辑量子比特参数](/posts/2025/10/23/implementing-surface-code-error-correction-in-willow-chip/)
- 日期: 2025-10-23T14:17:04+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 Willow 量子芯片中使用表面码和阈值解码创建逻辑量子比特，实现超越经典计算的容错操作的关键参数和监控要点。

### [使用 Fish Speech 实现零样本多语言语音克隆管道](/posts/2025/10/23/implementing-zero-shot-multilingual-voice-cloning-with-fish-speech/)
- 日期: 2025-10-23T14:06:35+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于扩散变换器构建低延迟、多语言 TTS 的零样本语音克隆管道，针对边缘设备优化，保留韵律并支持实时合成。

### [Ovi 双骨干低延迟同步工程化：实时跨模态音视频生成的无漂移融合](/posts/2025/10/23/engineering-low-latency-synchronization-in-ovis-twin-backbone/)
- 日期: 2025-10-23T13:31:49+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向实时跨模态音视频生成，剖析 Ovi 双骨干的低延迟同步机制，包括块级融合与时间对齐参数，确保无漂移融合。

### [Open Notebook 中多模态播客生成的 TypeScript 管道工程实践](/posts/2025/10/23/engineering-typescript-pipelines-multi-modal-podcast-generation-open-notebook/)
- 日期: 2025-10-23T13:17:00+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向开源 Notebook LM 实现，给出 TypeScript 管道工程从多模态来源笔记到音频播客生成的实践参数与要点。

### [Unity 中基于 Webcam 的头跟踪实现无眼镜 3D](/posts/2025/10/23/unity-webcam-head-tracking-for-glasses-free-3d/)
- 日期: 2025-10-23T12:17:48+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 本文探讨在 Unity 中使用 Webcam 进行实时头姿势估计，驱动视差屏障渲染，实现低延迟的无眼镜 3D 显示。提供工程化参数和优化建议。

### [使用 Jupyter 构建 Claude 多步推理链：工具调用与状态管理](/posts/2025/10/23/building-claude-multi-step-reasoning-chains-in-jupyter-tool-calls-and-state-management/)
- 日期: 2025-10-23T12:06:29+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在 Jupyter 中利用 Claude API 构建多步推理链，整合工具调用、状态管理和可视化，支持 AI agent 迭代实验。

### [Semantic Art：使用 CLIP 进行自然语言嵌入检索真实艺术品](/posts/2025/10/23/semantic-art-nl-embedding-retrieval/)
- 日期: 2025-10-23T11:16:56+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用 CLIP 模型嵌入自然语言提示，从未标记艺术图像数据库中通过余弦相似度排名检索匹配作品，提供工程参数与实现要点。

### [OVI中双骨干模型音频视频流同步工程实践：低延迟连贯多模态生成管道](/posts/2025/10/23/twin-backbone-synchronization-audio-video-ovi/)
- 日期: 2025-10-23T11:03:07+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向双骨干多模态生成，工程化音频视频同步机制，实现低延迟连贯输出管道的关键参数与策略。

### [Gemini CLI 中实现有状态 REPL：迭代代码执行与实时调试](/posts/2025/10/23/implement-stateful-repl-in-gemini-cli-for-iterative-code-execution/)
- 日期: 2025-10-23T10:32:20+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 Gemini CLI 的有状态 REPL 功能，支持迭代代码执行、工具链集成和实时调试，提升 AI 辅助开发工作流效率。提供配置参数、操作清单和最佳实践。

### [通过双骨干跨模态融合实现音频视频同步生成：Ovi 项目](/posts/2025/10/23/twin-backbone-cross-modal-fusion-for-audio-video-generation-in-ovi/)
- 日期: 2025-10-23T10:16:48+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向实时 AI 头像，探讨 Ovi 的双骨干跨模态融合技术，实现唇同步与手势对齐的工程参数与优化策略。

### [VortexNet 中实现涡度守恒的神经算子](/posts/2025/10/23/implementing-vorticity-conservation-in-vortexnet-neural-operators/)
- 日期: 2025-10-23T10:01:55+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在 VortexNet 中，通过神经算子实现涡度传输方程，用于物理信息视频预测模型中守恒角动量，提供工程参数和监控要点。

### [VortexNet：将流体力学融入神经网络用于时空视频预测](/posts/2025/10/23/vortexnet-fluid-dynamics-neural-networks-for-video-prediction/)
- 日期: 2025-10-23T09:16:45+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Navier-Stokes 方程的 VortexNet 架构，提供物理信息 CNN 替代，用于时空视频预测的稳定模拟层与工程参数。

### [LLM像素输入 vs 文本提取：DeepSeek-OCR提升文档解析效率的评估](/posts/2025/10/23/pixel-inputs-vs-text-extraction-for-llms-assessing-deepseek-ocr-for-document-parsing-efficiency/)
- 日期: 2025-10-23T08:01:54+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 比较像素输入与文本提取在LLM中的OCR功效，提供工程参数以优化文档解析和多模态效率。

### [ML 框架中硬件感知优化：边缘设备高效推理](/posts/2025/10/23/hardware-aware-optimizations-ml-frameworks-edge-inference/)
- 日期: 2025-10-23T07:46:56+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 CS249r 课程，探讨在 ML 框架中实现硬件感知优化，平衡量化、稀疏性和自定义加速器，以实现边缘设备高效推理。

### [VortexNet：基于流体动力学涡旋传播的神经网络层设计](/posts/2025/10/23/vortexnet-fluid-dynamics-nn/)
- 日期: 2025-10-23T07:31:48+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过涡旋粒子方法启发神经传播层，支持物理信息学习在模拟中的应用，无需传统PDE求解器。

### [VortexNet：基于流体动力学的神经传播模拟时空动态](/posts/2025/10/23/vortexnet-fluid-dynamics-neural-propagation/)
- 日期: 2025-10-23T07:16:39+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨VortexNet如何将流体动力学方程融入神经网络层，用于视频预测和物理建模中的时空传播模拟，提供工程参数和实现要点。

### [使用 Parlant 构建模块化 LLM 代理管道：实时控制系统中的状态管理和工具链](/posts/2025/10/23/building-modular-llm-agent-pipelines-for-real-time-control-systems/)
- 日期: 2025-10-23T07:01:35+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在工业自动化领域，利用 Parlant 框架构建 LLM 代理管道，实现高效的状态管理、工具链集成和容错决策，提升实时控制系统的可靠性。

### [实现非自回归扩散 Transformer 多语言 TTS：低延迟推理、语音克隆与边缘部署训练管道](/posts/2025/10/23/implement-non-autoregressive-diffusion-transformer-for-multilingual-tts-low-latency-voice-cloning-edge-deployment/)
- 日期: 2025-10-23T06:31:56+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Fish-Speech，介绍非自回归扩散 Transformer 在多语言 TTS 中的工程实现，强调低延迟推理优化、语音克隆机制及边缘设备训练管道的参数配置。

### [双骨干跨模态融合架构：Ovi 模型的音频视频同步生成工程实践](/posts/2025/10/23/twin-backbone-cross-modal-fusion-ovi-audio-video-synchronized-generation/)
- 日期: 2025-10-23T06:06:33+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Ovi 模型采用双骨干架构，通过潜在空间跨模态融合实现音频与视频的同步生成。文章探讨其工程设计、对齐优化及实时推理参数配置，提供部署清单与监控策略。

### [集成 Cuq 实现 Rust GPU 内核的并行安全验证](/posts/2025/10/23/integrating-cuq-for-parallel-safety-verification-in-rust-gpu-kernels/)
- 日期: 2025-10-23T05:01:53+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨如何集成 Cuq 框架对 Rust GPU 内核进行形式化验证，重点关注并行安全检查和计算着色器中的错误界限，以提升 AI 加速的可靠性。

### [利用 Helion DSL 在 PyTorch 中编写高性能可移植 ML 内核](/posts/2025/10/23/helion-dsl-portable-ml-kernels-pytorch/)
- 日期: 2025-10-23T04:17:08+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Helion DSL 提供 PyTorch 风格语法编写 ML kernels，自动优化跨 CPU/GPU backend，无需低级调优。介绍核心特性、autotuning 参数及部署清单。

### [使用 Dyad 构建本地 AI 应用的模块化 TypeScript 管道](/posts/2025/10/23/building-modular-typescript-pipelines-for-local-ai-apps-with-dyad/)
- 日期: 2025-10-23T02:17:06+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 以 Dyad 为 v0/Bolt 替代，构建模块化 TypeScript 管道，实现本地 AI 应用的模型服务、UI 生成与部署集成，提供工程化参数与监控要点。

### [非对角 SSM 在 RNN 中的并行计算：无需稳定化的新型矩阵公式](/posts/2025/10/23/non-diagonal-ssm-rnn-parallel-computation-stabilization-free/)
- 日期: 2025-10-23T02:01:53+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨非对角状态空间模型在 RNN 中的并行计算技术，通过结构化矩阵公式消除稳定化需求，实现高效可扩展的 AI 序列建模。

### [本地大模型量化加速与侧信道防御的性能安全权衡](/posts/2025/10/23/balancing-quantization-security-local-llms/)
- 日期: 2025-10-23T01:16:53+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨本地LLM量化技术如何提升推理速度，同时引入侧信道攻击风险如模型提取。分析内存加密和时序混淆等防御措施的参数配置与性能开销，提供工程化落地清单。

### [Engineering Modular TypeScript Pipelines for Local AI App Scaffolding](/posts/2025/10/23/engineering-modular-typescript-pipelines-for-local-ai-app-scaffolding/)
- 日期: 2025-10-23T00:46:51+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨使用 Dyad 工程化模块化 TypeScript 管道，实现本地 AI 应用 scaffolding，包括离线模型推理、动态 UI 生成和持久状态管理，支持无云快速原型开发。

### [Claude API 代理集成 Jupyter 配方工程：工具链、状态管理和错误恢复](/posts/2025/10/23/engineering-jupyter-recipes-for-claude-api-agent-integration-tool-chaining-state-management-and-error-recovery/)
- 日期: 2025-10-23T00:34:27+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过 Jupyter notebooks 实现 Claude API 在代理中的工程实践，涵盖工具链构建、状态管理、错误恢复及多轮推理的关键参数与工作流。

### [工程化机器学习系统：硬件-软件协同设计实现高效推理与分布式训练](/posts/2025/10/23/engineering-ml-systems-hardware-software-co-design-for-efficient-inference-and-distributed-training/)
- 日期: 2025-10-23T00:06:16+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨硬件-软件协同设计在机器学习系统中的应用，聚焦高效推理、数据移动优化以及可扩展分布式训练管道的工程实践与参数配置。

### [Willow芯片实现可扩展量子优势工程：表面码纠错与RCS基准](/posts/2025/10/22/engineering-scalable-quantum-supremacy-with-willow/)
- 日期: 2025-10-22T23:47:08+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Willow的105量子比特处理器通过表面码实现低于阈值纠错，逻辑保真度提升，并在随机电路采样中以5分钟完成超算需10^25年的任务，提供工程化参数与监控要点。

### [Transformer解码器中脉冲神经动态优化：事件驱动注意力和阈值适应用于能效边缘推理](/posts/2025/10/22/optimize-spiking-dynamics-transformer-decoder-energy-efficient-edge/)
- 日期: 2025-10-22T23:01:59+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 针对Transformer解码器的脉冲神经动态优化，介绍事件驱动注意力机制与自适应阈值神经元，实现边缘设备上的低功耗推理。

### [Dragon Hatchling：桥接Transformer与大脑模型的脉冲混合架构](/posts/2025/10/22/dragon-hatchling-spiking-transformer-hybrid/)
- 日期: 2025-10-22T22:46:51+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Dragon Hatchling (BDH) 融合脉冲神经网络与Transformer，实现离散令牌处理与连续脑-like动态的桥接，支持能量高效的序列建模与推理。

### [用脉冲神经动态替换Transformer注意力：面向能效的类脑LLM推理与训练](/posts/2025/10/22/replacing-transformer-attention-with-spiking-neural-dynamics-for-energy-efficient-brain-like-llm-inference-and-training/)
- 日期: 2025-10-22T21:47:13+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向能效优化的类脑LLM，通过脉冲神经替换注意力机制，给出工程参数与落地清单。

### [Parlant LLM 代理在控制系统中的模块化管道工程化](/posts/2025/10/22/engineering-modular-pipelines-for-parlant-llm-agents-in-control-systems/)
- 日期: 2025-10-22T21:02:05+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用 Parlant 框架构建可靠、可部署的 LLM 代理模块化管道，聚焦实时决策和容错编排，提供工程参数与监控要点。

### [Nvidia Starcloud 中分布式 GPU 调度与容错模型服务的工程实践](/posts/2025/10/22/engineering-distributed-gpu-scheduling-and-fault-tolerant-model-serving-in-nvidia-starcloud/)
- 日期: 2025-10-22T20:46:57+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向可扩展 AI 推理集群，探讨 Nvidia Starcloud 的分布式 GPU 调度机制、容错策略及工程化参数配置。

### [Fish Speech：非自回归扩散 Transformer 在多语言 TTS 中的工程实践](/posts/2025/10/22/fish-speech-non-autoregressive-diffusion-tts/)
- 日期: 2025-10-22T19:46:43+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向 SOTA 多语言 TTS，分析 Fish Speech 的非自回归扩散模型工程要点，包括低延迟推理参数和高保真合成策略。

### [工程化模块化管道：部署 LLM 代理于控制系统](/posts/2025/10/22/engineering-modular-pipelines-deployable-llm-agents-control-systems/)
- 日期: 2025-10-22T19:19:07+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 Parlant 框架如何构建模块化管道，实现 LLM 代理在控制系统中的实时编排、容错机制及零-shot 适应，适用于工业自动化场景，提供工程参数与监控要点。

### [构建非自回归扩散Transformer实现SOTA多语言TTS](/posts/2025/10/22/building-non-autoregressive-diffusion-transformer-for-sota-multilingual-tts/)
- 日期: 2025-10-22T19:01:53+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于语义token和flow matching，在10万小时数据上构建非自回归扩散Transformer，用于SOTA多语言TTS系统，提供工程化参数和落地指南。

### [Kyutai Mimi 神经音频编解码器的低延迟流式优化：自适应缓冲、帧预测与抖动补偿](/posts/2025/10/22/low-latency-streaming-optimization-in-kyutais-mimi-neural-audio-codec-adaptive-buffering-frame-prediction-and-jitter-compensation/)
- 日期: 2025-10-22T17:01:54+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 工程化 Kyutai Mimi 的流式低延迟传输，通过自适应缓冲、帧预测和抖动补偿，实现实时 LLM 音频摄取的无感知延迟。

### [Skyvern 中基于 LLM 的浏览器自动化错误检测与恢复](/posts/2025/10/22/llm-based-error-detection-and-recovery-in-skyvern-browser-automation/)
- 日期: 2025-10-22T16:46:58+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 工程化 Skyvern 中的错误恢复机制，使用 VLM 识别 UI 失败，LLM 执行回退动作，并通过验证确保动态 web 工作流鲁棒性。

### [Kyutai Mimi：低比特率下语义保真度的神经音频编解码工程](/posts/2025/10/22/kyutai-mimi-semantic-fidelity-at-low-bitrates/)
- 日期: 2025-10-22T16:16:46+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 工程化 Kyutai Mimi 以在超低比特率下维持语义内容，用于高效 LLM 集成和多模态音频分词化。

### [使用神经音频编解码器实现实时语义分词：直接馈入 LLM 的低延迟多模态处理](/posts/2025/10/22/real-time-neural-audio-codecs-for-semantic-tokenization-in-llms/)
- 日期: 2025-10-22T15:32:27+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨神经音频编解码器在实时语义分词中的应用，直接将音频 token 馈入 LLM，绕过传统 ASR，实现低延迟多模态处理。提供工程参数、延迟优化和边缘部署指南。

### [PaddleOCR PP-OCRv4 混合 CNN-Transformer 架构工程化：扫描文档弯曲手写文本检测与边缘优化](/posts/2025/10/22/engineering-pp-ocrv4-hybrid-cnn-transformer-architecture-for-curved-handwritten-text-detection-in-scanned-documents-with-edge-optimization/)
- 日期: 2025-10-22T15:17:02+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 PP-OCRv4 在扫描文档中处理弯曲和手写文本的混合 CNN-Transformer 架构，聚焦检测与识别优化，并提供动态量化及轻量推理的边缘部署参数与策略。

### [AutoLearn：自改进AI代理的模块化技能获取框架](/posts/2025/10/22/auto-learn-modular-skill-acquisition-for-self-improving-ai-agents/)
- 日期: 2025-10-22T14:16:42+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: AutoLearn框架使AI代理在运行时自主学习、组合和精炼技能，实现适应性任务解决。讨论工程参数与最佳实践。

### [Skyvern 中使用 YOLO 检测和 LLM 置信度阈值的闭环视觉反馈：动态动作纠正与错误恢复](/posts/2025/10/22/skyvern-vision-feedback-action-correction/)
- 日期: 2025-10-22T14:06:56+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在 Skyvern 浏览器自动化中，工程化闭环视觉反馈，使用 YOLO 检测 UI 元素并通过 LLM 置信度阈值实现动态动作纠正和错误恢复机制。

### [边缘推理的硬件感知机器学习优化](/posts/2025/10/22/hardware-aware-ml-optimizations-for-edge-inference/)
- 日期: 2025-10-22T13:34:48+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于CS249r指南，实现混合精度量化和缓存感知批处理等硬件优化，提升边缘设备ML推理效率。

### [电子书到有声书零-shot跨语言语音克隆端到端管道：章节感知自然叙述生成](/posts/2025/10/22/ebook-to-audiobook-zero-shot-voice-cloning-pipeline/)
- 日期: 2025-10-22T13:02:02+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用零-shot语音克隆、韵律转移和多说话者混合，实现电子书到有声书的端到端合成，支持1100+语言的自然章节叙述，提供工程化参数与优化要点。

### [ebook2audiobook 中的零样本跨语言语音克隆：韵律转移与多说话人融合](/posts/2025/10/22/zero-shot-cross-lingual-voice-cloning-prosody-transfer-multi-speaker-blending/)
- 日期: 2025-10-22T12:31:42+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用 XTTSv2 的零样本克隆功能，实现跨语言韵律转移和多说话人融合，工程化生成高质量多语言有声书。

### [Claude 多步代理工作流工程化：链式工具调用与状态管理](/posts/2025/10/22/claude-multi-step-agent-workflows/)
- 日期: 2025-10-22T12:20:18+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨使用 Claude API 构建自主多步推理代理的工程实践，包括工具链管理、状态持久化、错误恢复机制和 API 编排要点。

### [ChatGPT Atlas 中实时想法聚类与关系提取的工程实践：构建交互式知识地图](/posts/2025/10/22/chatgpt-atlas-real-time-idea-clustering/)
- 日期: 2025-10-22T12:06:18+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在 ChatGPT Atlas 中工程化实时想法聚类与关系提取，用于从用户输入构建交互知识地图，提供参数配置与监控要点。

### [Kyutai Mimi 神经音频编解码器与 LLM Token 条件音频解码集成](/posts/2025/10/22/integrating-kyutai-mimi-neural-audio-codec-with-llm-token-conditioning/)
- 日期: 2025-10-22T12:01:47+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨将 Kyutai Mimi 神经音频编解码器与 LLM token 条件集成，实现直接音频到 token 转换，支持低延迟多模态生成和实时语音合成。

### [Skyvern 中视觉反馈循环的工程实践：LLM 驱动浏览器自动化适应动态 UI](/posts/2025/10/22/skyvern-vision-feedback-loops/)
- 日期: 2025-10-22T11:16:44+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Skyvern 通过迭代视觉修正和代理反馈循环，适应动态网页变化，实现可靠的浏览器自动化。

### [Skyvern：多模态工作流编排实现自主浏览器自动化](/posts/2025/10/22/skyvern-multi-modal-workflow-orchestration/)
- 日期: 2025-10-22T10:06:17+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 Skyvern 如何利用 LLM 与 CV 模型协同编排多步浏览器工作流，包括动态适应机制、错误处理策略及外部 API 集成实践。

### [使用重放缓冲区和弹性权重整合缓解LLM中的灾难性遗忘](/posts/2025/10/22/mitigating-catastrophic-forgetting-in-llms-with-replay-buffers-and-ewc/)
- 日期: 2025-10-22T09:46:56+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在LLM持续微调过程中，通过重放缓冲区和EWC检测并缓解灾难性遗忘，保持跨任务知识完整性，提供工程参数与监控要点。

### [Engineering Modular TypeScript Pipelines in Open Notebook for Flexible Multi-Modal Sourcing](/posts/2025/10/22/engineering-modular-typescript-pipelines-in-open-notebook-for-flexible-multi-modal-sourcing/)
- 日期: 2025-10-22T08:46:43+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 Open Notebook 项目中如何利用模块化 TypeScript 管道实现灵活的多模态内容来源、扩展的 LLM 链式调用以及丰富的播客生成功能，作为开源 Notebook LM 替代方案的工程实践。

### [使用 ChatGPT 构建交互式知识图谱：实时想法聚类与关系提取](/posts/2025/10/22/building-interactive-knowledge-maps-with-chatgpt-real-time-idea-clustering-and-relation-extraction/)
- 日期: 2025-10-22T08:06:16+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用 LLM 驱动的提示链和图可视化技术，实现实时想法聚类、关系提取及协作知识探索的工程实践。

### [神经音频编解码器与 LLM 令牌条件化的集成：直接多模态音频处理](/posts/2025/10/22/integrating-neural-audio-codecs-with-llm-token-conditioning-for-direct-multimodal-audio-processing/)
- 日期: 2025-10-22T07:01:36+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过令牌化原始音频为语义单元，并条件化 LLM 层，实现无中间 ASR 的直接多模态处理。探讨工程化管道、参数配置与监控要点。

### [低比特率神经音频编解码器：优化语义保真度用于实时LLM摄取](/posts/2025/10/22/low-bitrate-neural-audio-codecs-for-semantic-fidelity-in-llm-systems/)
- 日期: 2025-10-22T06:46:45+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向边缘多模态系统，给出低比特率神经音频编解码器的设计参数与语义-感知权衡要点。

### [CVD 金刚石薄膜在多芯片let AI 加速器热界面材料中的工程化集成](/posts/2025/10/22/cvd-diamond-chiplet-heat-spreader-integration/)
- 日期: 2025-10-22T05:16:54+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向多芯片let AI 加速器的高功率热管理，使用 CVD 金刚石薄膜作为热界面材料，实现高效热扩散与低梯度温度控制。

### [在嵌入式设备上部署 Sherpa-ONNX 实现多语言离线 STT](/posts/2025/10/22/deploying-sherpa-onnx-for-multi-language-offline-stt-on-embedded-devices/)
- 日期: 2025-10-22T04:46:39+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨在 Raspberry Pi、iOS 和 Android 等嵌入式设备上使用 Sherpa-ONNX 部署离线多语言语音转文本，支持说话者分离和 VAD，提供工程化参数与优化要点。

### [LLM 脑腐：低质量训练数据导致性能衰退及选择性再训练缓解策略](/posts/2025/10/22/llm-brain-rot-data-quality-degradation/)
- 日期: 2025-10-22T04:33:57+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 LLM 训练数据质量诱发的脑腐现象，并给出选择性再训练的工程参数与风险监控。

### [在NVIDIA上暴力部署DeepSeek-OCR：Claude代码生成优化GPU推理，实现边缘实时OCR](/posts/2025/10/22/deploy-deepseek-ocr-nvidia-brute-force-claude-optimization-edge-real-time-ocr/)
- 日期: 2025-10-22T04:01:49+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用brute-force超参数调优和Claude AI辅助编码，在NVIDIA GPU上部署DeepSeek-OCR，实现高效文档解析。提供优化参数、监控要点，适用于边缘硬件实时OCR场景。

### [在 Skyvern 中集成 YOLO 实现实时 UI 元素检测](/posts/2025/10/22/integrate-yolo-for-real-time-ui-element-detection-in-skyvern/)
- 日期: 2025-10-22T03:31:42+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在 Skyvern 浏览器自动化框架中集成 YOLO 模型，用于从截图实时检测 UI 元素，支持 LLM 驱动的动作选择，适用于动态网站自动化。

### [使用 Sherpa-ONNX 工程化离线语音到文本管道：说话者分离、增强与 VAD](/posts/2025/10/22/engineering-offline-speech-to-text-pipelines-with-sherpa-onnx/)
- 日期: 2025-10-22T03:01:36+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨如何利用 Sherpa-ONNX 在嵌入式系统、移动设备和服务器上构建离线 STT、说话者分离、语音增强和 VAD 管道，提供关键参数和部署指南。

### [端到端电子书合成管道：解析、克隆与多语言TTS集成](/posts/2025/10/22/end-to-end-ebook-synthesis-pipeline/)
- 日期: 2025-10-22T02:31:53+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 工程化Python工作流，实现电子书解析、章节分割、零-shot语音克隆及多说话人TTS集成，离线生成1100+语言自然有声书。

### [二元RAG奖励模型在幻觉缓解中的应用](/posts/2025/10/22/binary-rag-reward-for-hallucination-mitigation/)
- 日期: 2025-10-22T02:01:49+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 将二元检索增强机制集成到奖励模型中，用于LLM生成管道中的精确幻觉检测与缓解，提供工程参数与监控要点。

### [工程化 Clink CLI 代理的模块化流水线：即时部署与生产集成](/posts/2025/10/22/engineering-modular-pipelines-for-clink-cli-agents-instant-shipping/)
- 日期: 2025-10-22T00:31:54+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Clink 通过 CLI AI agents 实现自定义代理的即时生产部署，提供 modular pipelines 支持 runtime execution 和开发者工作流无缝集成。

### [LLM 推理时性能退化：上下文过载与注意力稀释的工程解决方案](/posts/2025/10/22/llm-inference-time-degradation-context-overload-and-attention-dilution-solutions/)
- 日期: 2025-10-22T00:01:48+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 分析 LLM 在延长会话中因上下文过载和注意力稀释导致的性能衰退机制，并提供周期性状态重置、动态上下文修剪等工程策略，以实现持续可靠的推理性能。

### [工程化零样本跨语言语音克隆：韵律转移与多说话者混合生成自然有声书](/posts/2025/10/21/cross-lingual-voice-blending-engineering/)
- 日期: 2025-10-21T23:50:19+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用 OpenVoice TTS 管道，从 EPUB 生成自然有声书，实现跨语言语音克隆、韵律转移及多说话者声音混合，提供工程参数与监控要点。

### [工程化 Kyutai 的 Mimi 编解码器：用于 LLM 的低比特率音频压缩](/posts/2025/10/21/engineering-kyutais-mimi-codec-for-low-bitrate-audio-compression-in-llms/)
- 日期: 2025-10-21T22:31:40+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向 LLM 音频输入，给出 Mimi 编解码器的低比特率 lossy 压缩工程实践与感知质量优化参数。

### [工程化紧凑神经音频编解码器嵌入 LLM 令牌序列](/posts/2025/10/21/engineering-compact-neural-audio-codecs-for-llm-integration/)
- 日期: 2025-10-21T22:16:35+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Mimi 模型，探讨将 raw 音频流直接转换为离散令牌嵌入 LLM 的工程参数、实现清单与监控要点。

### [Kyutai Mimi：LLM 神经音频编解码器](/posts/2025/10/21/kyutai-mimi-neural-audio-codec-for-llms/)
- 日期: 2025-10-21T21:18:23+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 介绍 Kyutai Mimi 神经音频编解码器，用于将语音编码为 LLM 可摄取的 discrete 表示，焦点在低延迟参数与集成要点。

### [将 BERT 作为单步扩散解码器集成到文本去噪中：NLP 管道优化](/posts/2025/10/21/integrating-bert-as-single-step-diffusion-decoder-for-text-denoising/)
- 日期: 2025-10-21T20:47:02+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 BERT 在单步扩散模型中的应用，实现高效文本去噪与低延迟嵌入反转，优化自回归生成过程。

### [Dyad 本地 AI 应用构建器的模块化 TypeScript 管道工程](/posts/2025/10/21/engineering-modular-typescript-pipelines-for-dyad-local-ai-app-builder/)
- 日期: 2025-10-21T20:01:52+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 Dyad 如何通过模块化 TypeScript 管道实现 prompt-to-UI 工作流，支持开源模型的无云隐私开发。

### [工程化端到端机器学习系统：哈佛 CS249r 课程洞见](/posts/2025/10/21/engineering-end-to-end-ml-systems-harvard-cs249r/)
- 日期: 2025-10-21T19:16:49+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于哈佛 CS249r 课程，探讨 ML 系统从硬件到部署的全栈工程实践，包括数据管道优化和分布式训练参数。

### [在标量自动求导引擎中实现拓扑排序用于反向传播调度](/posts/2025/10/21/implementing-topological-sort-for-backprop-in-scalar-autograd/)
- 日期: 2025-10-21T18:32:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 micrograd 中使用拓扑排序调度动态计算图的反向传播，支持无向量化基本神经网络训练的工程实现要点。

### [Skyvern 中 LLM 与计算机视觉的整合：低上下文浏览器自动化](/posts/2025/10/21/skyvern-low-context-browser-automation/)
- 日期: 2025-10-21T18:16:36+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用视觉提示和行动链，实现对动态 UI 的自适应自动化，提供参数配置与监控要点。

### [大规模 RAG 摄取管道：处理 500 万+ 文档的 MinHash LSH 去重、语义分块与质量过滤](/posts/2025/10/21/scalable-rag-ingestion-minhash-lsh-deduplication-semantic-chunking/)
- 日期: 2025-10-21T18:01:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 针对 RAG 系统大规模文档摄取，提供 MinHash LSH 去重、语义分块及质量过滤的工程参数与优化策略，提升检索相关性并避免重复计算。

### [Skyvern 中视觉-语言-动作模型的工程化：动态网页导航与零样本自动化](/posts/2025/10/21/engineering-vision-language-action-models-skyvern-dynamic-web-navigation/)
- 日期: 2025-10-21T16:16:38+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Skyvern 框架，探讨视觉-语言-动作模型在动态网页导航中的工程实现，支持无固定 UI 选择器的多模态推理任务自动化。

### [LeRobot 硬件无关策略转移](/posts/2025/10/21/lerobot-hardware-agnostic-policy-transfer/)
- 日期: 2025-10-21T16:06:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 LeRobot 扩散策略中共享潜在表示的工程化，实现跨硬件零-shot 转移的关键参数与部署要点。