# 分类：ai-systems

> 该分类下的文章按时间倒序排列，便于按主题继续深挖。

## 页面摘要
- 路径: /categories/ai-systems/page/54/
- 当前页: 54 / 75
- 文章总数: 5960
- 当前页文章数: 80

## 快速导航
- [首页](/)
- [分类索引](/categories/)
- [归档索引](/archive/)

## 本页文章
### [Chonky实现多语言语义分块：跨语言RAG的高效参数配置](/posts/2025/10/25/chonky-multilingual-semantic-chunking/)
- 日期: 2025-10-25T20:22:48+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解Chonky语义分块器在多语言场景下的阈值调优策略与跨语言嵌入模型选型，提供可落地的参数清单与性能监控方案。

### [Ubicloud低延迟AI推理配置指南：nftables与SPDK参数调优](/posts/2025/10/25/ubicloud-ai-inference-configuration-guide/)
- 日期: 2025-10-25T20:21:55+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解Ubicloud开源云平台中AI推理流水线的nftables动态负载均衡策略与SPDK存储层调优参数，提供可落地的超时阈值配置与监控清单。

### [Ubicloud低延迟AI推理调优：nftables与SPDK实战指南](/posts/2025/10/25/ubicloud-ai-inference-optimization-guide/)
- 日期: 2025-10-25T20:20:10+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解Ubicloud开源云平台中AI推理流水线的nftables动态负载均衡策略与SPDK存储层调优参数，提供可落地的超时阈值配置与监控清单。

### [Ubicloud AI Inference Engineering Guide: Practical nftables and SPDK Tuning](/posts/2025/10/25/ubicloud-ai-inference-engineering-guide/)
- 日期: 2025-10-25T20:18:33+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Actionable engineering parameters for optimizing AI inference latency in Ubicloud's open-source AWS alternative using nftables load balancing and SPDK storage configurations.

### [Ubicloud低延迟AI推理流水线：nftables动态负载均衡与SPDK存储调优实践](/posts/2025/10/25/ubicloud-ai-inference-optimization-deep-dive/)
- 日期: 2025-10-25T20:17:22+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解Ubicloud开源云平台中AI推理流水线的nftables动态负载均衡策略与SPDK存储层调优参数，提供可落地的超时阈值配置与监控清单。

### [Ubicloud低延迟AI推理流水线：nftables负载均衡与SPDK存储优化实践](/posts/2025/10/25/ubicloud-ai-inference-latency-optimization-guide/)
- 日期: 2025-10-25T20:15:15+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于Ubicloud开源架构，详解AI推理流水线中nftables动态负载均衡与SPDK存储层的低延迟调优参数，提供可落地的超时阈值与监控清单。

### [DeepAgent Desktop Architecture: Local LLM Execution Patterns](/posts/2025/10/25/deepagent-desktop-ai-architecture-guide/)
- 日期: 2025-10-25T17:52:42+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 解析DeepAgent桌面端本地LLM执行架构，提供硬件适配参数、延迟优化阈值与安全沙箱配置清单。

### [Architecting Low-Latency Desktop AI Agents: DeepAgent's Local Execution Patterns](/posts/2025/10/25/architecting-low-latency-desktop-ai-agents-deepagents-local-execution-patterns/)
- 日期: 2025-10-25T17:51:34+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 解析DeepAgent桌面端本地LLM执行架构，提供硬件适配参数、延迟优化阈值与安全沙箱配置清单。

### [Zero-Copy Memory Sharing: Modular Architecture for Real-Time Robotic AI Runtime](/posts/2025/10/25/zero-copy-memory-sharing-real-time-robotic-ai-runtime/)
- 日期: 2025-10-25T16:04:05+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过共享内存IPC实现机器人感知-决策-执行链路的零拷贝数据流转，解析OM1运行时中模块化组件的实时通信参数与硬件抽象层集成策略。

### [OM1 Robotics Zero Copy Implementation Guide](/posts/2025/10/25/om1-robotics-zerocopy-implementation/)
- 日期: 2025-10-25T16:00:49+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Step-by-step configuration of zero-copy memory sharing in OM1's modular robotics architecture with industrial validation metrics.

### [LTX-Video Realtime Optimization Guide](/posts/2025/10/25/ltx-optimization-guide/)
- 日期: 2025-10-25T15:59:27+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解LTX-Video模块化AI流水线中影响实时视频生成的关键参数配置，提供可落地的性能监控清单与风险规避策略。

### [OM1 Zero Copy Robotics Implementation Guide](/posts/2025/10/25/om1-zero-copy-robotics/)
- 日期: 2025-10-25T15:56:33+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Step-by-step configuration of zero-copy memory sharing in OM1's modular robotics architecture with industrial validation metrics.

### [OM1 Zero Copy Robotics Implementation](/posts/2025/10/25/om1-zerocopy-robotics/)
- 日期: 2025-10-25T15:55:09+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Production-validated configuration of zero-copy memory sharing in OM1's robotics architecture with industrial deployment metrics.

### [Modular Robotics AI Zero Copy Implementation](/posts/2025/10/25/modular-robotics-ai-zerocopy/)
- 日期: 2025-10-25T15:54:31+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Production-ready configuration of zero-copy memory sharing in OM1's robotics architecture with industrial validation metrics.

### [OM1 Robotics Zero Copy Implementation Guide](/posts/2025/10/25/om1-robotics-zero-copy-guide/)
- 日期: 2025-10-25T15:52:53+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Practical configuration of zero-copy memory sharing in OM1's modular robotics architecture with validated industrial deployment parameters.

### [OM1 Robotics Zero Copy Memory Sharing Guide](/posts/2025/10/25/om1-robotics-zerocopy-memory/)
- 日期: 2025-10-25T15:52:13+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Step-by-step implementation of zero copy memory sharing in OM1's modular robotics architecture with industrial validation metrics.

### [LTX-Video Realtime Optimization Strategies](/posts/2025/10/25/ltx-video-optimization-strategies/)
- 日期: 2025-10-25T15:51:07+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解LTX-Video模块化AI流水线中影响实时视频生成的关键参数配置，提供可落地的性能监控清单与风险规避策略。

### [OM1 Robotics Zero-Copy IPC Implementation Guide](/posts/2025/10/25/om1-robotics-zero-copy/)
- 日期: 2025-10-25T15:48:25+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Step-by-step configuration for zero-copy inter-process communication in OM1's modular robotics architecture, validated with industrial deployment metrics.

### [Realtime LTX-Video Pipeline Optimization Guide](/posts/2025/10/25/realtime-ltx-video-optimization-guide/)
- 日期: 2025-10-25T15:48:00+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解LTX-Video模块化AI流水线中影响实时视频生成的关键参数配置，提供可落地的性能监控清单与风险规避策略。

### [OM1 Modular AI Runtime with Zero-Copy IPC for Robotics](/posts/2025/10/25/om1-modular-ai-robotics-zero-copy-ipc/)
- 日期: 2025-10-25T15:46:45+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Practical implementation guide for zero-copy inter-process communication in OM1's robotics AI architecture, featuring production-tested parameters and validation protocols.

### [Modular AI Runtime for Robotics with Zero-Copy IPC](/posts/2025/10/25/modular-ai-runtime-robotics-zero-copy/)
- 日期: 2025-10-25T15:46:13+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Engineering implementation of zero-copy inter-process communication in OM1's modular robotics AI architecture, with production-ready configuration parameters.

### [Zero-Copy IPC Optimization in Modular Robotics AI Systems](/posts/2025/10/25/zero-copy-ipc-modular-robotics-ai-systems/)
- 日期: 2025-10-25T15:45:02+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Engineering guide to implementing zero-copy inter-process communication for real-time robotic workloads using OM1's modular architecture.

### [Zero-Copy Memory Sharing in Modular AI Runtimes for Real-Time Robotics](/posts/2025/10/25/zero-copy-memory-sharing-modular-ai-robotics/)
- 日期: 2025-10-25T15:42:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Explore how OM1's modular architecture leverages zero-copy IPC for real-time robotic perception and action, with actionable configuration parameters for deployment.

### [LTX-Video Realtime Tuning Strategies](/posts/2025/10/25/ltx-video-realtime-tuning-strategies/)
- 日期: 2025-10-25T15:41:06+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解LTX-Video模块化AI流水线中影响实时视频生成的关键参数配置，提供可落地的性能监控清单与风险规避策略。

### [LTX-Video Realtime Generation Tuning Guide](/posts/2025/10/25/ltx-tune/)
- 日期: 2025-10-25T15:26:31+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解LTX-Video模块化AI流水线中影响实时视频生成的关键参数配置，提供可落地的性能监控清单与风险规避策略。

### [LTX-Video Modular Pipeline Tuning Guide](/posts/2025/10/25/ltx-tuning-guide/)
- 日期: 2025-10-25T15:15:08+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解LTX-Video模块化AI流水线中影响实时视频生成的关键参数配置，提供可落地的性能监控清单与风险规避策略。

### [LTX-Video Realtime Optimization: Modular Pipeline Tuning Guide](/posts/2025/10/25/ltx-video-optimization-guide/)
- 日期: 2025-10-25T15:12:37+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解LTX-Video模块化AI流水线中影响实时视频生成的关键参数配置，提供可落地的性能监控清单与风险规避策略。

### [LTX-Video Realtime Tuning: Critical Parameters for Stable Video Generation](/posts/2025/10/25/ltx-video-realtime-tuning/)
- 日期: 2025-10-25T15:10:04+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解LTX-Video模块化AI流水线中影响实时视频生成的关键参数配置，提供可落地的性能监控清单与风险规避策略。

### [LTX-Video Modular Pipeline: Realtime Video Generation Tuning Parameters](/posts/2025/10/25/ltx-video-modular-pipeline-realtime-video-generation-tuning-parameters/)
- 日期: 2025-10-25T15:09:04+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解LTX-Video模块化AI流水线中影响实时视频生成的关键参数配置，提供可落地的性能监控清单与风险规避策略。

### [突破Transformer乘法学习瓶颈：自定义位置编码与递归自我提升实战](/posts/2025/10/25/breaking-transformer-multiplication-gap/)
- 日期: 2025-10-25T12:41:30+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过定制位置编码与递归自我提升策略，解决Transformer在多位数乘法任务中的泛化缺陷，提供工程化参数配置与监控清单。

### [使用 Parlant 模块化架构实现 LLM 代理的实时控制循环](/posts/2025/10/25/implementing-real-time-control-mechanisms-for-llm-agents-with-parlants-modular-architecture/)
- 日期: 2025-10-25T11:37:02+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 解析 Parlant 的确定性动作序列与模块化运行时，提供实时 LLM 代理控制的关键参数配置与故障回滚策略。

### [Parlant实现LLM智能体控制循环实践](/posts/2025/10/25/parlant-control/)
- 日期: 2025-10-25T11:28:48+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 解析Parlant模块化运行时架构如何实现LLM智能体确定性控制，提供经生产验证的参数配置方案。

### [Parlant实现LLM智能体实时控制机制：模块化架构与确定性动作序列实践](/posts/2025/10/25/parlant-llm-agent-control-loop-practice/)
- 日期: 2025-10-25T11:26:14+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 解析Parlant如何通过模块化运行时架构实现LLM智能体的确定性控制，提供可落地的参数配置与风险防控策略。

### [Parlant 实现 LLM 智能体实时控制机制：模块化架构与确定性动作序列实践](/posts/2025/10/25/parlant-llm-agent-real-time-control-mechanism/)
- 日期: 2025-10-25T11:25:40+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 解析 Parlant 如何通过模块化运行时架构实现 LLM 智能体的确定性控制，提供可落地的参数配置与风险防控策略。

### [用 Parlant 实现 LLM 智能体实时控制循环：模块化架构与确定性动作序列](/posts/2025/10/25/parlant-llm-agent-control-loop/)
- 日期: 2025-10-25T11:23:17+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 Parlant 如何通过模块化运行时架构和确定性动作序列实现 LLM 智能体的实时控制，提供可落地的参数配置与监控要点。

### [ChunkLLM：无需修改模型的分块推理管道加速技术](/posts/2025/10/25/chunk-based-inference-acceleration/)
- 日期: 2025-10-25T05:39:12+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过分块式推理管道设计，在不修改模型的前提下优化LLM推理延迟，详解Chunked Prefill技术参数与工程实践。

### [优化LLM推理的可插拔分块：张量分区策略与参数调优](/posts/2025/10/25/llm_chunking_optimization/)
- 日期: 2025-10-25T03:10:42+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过动态张量分区实现零模型修改的LLM推理加速，详解分块阈值、缓冲区管理及吞吐量监控方案。

### [亚10毫秒十亿级向量数据库延迟基准测试设计](/posts/2025/10/25/sub-10ms-latency-benchmarking-billion-scale-vectordb/)
- 日期: 2025-10-25T02:11:35+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过合成对抗性工作负载与可复现参数配置，实现十亿级向量数据库亚10毫秒延迟基准测试的关键工程实践。

### [ChunkLLM插件框架：模块化优化LLM推理延迟与内存占用的实践参数](/posts/2025/10/25/chunkllm-plugin-framework-practical-parameters/)
- 日期: 2025-10-25T00:35:02+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过插件热插拔机制与KV缓存策略优化，实现LLM推理延迟降低35%、内存占用下降28%的工程落地路径。

### [轻量级 LLM 部署的可插拔推理加速模块设计](/posts/2025/10/24/pluggable-llm-acceleration/)
- 日期: 2025-10-24T20:24:46+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过模块化设计实现推理加速技术的灵活组合，在边缘设备上达成 2-3 倍吞吐量提升的同时保持模型精度。

### [PyTorch 后训练量化与优化的工程化实践：TorchForge 工具链详解](/posts/2025/10/24/pytorch-post-training-optimization-torchforge/)
- 日期: 2025-10-24T17:21:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 PyTorch 原生工具链，解析 TorchForge 在后训练量化中的分布式参数配置与故障转移策略，附 GPU 资源阈值清单。

### [Designing ML Systems Labs with Real-World Tradeoffs in Distributed Training and Inference](/posts/2025/10/24/designing-ml-systems-labs-real-world-tradeoffs/)
- 日期: 2025-10-24T16:52:34+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 解析哈佛CS249r课程如何通过实验设计教授分布式训练与边缘推理中的工程权衡，提供可落地的教学参数清单。

### [Engineering Real-Time Metrics Aggregation for ML Library Popularity: Pipeline Design and Heuristics](/posts/2025/10/24/engineering-real-time-metrics-aggregation-for-ml-library-popularity/)
- 日期: 2025-10-24T16:51:40+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: How to build a dynamic metrics pipeline for ML library ecosystem monitoring using GitHub API heuristics, with actionable parameters for stability and scalability.

### [通过级联DCT变换实现多层盲水印：针对AI图像管道的压缩与裁剪鲁棒检测](/posts/2025/10/24/multi-layer-blind-watermarking-cascaded-dct-robustness/)
- 日期: 2025-10-24T13:46:53+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在AI图像生成管道中，利用级联DCT变换的多层盲水印嵌入策略，提升对压缩和裁剪攻击的鲁棒性，无需原图即可可靠提取。

### [Engineering Shared Memory for Multi-Claude Agent Systems](/posts/2025/10/24/engineering-shared-memory-multi-claude-agents/)
- 日期: 2025-10-24T13:32:06+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向多Claude代理系统，给出共享内存协议的工程化设计，包括同步访问、冲突解决和任务移交参数。

### [扩散LLM的无训练加速：内核蒸馏与渐进采样在边缘设备上的应用](/posts/2025/10/24/diffusion-llm-training-free-acceleration-kernel-distillation-progressive-sampling/)
- 日期: 2025-10-24T13:01:58+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 应用内核蒸馏和渐进采样技术，实现扩散LLM在边缘设备上3倍推理加速，无需模型重训练或质量损失。

### [LLM 对话上下文的 Git 式分支与合并实现](/posts/2025/10/24/git-style-branching-merging-for-llm-contexts/)
- 日期: 2025-10-24T12:47:42+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨在 LLM 会话中引入 Git 风格的分支和合并机制，实现多用户协作的多线程 AI 工作流，并包括冲突检测的工程实践。

### [Claude API 跨会话持久内存工程：检索增强存储、工具集成与状态管理](/posts/2025/10/24/engineering-claude-api-persistent-memory-retrieval-augmented-storage-tool-integration-state-management/)
- 日期: 2025-10-24T12:19:42+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在 Claude API 中实现跨会话持久内存，通过检索增强存储管理状态，集成工具支持可扩展代理工作流，提供工程参数和最佳实践。

### [在 Dyad 的 TypeScript 管道中实现持久化 Saga 编排：本地 AI 应用的容错执行](/posts/2025/10/24/implementing-durable-saga-orchestration-in-dyads-typescript-pipelines/)
- 日期: 2025-10-24T12:02:00+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨如何在 Dyad 框架中运用 Saga 模式实现本地 AI 工作流的耐久性，包括重试机制、状态检查点和离线恢复策略，确保无云依赖下的可靠执行。

### [实现动态令牌路由优化 MoE 负载均衡：5 倍加速工程实践](/posts/2025/10/24/implementing-dynamic-token-routing-for-5x-faster-moe-load-balancing/)
- 日期: 2025-10-24T11:32:24+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过动态令牌路由实现 MoE 负载均衡优化，提供 5 倍加速的工程参数与监控要点。

### [Claude 持久内存工具集成：实现有状态多轮代理工作流](/posts/2025/10/24/integrating-claudes-memory-tool-for-stateful-agent-workflows/)
- 日期: 2025-10-24T11:01:54+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨Claude的内存工具如何与工具调用结合，支持跨会话状态管理，实现无重置的多轮代理应用。提供API参数、示例和工程化建议。

### [使用 Sherpa-ONNX 构建 WebSocket 服务器实现实时双向 STT/TTS 流式处理](/posts/2025/10/24/building-websocket-servers-for-real-time-stt-tts-streaming-with-sherpa-onnx/)
- 日期: 2025-10-24T10:32:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 本文探讨如何利用 Sherpa-ONNX 的 ONNX 模型，通过 WebSocket 服务器构建低延迟的分布式语音应用，支持实时 STT 和 TTS 流式传输，无需互联网依赖。

### [通过 Sherpa-ONNX 在边缘设备上部署离线 STT 模型：实时转录与 ONNX 优化](/posts/2025/10/24/deploying-sherpa-onnx-offline-stt-models-on-edge-devices/)
- 日期: 2025-10-24T08:16:44+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向边缘设备，给出 Sherpa-ONNX 离线 STT 部署的工程化参数与多语言实时转录要点。

### [Sherpa-ONNX 在嵌入式系统上的离线 TTS 模型部署：低延迟与多说话人优化](/posts/2025/10/24/deploying-offline-tts-models-with-sherpa-onnx-on-embedded-systems-low-latency-and-multi-speaker-optimization/)
- 日期: 2025-10-24T08:06:34+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 使用 Sherpa-ONNX 在嵌入式设备上实现离线 TTS，聚焦低延迟合成、多说话人支持及资源优化策略。

### [AI发现的MoE负载均衡算法：实现5倍更快推理](/posts/2025/10/24/ai-discovered-moe-load-balancing/)
- 日期: 2025-10-24T08:02:23+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在MoE模型中实施AI发现的token路由和专家负载均衡，实现无准确性损失的5倍推理加速，提供优化参数和监控要点。

### [Sherpa-ONNX 中 VAD 与说话人分离集成：边缘设备低延迟多说话人处理](/posts/2025/10/24/integrating-vad-and-speaker-diarization-in-sherpa-onnx-for-low-latency-edge-processing/)
- 日期: 2025-10-24T05:32:23+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用 Sherpa-ONNX 的 VAD 和说话人分离功能，在边缘设备上实现实时多说话人识别，提供聚类算法、ONNX 优化和工程参数配置指南。

### [在嵌入式系统中部署 ONNX 源分离模型：实时多通道音频解纠缠优化](/posts/2025/10/24/deploying-onnx-source-separation-models-on-embedded-systems/)
- 日期: 2025-10-24T05:01:55+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用 Sherpa-ONNX 在嵌入式设备上实现实时音频源分离，聚焦模型量化与低延迟推理参数配置。

### [为 LLM 上下文构建 Git-like 版本控制：分支、合并与差异比较](/posts/2025/10/24/building-git-like-versioning-for-llm-contexts/)
- 日期: 2025-10-24T03:32:06+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向多轮对话状态管理，给出 Git-like 接口的工程实现与参数配置要点。

### [使用 Dyad 通过 TypeScript 管道搭建本地优先 AI 应用](/posts/2025/10/24/scaffolding-local-ai-apps-with-dyad-typescript-pipelines/)
- 日期: 2025-10-24T02:32:06+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Dyad 是一个开源工具，通过模块化 TypeScript 管道，帮助开发者快速搭建无需云依赖的本地 AI 应用。集成离线模型如 Ollama、React 状态管理和本地部署钩子，实现隐私优先的开发流程。

### [Claude API 中实现跨会话持久内存：保留用户事实与偏好](/posts/2025/10/24/implementing-cross-session-persistent-memory-in-claude-api/)
- 日期: 2025-10-24T02:17:10+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 Claude API 的 Memory Tool 如何实现跨会话持久化，高效检索用户数据以提升个性化，避免 token 限制。提供工程参数和最佳实践。

### [工程分布式AI推理管道：Google Earth高分辨率卫星图像分析与低延迟全球访问](/posts/2025/10/24/engineering-distributed-ai-inference-pipelines-for-google-earth/)
- 日期: 2025-10-24T01:31:47+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨Google Earth AI中分布式AI推理管道的设计，用于高分辨率卫星图像分析和交互3D可视化，重点通过边缘缓存实现全球低延迟访问的工程实践。

### [使用 Antislop 框架消除 LLM 输出中的重复模式](/posts/2025/10/24/antislop-framework-for-eliminating-repetitive-patterns-in-llm-outputs/)
- 日期: 2025-10-24T01:01:48+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 介绍 Antislop 框架，通过统计检测器识别并干预 LLM 输出中的重复 n-gram 模式，提升生成多样性，无需模型重新训练。

### [PyTorch Monarch 中的块对角低秩注意力优化：移动 NPU 高效注意力计算工程实践](/posts/2025/10/24/pytorch-monarch-block-diagonal-lowrank-attention-optimization/)
- 日期: 2025-10-24T00:16:59+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 深入剖析 PyTorch Monarch 矩阵的块对角近似与低秩因式分解技术，用于工程化融合内核，实现移动 NPU 上注意力机制的低延迟、高吞吐计算。涵盖参数配置、优化策略及潜在风险。

### [PyTorch Monarch 中的块对角低秩注意力优化](/posts/2025/10/24/engineering-fused-kernels-with-block-diagonal-lowrank-attention-in-monarch-matrices/)
- 日期: 2025-10-24T00:16:41+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 PyTorch Monarch 矩阵中块对角近似和低秩因式分解在高效移动 NPU 注意计算中的工程化融合内核实现，提供参数调优和监控要点。

### [PyTorch Monarch Mixer 在移动 NPU 上的边缘加速：融合内核与块对角近似工程](/posts/2025/10/23/engineering-fused-kernels-block-diagonal-approximations-monarch-mobile-npu/)
- 日期: 2025-10-23T23:47:05+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 针对 Monarch 矩阵操作，介绍融合内核设计与块对角近似方法，实现 PyTorch Mobile 部署中移动 NPU 上的 sub-10ms 推理优化。

### [使用 Sherpa-ONNX 构建嵌入式关键词 spotting 系统](/posts/2025/10/23/building-embedded-keyword-spotting-systems-with-sherpa-onnx/)
- 日期: 2025-10-23T23:32:27+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用自适应 VAD、模型量化和 IoT 微控制器集成，实现低延迟唤醒词检测。

### [基于 CRDT 的离线同步：Deta Surf 中使用 Yjs 和 ONNX Runtime 实现本地优先 AI 笔记本](/posts/2025/10/23/crdt-based-offline-sync-deta-surf-yjs-onnx-local-first-ai-notebook/)
- 日期: 2025-10-23T22:16:58+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 Deta Surf 如何通过 Yjs 的 CRDT 机制实现协作离线同步，并集成 ONNX Runtime 支持无云依赖的 AI 模型原型与实验。

### [使用 Sherpa-ONNX 在边缘设备上构建实时说话人分割管道](/posts/2025/10/23/real-time-speaker-diarization-sherpa-onnx-edge-vad-integration/)
- 日期: 2025-10-23T22:07:08+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向噪声音频的多说话人场景，给出 Sherpa-ONNX 实时说话人 diarization 管道的低延迟 VAD 集成、参数优化与监控要点。

### [Monarch 矩阵实现：块对角与低秩分解用于高效线性变换](/posts/2025/10/23/implementing-monarch-matrices-via-block-diagonal-and-low-rank-factorizations/)
- 日期: 2025-10-23T22:02:16+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过块对角加低秩分解实现 Monarch 矩阵，用于 ML 模型的参数高效线性变换，减少 FLOPs 和内存，支持边缘设备 Transformer 训练。

### [使用 ONNX Runtime Web、Yjs 和无锁入同步工程化离线 AI 笔记本](/posts/2025/10/23/engineering-offline-ai-notebooks-onnx-yjs-sync/)
- 日期: 2025-10-23T21:32:04+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨在 AI 笔记本中实现离线推理，使用 ONNX Runtime Web 运行本地模型，Yjs 基于 CRDT 的实时协作，以及无缝本地-云同步策略，避免供应商锁入。

### [Sherpa-ONNX 源分离与 VAD 在嵌入式系统中的实时多说话人解纠缠实现](/posts/2025/10/23/implementing-sherpa-onnx-source-separation-and-vad-for-real-time-multi-speaker-disentanglement-in-embedded-systems/)
- 日期: 2025-10-23T21:01:49+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向实时嵌入式系统，给出 Sherpa-ONNX 源分离、VAD 与低延迟梁形成集成的工程参数、监控要点及实施清单。

### [Transformer 中蝴蝶因子分解用于低秩注意力近似](/posts/2025/10/23/butterfly-factorization-low-rank-attention-in-transformers/)
- 日期: 2025-10-23T20:46:57+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨在Transformer中使用蝴蝶结构矩阵近似低秩注意力，实现大模型在消费级GPU上的内存优化训练，提供工程参数与实现要点。

### [在 PyTorch 中集成 Monarch 矩阵：Transformer 的结构化低秩近似优化](/posts/2025/10/23/integrate-monarch-matrices-pytorch-transformers/)
- 日期: 2025-10-23T19:31:52+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 Monarch 矩阵在 PyTorch 中的集成，用于 Transformer 的结构化低秩近似，优化大型模型训练的内存和计算效率，同时最小化准确性损失。

### [浏览器中集成 Fish Speech 与 SSE 实现实时多语言 TTS 流式输出](/posts/2025/10/23/integrate-fish-speech-with-sse-for-real-time-multilingual-tts-streaming-in-browser/)
- 日期: 2025-10-23T18:16:41+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 将 Fish Speech 扩散模型与 SSE 结合，在浏览器环境中实现低延迟多语言 TTS 流式合成，支持部分音频处理和连接重连。

### [构建电子书到有声书管道：零-shot语音克隆与多语言支持](/posts/2025/10/23/ebook-to-audiobook-pipeline-with-multi-language-voice-cloning/)
- 日期: 2025-10-23T17:46:45+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于ebook2audiobook，介绍零-shot语音克隆、多语言TTS管道的构建，包含语调转移、多说话者混合的参数配置与优化要点。

### [Gemini CLI 与 Shell 管道集成：上下文命令生成](/posts/2025/10/23/gemini-cli-shell-pipeline-integration/)
- 日期: 2025-10-23T17:16:45+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过将 Shell 输出管道输入 Gemini CLI，实现基于上下文的 AI 辅助命令生成，提升终端工作流效率，无需完整 REPL 状态管理。

### [Claude Cookbook：基于 Jupyter 的多步推理配方工程](/posts/2025/10/23/claude-cookbook-multi-step-reasoning-jupyter-recipes/)
- 日期: 2025-10-23T17:01:49+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 工程化 Jupyter 配方，用于 Claude API 工具调用、状态持久化和代理工作流中的错误处理，实现可重现的多步推理链。

### [Fish Speech 中非自回归扩散 Transformer 的工程实现：并行多语言 TTS 生成、VQ-VAE 标记化和边缘低延迟合成](/posts/2025/10/23/engineering-non-autoregressive-diffusion-transformers-fish-speech-parallel-multilingual-tts/)
- 日期: 2025-10-23T16:47:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 Fish Speech 中 DiT 架构的工程实践，支持并行多语言 TTS、VQ-VAE 令牌化和 RTF <0.2s 的低延迟合成。

### [Ovi 双骨干中令牌级同步：低延迟跨模态生成实现](/posts/2025/10/23/ovi-token-level-synchronization-in-twin-backbone-for-cross-modal-generation/)
- 日期: 2025-10-23T16:31:57+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 探讨 Ovi 模型中 token-level 同步机制，通过双 DiT 骨干的跨模态融合实现音频视频对齐，避免帧缓冲开销的工程参数与优化策略。

### [在 Parlant 中构建容错 LLM 代理用于边缘实时控制系统](/posts/2025/10/23/building-fault-tolerant-llm-agents-in-parlant-for-edge-real-time-control/)
- 日期: 2025-10-23T16:16:49+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用 Parlant 框架工程化容错 LLM 代理，聚焦模块化错误恢复、状态同步和边缘部署，实现可靠低延迟的实时控制操作。提供实用参数和监控要点。