# 分类：ai-systems

> 该分类下的文章按时间倒序排列，便于按主题继续深挖。

## 页面摘要
- 路径: /categories/ai-systems/page/38/
- 当前页: 38 / 75
- 文章总数: 5960
- 当前页文章数: 80

## 快速导航
- [首页](/)
- [分类索引](/categories/)
- [归档索引](/archive/)

## 本页文章
### [用 Python 零拷贝 Buffers 构建 VibeVoice 实时多说话人分离管道](/posts/2025/12/08/vibevoice-multi-speaker-realtime-diarization-pipelines/)
- 日期: 2025-12-08T05:01:37+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 VibeVoice 实时 TTS，结合 pyannote-audio 实现零拷贝实时多说话人分离，支持流式推理低延迟语音 AI，详述阈值调优、端到端优化参数与监控清单。

### [Python 实时多说话人分离管道工程：融合 VAD、说话者嵌入与零拷贝缓冲低延迟推理](/posts/2025/12/08/realtime-multi-speaker-diarization-zero-copy-buffers-python/)
- 日期: 2025-12-08T04:07:13+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 工程化 Python 实时多说话人 diarization 管道，融合 VAD、speaker embedding、streaming 推理，使用零拷贝缓冲实现低延迟 voice AI，支持 VibeVoice 等合成前端。

### [嵌套学习：生产系统中无重训增量持续学习模型层次](/posts/2025/12/08/nested-learning-for-incremental-continual-learning/)
- 日期: 2025-12-08T03:46:58+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 工程嵌套模型层次，实现生产AI增量持续学习，避免全重训与灾难性遗忘，提供关键参数、监控与部署清单。

### [VibeVoice 实时多说话人分离：低延迟 VAD 与 Diarization Python 流水线实现](/posts/2025/12/08/vibevoice-multi-speaker-diarization-streaming/)
- 日期: 2025-12-08T02:07:13+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 VibeVoice 低延迟语音 AI，集成 Silero VAD 与 pyannote 实现实时多说话人分离的关键参数、阈值与监控策略。

### [Titans 混合架构：滑动窗口注意力与神经长期记忆实现 AI 长时记忆](/posts/2025/12/08/titans-hybrid-long-term-memory-architecture/)
- 日期: 2025-12-08T02:01:54+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Titans 通过滑动窗口注意力捕捉短期依赖，神经长期记忆模块基于惊喜度量动态更新参数，实现超 200 万 token 上下文的高效长时记忆工程参数与部署要点。

### [利用 GPTZero 扩展学术引用幻觉检测：arXiv 嵌入相似度和 DOI 交叉验证在会议投稿中的应用](/posts/2025/12/08/scaling-gptzero-hallucination-detection-academic-citations/)
- 日期: 2025-12-08T01:01:54+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 针对会议投稿批处理，介绍 GPTZero Citation Checker 通过嵌入相似度匹配 arXiv/Scholar 和 DOI 验证大规模检测 LLM 生成学术引用幻觉的工程参数、阈值设置与审稿流程优化要点。

### [Foundry Local 的 Svelte 前端：离线 AI 模型管理与流式推理界面](/posts/2025/12/08/foundry-local-svelte-local-ai-ui/)
- 日期: 2025-12-08T00:32:42+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Foundry Local 的 OpenAI 兼容 API，用 Svelte 构建本地 AI 管理与聊天 UI，支持模型下载、硬件优化和流式输出。

### [Activepieces：集成 400+ MCP 服务器，实现多 LLM AI 代理工作流自动化](/posts/2025/12/07/activepieces-mcp-servers-ai-workflow-integration/)
- 日期: 2025-12-07T22:47:24+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用 Activepieces 开源平台，将 280+ pieces 转化为 MCP servers，支持多 LLM AI 代理在自动化管道中的编排，提供部署配置、开发清单与监控参数。

### [Titans KV 系统：AI 代理访问 PB 级长期记忆的 learned 索引与检索](/posts/2025/12/07/titans-kv-learned-indexing-retrieval-ai-long-term-memory/)
- 日期: 2025-12-07T22:01:42+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 剖析 Titans 的 KV-like 记忆架构，利用 surprise-based learned indexing 和 retrieval，实现 AI 代理高效访问 PB 级长期记忆的关键参数、阈值与工程实践。

### [PAL MCP 服务器：统一多 LLM 代理编排与共享上下文](/posts/2025/12/07/pal-mcp-server-multi-llm-unification/)
- 日期: 2025-12-07T21:01:47+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 MCP 协议的 PAL 服务器，实现 Claude Code/GeminiCLI 等工具与 OpenAI/Ollama/Grok 的无缝集成，支持多模型协作、子代理桥接与上下文连续性。

### [从 500+ 开源项目提炼生产级 AI Agent 工程模式](/posts/2025/12/07/production-ai-agents-engineering-patterns-from-500-oss-projects/)
- 日期: 2025-12-07T20:07:02+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 针对医疗、金融、零售、教育领域，从 500+ OSS AI Agent 项目中，总结多代理协作、工具集成与容错机制等工程模式，提供生产部署参数与监控要点。

### [工程化开源 NotebookLM：本地文档 RAG、自定义 LLM 集成与结构化播客生成](/posts/2025/12/07/open-notebook-notebooklm-open-source-engineering-rag-llm-podcast/)
- 日期: 2025-12-07T19:47:20+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 open-notebook 项目，详解本地多模态 RAG 实现、多提供商 LLM 适配，以及 TTS 驱动的多文档播客合成工程参数与部署清单。

### [使用 Coral TPU/TensorRT 构建 Frigate 实时本地对象检测 NVR](/posts/2025/12/07/frigate-realtime-local-object-detection-nvr-coral-tpu-tensorrt/)
- 日期: 2025-12-07T19:31:08+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Frigate 开源框架，利用边缘 ML 在 IP 摄像头流上实现低延迟对象检测、运动蒙版过滤与事件剪辑的完整工程配置与优化参数。

### [PAL MCP Server：多模型代理编码统一接口与工作流编排](/posts/2025/12/07/pal-mcp-server-multi-model-orchestration/)
- 日期: 2025-12-07T19:16:36+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过单一 MCP 接口集成 Claude、Gemini、Ollama 等模型，实现 agentic coding 的多模型无缝切换与链式协作，提供 clink 子代理、codereview 等工具的参数配置与落地指南。

### [TypeScript 开源 Opencode：终端 AI 编码代理的工程部署与多步工作流](/posts/2025/12/07/engineering-deployable-typescript-opencode-ai-coding-agent/)
- 日期: 2025-12-07T19:01:36+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 SST Opencode，详解终端 AI 编码代理的 TypeScript 部署实践，包括多模型集成、agent 工作流、工具权限与 dev tools 集成参数。

### [VibeVoice 多说话人流式语音合成低延迟工程管道](/posts/2025/12/07/vibevvoice-multi-speaker-streaming-voice-ai/)
- 日期: 2025-12-07T18:07:37+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 微软开源 VibeVoice 框架，支持多说话人长形式流式 TTS，首块语音延迟约 300ms，给出 Python 部署参数、推理优化与监控清单。

### [Oxide 机架级系统中 LLM 可观测性集成：日志分析与舰队自动化](/posts/2025/12/07/llm-observability-in-oxide-rackscale-systems/)
- 日期: 2025-12-07T16:32:25+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在 Oxide illumos/Hubris 环境中，利用自定义提示和工具集成 LLM 进行日志解析、调试和舰队自动化，提供工程参数与监控要点。

### [使用 Foundry 工程化 Rosetta 生物分子模型的共享训练器基础设施](/posts/2025/12/07/engineering-shared-trainers-in-foundry-for-rosetta-biomolecular-models/)
- 日期: 2025-12-07T16:17:12+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Foundry 的模块化共享训练器，支持 Rosetta 集成的生物分子基础模型训练管道，提供组件配置、训练参数与监控要点。

### [ai-engineering-hub 仓库实战：Jupyter 驱动的生产级 RAG 管道构建](/posts/2025/12/07/ai-engineering-hub-production-rag-pipelines-jupyter/)
- 日期: 2025-12-07T16:01:38+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用 ai-engineering-hub Jupyter 笔记本，实现生产级 RAG：混合检索、多代理编排、工具集成与评估框架的具体工程参数与落地清单。

### [工程化部署 LLM Agent：RAG 混合架构、工具集成、多代理与评估框架](/posts/2025/12/07/engineering-deployable-llm-agents-rag-tool-multi-evals/)
- 日期: 2025-12-07T15:46:45+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 ai-engineering-hub，详解生产级 LLM Agent 部署，包括代理化 RAG、CrewAI 工具集成、多代理协作及 Opik 评估实践，提供可落地参数与清单。

### [RAG管道生产模式：混合检索、代理编排与评估扩展](/posts/2025/12/07/rag-pipeline-production-patterns-hybrid-retrieval-agent-orchestration/)
- 日期: 2025-12-07T14:01:34+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于AI工程中心仓库，探讨RAG管道从教程到生产系统的工程模式，包括混合检索、代理协调、评估框架和LLM应用扩展策略。

### [VibeVoice 低延迟实时语音管道工程实践](/posts/2025/12/07/vibevvoice-low-latency-voice-pipelines/)
- 日期: 2025-12-07T12:16:51+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于微软 VibeVoice-Realtime-0.5B，工程化 Python 高性能实时语音管道：流式 STT、LLM 推理与 TTS 合成，低延迟流式参数与监控要点。

### [HRM：构建LLM多层级推理链的递归架构与工程实践](/posts/2025/12/07/hrm-multi-level-reasoning-chains/)
- 日期: 2025-12-07T12:06:58+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于HRM的分层递归模型，实现复杂任务分解与推理链编排，提供训练参数、动态深度控制与监控要点。

### [VibeVoice 低延迟实时语音推理优化：流式 Token 处理与多模型融合](/posts/2025/12/07/vibevvoice-low-latency-voice-inference/)
- 日期: 2025-12-07T11:46:34+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 剖析 VibeVoice Realtime 模型的低延迟 token 流式机制与 LLM-Diffusion 多模型融合，提供实时语音推理栈的工程参数、部署清单与监控策略。

### [Claude Quickstarts：工具调用、结构化输出、RAG管道与代理编排模板实战](/posts/2025/12/07/claude-quickstarts-tool-calling-structured-outputs-rag-agents/)
- 日期: 2025-12-07T09:46:20+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Anthropic 官方 Claude Quickstarts 模板，快速构建支持工具调用、结构化输出、RAG 和代理编排的可部署 Claude API 应用，提供工程化参数、部署清单与监控要点。

### [Oxide 机架级系统中的 LLM 集成：可观测性、调试与舰队自动化实践](/posts/2025/12/07/integrating-llms-into-oxide-rackscale-systems-for-observability/)
- 日期: 2025-12-07T09:31:14+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过自定义提示和工具调用，将 LLM 集成到 Oxide rack-scale 系统，用于日志分析、故障调试和自动化运维，提供具体参数与落地清单。

### [编排 Claude 的持续代码迭代循环：反馈、错误处理与精炼实践](/posts/2025/12/07/orchestrating-claude-in-iterative-code-loops-feedback-error-handling-refinement/)
- 日期: 2025-12-07T07:01:32+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过持久反馈循环编排 Claude，实现代码迭代、错误处理和精炼，模拟人类开发实践，提供工程参数和监控要点。

### [Gemini 3 Pro 融合视觉编码器实现长视频百万 Token 分析](/posts/2025/12/07/gemini-3-pro-fused-vision-encoder-long-video/)
- 日期: 2025-12-07T06:01:10+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Gemini 3 Pro 通过融合视觉编码器支持长视频 1M token 处理与 agentic 推理，详述工程参数、监控要点与集成清单。

### [Zebra-Llama 混合模型：dense 与 MoE 层融合的高效推理路由优化](/posts/2025/12/07/zebra-llama-hybrid-models-efficient-inference/)
- 日期: 2025-12-07T05:16:22+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Zebra-Llama 风格的混合 LLM 设计，交替使用稠密层与 MoE 层，实现高效推理，详解路由机制、负载均衡与计算优化参数。

### [Flash Attention 2 加速 Z-Image S3-DiT 6B 推理：16G VRAM 部署调优与监控](/posts/2025/12/07/flash-attention-vram-optimization-for-z-image-s3-dit/)
- 日期: 2025-12-07T05:01:18+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Z-Image Turbo 6B 模型在 16G VRAM 下实现 8 步亚秒生成，详解 Flash Attention 集成、参数调优、资源阈值与生产监控要点。

### [Foundry 中共享训练器与模块化管道组件的工程实践：生物分子基础模型训练](/posts/2025/12/07/shared-trainers-modular-pipelines-foundry/)
- 日期: 2025-12-07T04:16:46+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 RosettaCommons Foundry 项目，工程化共享训练器和模块化管道组件，支持 RFD3、RF3 等模型的可扩展训练，提供开发配置、参数调优与监控策略。

### [通过软件探针解码TPU内部性能：脉动阵列利用率与XLA优化](/posts/2025/12/07/tpu-software-probing-systolic-array-insights/)
- 日期: 2025-12-07T01:47:30+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于TPU Profiler和XLA工具，提供软件级性能剖析方法，识别推理瓶颈并给出工程化参数。

### [Z-Image：6B参数高效图像生成模型的工程化优化](/posts/2025/12/07/z-image-6b-efficient-generation/)
- 日期: 2025-12-07T01:31:53+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过单流扩散Transformer（S3-DiT）架构与Decoupled-DMD蒸馏，Z-Image Turbo实现8步推理下16G VRAM亚秒级生成。提供部署参数、Flash Attention优化及资源监控要点。

### [Python 高性能 VibeVoice 语音 AI 管道：实时音频生成与推理优化](/posts/2025/12/07/vibevvoice-high-performance-python-voice-ai-pipelines/)
- 日期: 2025-12-07T00:01:47+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Microsoft VibeVoice 开源框架，用 Python 构建高性能实时语音生成管道，包括安装、推理参数与实时流式优化要点。

### [动手探针 TPU 硬件：开盖与芯片内部剖析](/posts/2025/12/06/hands-on-tpu-hardware-probing-decapping-and-die-analysis/)
- 日期: 2025-12-06T22:46:38+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 绕过黑盒文档，通过 decapping 和显微镜揭开 TPU 内部架构，提供安全参数、步骤清单与逆向要点。

### [AI工程中心实战提炼：LLM管道、RAG混合检索、Agent编排与评估框架](/posts/2025/12/06/production-patterns-for-llm-rag-agents-from-ai-engineering-hub/)
- 日期: 2025-12-06T22:31:54+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从真实AI应用中提炼生产模式，给出LLM流水线、混合RAG、Agent协作及评估的工程参数与最佳实践。

### [ai-engineering-hub实战：生产RAG Agent的混合检索链、编排与评估框架](/posts/2025/12/06/implement-production-rag-agents-hybrid-search-orchestration-eval/)
- 日期: 2025-12-06T22:07:12+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于ai-engineering-hub仓库Jupyter示例，实现生产级RAG：混合搜索提升召回、Agent编排路由查询、Opik评估框架监控准确性，提供工程参数与清单。

### [LLM工程实战：RAG检索优化、多代理协作与生产部署Pipeline落地指南](/posts/2025/12/06/rag-agent-production-engineering-guide/)
- 日期: 2025-12-06T21:17:05+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于AI Engineering Hub项目，详解RAG检索优化、多代理协作架构及生产部署pipeline的工程参数、监控要点与落地清单。

### [AI工程枢纽：生产级RAG管道与Agent编排模式](/posts/2025/12/06/rag-agent-scalable-pipelines/)
- 日期: 2025-12-06T20:47:09+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从AI Engineering Hub真实教程中提炼可扩展RAG管道、混合检索和代理编排模式，提供工程参数、阈值和生产部署清单。

### [Claude Quickstarts 生产就绪模板：工具调用、结构化输出与 RAG Agent 集成指南](/posts/2025/12/06/claude-quickstarts-production-templates-tool-calling-structured-outputs-rag-agents/)
- 日期: 2025-12-06T20:01:47+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用 Anthropic 官方 Claude Quickstarts 的 Python/Node 模板，快速构建集成工具调用、结构化输出、RAG 和 Agent 的生产级 AI 应用，提供详细部署参数、优化清单与监控要点。

### [HRM分层推理模型工程实践：任务分解与复杂求解参数指南](/posts/2025/12/06/engineering-hierarchical-reasoning-model-hrm-for-task-decomposition/)
- 日期: 2025-12-06T19:31:18+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 工程化HRM分层架构，实现单pass复杂推理：高层规划、低层执行的参数配置与监控要点。

### [Foundry：构建生物分子基础模型的统一训练器与管道组件](/posts/2025/12/06/foundry-biomolecular-foundation-models-pipeline/)
- 日期: 2025-12-06T19:01:11+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Foundry 提供共享训练器和管道组件，支持蛋白质设计、折叠与逆折叠模型，实现生物分子 AI 的高效工程化部署。

### [检测 YouTube AI 视频编辑与误导性摘要：内容管道完整性保障](/posts/2025/12/06/detecting-youtube-ai-video-edits-and-misleading-summaries/)
- 日期: 2025-12-06T11:16:18+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 介绍检测 YouTube 未披露 AI 视频编辑和生成摘要的技术方法与工程参数，确保内容审核管道的可靠性。

### [自托管 Immich 照片库：Docker 部署、手机自动同步、ML 人脸对象检测与存储分片](/posts/2025/12/06/self-hosting-immich-docker-setup-ml-sync-storage/)
- 日期: 2025-12-06T10:46:57+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Immich 开源照片管理平台 Docker 一键部署，支持手机自动备份、机器学习人脸/对象识别，以及高效存储分片模板配置，实现私有化高效照片库。

### [Next.js 集成 AI 驱动 draw.io：自然语言命令图表编辑实现](/posts/2025/12/06/next-ai-draw-io-natural-language-diagram-editing/)
- 日期: 2025-12-06T10:06:51+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Next AI Draw.io，解析自然语言命令生成/修改 draw.io XML 的核心机制、模型参数与部署清单，支持多云架构图高效可视化。

### [Gemini 3 Pro 融合视觉编码器：1M Token 视频分析与代理视觉推理工程实践](/posts/2025/12/06/gemini-3-pro-fused-vision-encoder-1m-video-analysis-agentic-reasoning/)
- 日期: 2025-12-06T04:05:41+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Gemini 3 Pro 的融合视觉编码器实现原生多模态处理，支持 1M Token 长视频分析、图表解读、密集文档 OCR 及视觉代理推理，提供工程化 API 配置与监控参数。

### [VibeVoice 开源 Python 语音 AI 流水线：实时合成与管道集成](/posts/2025/12/05/vibevoice-open-source-python-voice-ai-pipelines/)
- 日期: 2025-12-05T22:08:52+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Microsoft VibeVoice 在 Python 中构建实时 TTS 流水线，支持长对话多说话人合成，提供安装、推理参数与 ASR 多模态整合要点。

### [动手实现 Microsoft ML-For-Beginners 的 26 个经典 ML 练习与测验：回归、聚类、NLP 等](/posts/2025/12/05/implementing-ml-for-beginners-26-quizzes-regression-clustering-nlp/)
- 日期: 2025-12-05T17:16:35+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Microsoft 开源课程，从初学者到中级，指导实现回归、分类、聚类、NLP、时间序列等 26 个核心 ML 练习，包含测验、代码参数与优化清单。

### [Rust 实现的 Codex CLI 终端代理架构：无状态 API 循环与无 DB 会话持久化](/posts/2025/12/05/rust-codex-cli-agent-architecture-stateless-tool-calling-persistence/)
- 日期: 2025-12-05T16:07:48+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 剖析 OpenAI Codex CLI Rust 架构，聚焦无状态循环、工具调用集成及本地持久化，实现低延迟编辑的工程参数与监控。

### [Claude Code 多代理编排工具包：wshobson/agents 的终端自动化实践](/posts/2025/12/05/claude-code-multi-agent-orchestration-agents-toolkit/)
- 日期: 2025-12-05T15:31:38+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 wshobson/agents 的 63 插件与 85 代理，实现 Claude Code 智能终端自动化与多代理代码工作流，详解粒度设计、安装参数与协调清单。

### [H100 GEMM L2驻留优化：warp-specialized TMA异步拷贝与RL调优策略](/posts/2025/12/05/h100-gemm-l2-residency-warp-specialized-tma-async-copy-rl-tuning/)
- 日期: 2025-12-05T14:01:45+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过RL搜索warp TMA async copy参数与tile切分策略，实现H100上L2驻留GEMM超越cuBLAS的工程参数与监控要点。

### [PGlite + pgvector：浏览器端 WASM Postgres 向量索引，实现无服务器实时 RAG](/posts/2025/12/05/pglite-pgvector-wasm-browser-vector-indexing/)
- 日期: 2025-12-05T13:31:34+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: PGlite 结合 pgvector 在浏览器中实现客户端向量索引与相似搜索，支持低延迟本地 RAG。提供完整参数配置、索引优化与监控清单。

### [NeurIPS 2025 最佳论文工程洞见：门控注意力与深度RL优化](/posts/2025/12/05/neurips-2025-best-papers-engineering-insights/)
- 日期: 2025-12-05T12:46:57+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从NeurIPS 2025获奖论文中提取AI系统工程实践：注意力门控的sigmoid参数配置、1024层RL网络batch缩放、扩散隐式正则化阈值等落地要点。

### [Rust 轻量终端编码代理实现：Codex CLI 的 LLM 集成与状态管理](/posts/2025/12/05/rust-lightweight-terminal-coding-agent-codex-cli/)
- 日期: 2025-12-05T11:46:24+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 OpenAI Codex 的 Rust 终端单代理，详述 LLM API 集成、本地工具执行与 CLI 持久化状态的最佳实践与工程参数。

### [实践NeurIPS 2025最佳论文洞见：门控注意力与深度RL网络](/posts/2025/12/05/shi-jian-neurips-2025-zui-jia-lun-wen-dong-jian-men-kong-zhu-yi-li-yu-shen-du-rl-wang-luo/)
- 日期: 2025-12-05T10:46:39+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从NeurIPS 2025最佳论文提取可落地insights：门控注意力优化LLM训练稳定性，千层网络提升自监督RL效率，提供PyTorch集成代码、超参阈值、perf基准与监控清单。

### [PGlite pgvector客户端向量索引：浏览器内相似搜索与实时RAG](/posts/2025/12/05/pglite-pgvector-client-vector-indexing-browser-similarity-search-live-rag/)
- 日期: 2025-12-05T08:31:43+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 3MB PGlite加载pgvector，实现浏览器向量存储/搜索/实时查询，支持离线AI检索，详解参数与监控。

### [从500+开源项目提炼跨行业AI代理编排、工具与评估模式：医疗、金融、零售实践](/posts/2025/12/05/cross-industry-ai-agent-patterns-from-500-projects-healthcare-finance-retail/)
- 日期: 2025-12-05T08:06:51+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于500+开源AI代理项目，总结医疗、金融、零售领域的编排（supervisor、多层）、工具集成（RAG、SQL）和评估（模拟、AgentEval）模式，提供可落地参数与清单。

### [构建 LLM 交易竞技场：5 模型实盘部署 10 万美元 8 个月实战工程](/posts/2025/12/05/build-llm-trading-arena-5-models-real-capital/)
- 日期: 2025-12-05T07:31:04+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 工程化 LLM 股票交易竞技场，支持 5 模型 10 万美元实盘、实时执行、回测与 Sharpe 比率等风险分析，提供落地参数与监控要点。

### [LLM工程基础：分词方案、缩放定律、预训练/微调策略与KV缓存优化](/posts/2025/12/05/llm-engineering-foundations-tokenization-scaling-pretrain-finetune-kv-cache/)
- 日期: 2025-12-05T06:07:11+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于ZJU-LLMs教材与经典论文，工程化剖析LLM管道：BPE分词、Kaplan/Chinchilla缩放定律、PEFT微调及KV缓存量化/分页优化，提供参数清单与监控要点。

### [用 RL 自动调优 CUDA GEMM 内核：超越 cuBLAS 在 A100/H100 性能](/posts/2025/12/05/rl-autotune-cuda-gemm-kernels-surpass-cublas-a100/)
- 日期: 2025-12-05T05:31:00+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: CUDA-L2 通过强化学习搜索 GEMM 调度与平铺策略，在 A100 上 1000 个配置中多数超越 cuBLAS。给出工程部署参数、基准脚本与 QPS 监控要点。

### [LLM推理工程：KV缓存优化参数与监控要点](/posts/2025/12/05/llm-inference-kv-cache-optimization-parameters/)
- 日期: 2025-12-05T02:46:31+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 剖析Transformer推理中KV缓存的核心作用、内存消耗机制与工程优化参数，实现高吞吐、低延迟的LLM部署实践。

### [Claude 多代理编排：终端代码自动化工作流工程实践](/posts/2025/12/05/claude-multi-agent-orchestration-terminal-code-automation/)
- 日期: 2025-12-05T02:31:29+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Claude Code 的 agents 项目，实现多代理协作的终端代码自动化。详解插件安装、混合模型编排参数与工作流监控要点。

### [TypeScript 终端 AI 编码代理构建：Opencode 与 Claude 集成及多代理编排](/posts/2025/12/05/build-terminal-ai-coding-agent-typescript-opencode-claude-integration/)
- 日期: 2025-12-05T02:06:43+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Opencode 开源框架，用 TypeScript 实现终端 AI 编码代理，集成 Claude 模型，支持代码编辑、自动化任务及多代理协作，提供工程参数与部署清单。

### [构建类似 Browser Buddy 的互联网写作推荐系统](/posts/2025/12/05/building-browser-buddy-style-writing-recommendation-system/)
- 日期: 2025-12-05T02:01:14+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 借鉴 Browser Buddy，利用嵌入向量和协同过滤构建跨浏览器个性化写作内容推荐系统，提供算法参数、落地清单与监控策略。

### [Rust 实现的 Codex 终端编码代理：Execpolicy 配置与安全实践](/posts/2025/12/05/codex-terminal-coding-agent/)
- 日期: 2025-12-05T01:01:36+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: OpenAI Codex CLI 轻量 Rust 终端代理，支持代码生成编辑自动化。详解 Execpolicy 参数、Sandbox 清单与工程化落地要点。

### [Next.js + AI 对话式 Draw.io 图表生成：工程化管道实践](/posts/2025/12/05/next-ai-draw-io-conversational-diagram-engineering/)
- 日期: 2025-12-05T00:46:07+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Next.js 的 next-ai-draw-io 开源应用，通过自然语言与 AI 协作创建/修改 Draw.io 图表。聚焦对话式工程管道，包括多 LLM 支持、XML 处理、历史版本管理与生产部署参数。

### [AI 代理 API 驱动外呼电话：电话后端与 STT/LLM/TTS 实时集成](/posts/2025/12/05/api-driven-outbound-ai-phone-calls-telephony-stt-llm-tts-integration/)
- 日期: 2025-12-05T00:01:15+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过 API 发起 AI 代理外呼，实现电话后端与 STT/LLM/TTS 的实时自然对话与呼叫控制，提供工程参数与监控要点。

### [上下文机器中的随机上下文注入：提升LLM不确定输入泛化](/posts/2025/12/04/stochastic-context-injection-for-contextualization-machines/)
- 日期: 2025-12-04T23:31:56+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过随机上下文注入机制，实现LLM自适应提示工程与噪声鲁棒训练，提供工程参数与监控要点。

### [NoeticMap 濒死体验 AI 流水线：从报告到沉浸式音频](/posts/2025/12/04/noeticmap-nde-ai-pipeline-audio/)
- 日期: 2025-12-04T23:16:40+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 剖析 NoeticMap 处理 8000+ 濒死报告的 AI 管道：LLM 提取总结、主题聚类、TTS 音频化，提供工程化参数与落地清单。

### [VERL PPO训练器中的FSDP3D分片、价值剪裁与KL控制：大规模LLM RLHF稳定训练](/posts/2025/12/04/fsdp3d-sharding-value-clipping-ppo-rlhf-in-verl/)
- 日期: 2025-12-04T20:07:03+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: VERL框架下PPO训练器利用FSDP3D分片策略实现高效模型重分片，结合价值函数剪裁和自适应KL控制，确保亿参数级LLM在分布式RLHF中的梯度稳定与策略收敛。

### [4k+ n8n 工作流合集：无代码 AI Agent 编排与 ETL 管道实战](/posts/2025/12/04/curated-4k-n8n-workflows-ai-agent-orchestration-etl/)
- 日期: 2025-12-04T19:46:36+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 精选 4343 个 n8n 工作流资源库，支持在线搜索与 Docker 部署，实现 AI Agent 协调、ETL 数据管道的无代码落地。

### [Memori：LLM 代理的分层语义内存持久化、检索与去重 LRU 优化](/posts/2025/12/04/memori-hierarchical-semantic-persistence-with-retrieval-dedup-lru-for-scalable-agent-memory/)
- 日期: 2025-12-04T18:06:55+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Memori 开源引擎，实现 LLM 代理的可扩展内存系统，包括分层持久化、语义检索、去重机制、LRU 驱逐与压缩策略，支持多代理协作。

### [构建AI说服多代理模拟器：精英低成本内容生成与大众采用级联](/posts/2025/12/04/build-multi-agent-simulator-ai-persuasion-elite-influence-modeling/)
- 日期: 2025-12-04T17:46:34+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 模拟精英利用AI生成针对性内容、A/B测试优化偏好塑造，并触发大众采用级联，提供多代理架构参数、监控阈值与风险回滚策略。

### [剖析CoT提示工程缺陷：自一致采样与MCTS工程替代](/posts/2025/12/04/cot-prompting-limitations-self-consistency-mcts/)
- 日期: 2025-12-04T14:47:25+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 揭示思维链CoT的长度爆炸、一致性低与幻觉放大缺陷，提供Self-Consistency采样（40路径，temp=0.7）和ToT-MCTS树搜索（分支5、深度4、LLM评估）的工程参数、清单与监控要点。

### [构建灵活AI代理：Google ADK-Go工具包的工程实践](/posts/2025/12/04/building-flexible-ai-agents-google-adk-go-toolkit/)
- 日期: 2025-12-04T10:17:33+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 深入解析Google开源的ADK-Go工具包，如何通过代码优先的Go语言实现AI代理的构建、评估与部署，附关键参数配置清单。

### [Milvus DiskANN 混合索引与动态分片：亿级 ANN 搜索延迟优化](/posts/2025/12/04/milvus-diskann-sharding-for-billion-scale-ann-search/)
- 日期: 2025-12-04T08:18:40+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Milvus 云原生向量数据库，利用 DiskANN 磁盘混合索引、动态分片和多向量过滤，实现亿级规模 ANN 搜索的低延迟和高吞吐工程参数。

### [JetBrains代理式开发环境：AI智能体驱动的多步骤任务自动化实践](/posts/2025/12/04/jetbrains-agentic-dev-environment-ai-agent-code-generation/)
- 日期: 2025-12-04T06:33:49+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 解析JetBrains代理式开发环境的核心技术栈，提供AI智能体在代码生成、测试与任务编排中的工程化参数配置与风险控制清单。

### [LightRAG 双路径检索生产实践：RAG 延迟降低 60%](/posts/2025/12/04/implementing-lightrags-dual-path-retrieval-for-60-percent-rag-latency-reduction/)
- 日期: 2025-12-04T06:23:08+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: LightRAG 通过双路径检索架构，在生产环境中将 RAG 延迟降低 60%，本文提供核心实现参数与部署优化清单。

### [LightRAG 双路径检索生产实现：降低 RAG 延迟 60% 的工程参数](/posts/2025/12/04/lightrag-dual-path-retrieval-production/)
- 日期: 2025-12-04T06:22:11+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: LightRAG 通过双路径（local+global）检索结合向量和知识图谱，在生产中以 hybrid 模式将 RAG 延迟降低 60%，本文给出部署参数、阈值优化与监控清单。

### [LightRAG 双路径检索生产部署：延迟降低 60% 的工程实践](/posts/2025/12/04/implementing-dual-path-retrieval-to-cut-rag-latency-by-60-in-production/)
- 日期: 2025-12-04T06:21:16+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 LightRAG 的双路径检索架构，在生产环境中通过 hybrid 模式与参数优化，实现 RAG 延迟降低 60%，并提供完整部署参数与监控清单。