ai-systems

共 7658 篇文章。

拆解 Titans 门控记忆层：KV 缓存外的新长上下文结构如何落地推理系统

从惊喜指标到分页策略，给出 Titans 动态记忆模块在推理侧的完整工程化参数与踩坑笔记。

2025-12-08ai-systems2025-12

Titans 长记忆架构：稀疏门控与增量更新的自托管落地笔记

拆解 Google Titans 记忆模块的稀疏门控与增量更新机制，给出可落地的自托管推理服务上下文缓存方案与参数清单。

2025-12-08ai-systems2025-12

拆解 Google Titans 记忆模块：神经长久记忆 + 短期上下文窗口实现 2M token 级推理

从惊喜指标到 MIRAS 四维设计空间，给出可落地的超参、监控与回滚方案，让长记忆模型不再只是论文概念。

2025-12-08ai-systems2025-12

拆解 Google Titans 长期记忆模块：推理阶段如何增量更新并压缩上下文，实现百万 token 级无损召回

用可写的神经记忆替代外挂 RAG，Titans 在推理阶段动态更新 MLP 权重，以线性成本把上下文压到 200 万 token 仍保持 90% 以上召回。

2025-12-08ai-systems2025-12

拆解 Titans 记忆模块：如何用「神经长期记忆+短期上下文」在推理阶段实现百万 token 级上下文无损召回

从惊奇度写入到动量遗忘，详解 Google Titans 如何在推理阶段动态维护一个可更新的 MLP 记忆体，把上下文窗口推至 200 万 token 仍保持 90%+ 召回，并给出可直接落地的超参卡与工程 checklist。

2025-12-08ai-systems2025-12

拆解 Google Titans 的长程记忆层：如何在 2M token 上下文里保持亚线性显存增长并仍支持单卡推理

深度解析 Titans 的 Neural Long-Term Memory Module，给出显存≈O(log n) 的工程推导与单卡 2M token 实测配置。

2025-12-08ai-systems2025-12

拆解 Titans 记忆架构：用长期神经记忆层替代 KV-cache 实现百万 token 级上下文

Google Titans 通过神经长期记忆模块替代 KV-cache，实现线性复杂度下的 200 万 token 处理，拆解其 surprise 机制、集成范式与工程参数。

2025-12-08ai-systems2025-12

Google Titans 架构：神经长期记忆模块实现 2M token 线性推理成本

拆解 Titans 如何通过深度 MLP 记忆单元、惊喜指标与在线元学习，在仅 1.8× 算力增幅下将上下文窗口扩至 200 万 token 并保持推理成本线性增长。

2025-12-08ai-systems2025-12

Titans 神经长记忆模块：存储-衰减机制与 Rust 插拔实现模板

拆解 Google Titans 架构中 NLTM 模块的惊喜写入与权重衰减机制，提供可插拔的 Rust 代码模板及工程落地参数与监控要点。

2025-12-08ai-systems2025-12

从 Jupyter 原型到生产部署：工程化 LLM 代理的 RAG、工具调用与评估实践

基于 AI Engineering Hub，提供 LLM 代理从 Jupyter 原型到生产管道的工程化参数、工具调用配置、评估指标与部署清单。

2025-12-08ai-systems2025-12

利用零拷贝缓冲区实现 VibeVoice 流式多说话者分离的亚 100ms 延迟

在 VibeVoice Python 流水线中应用零拷贝缓冲区管理，实现实时流式音频的多说话者分离与 VAD，针对边缘低延迟优化参数与监控要点。

2025-12-08ai-systems2025-12

用 OpenCode 构建 TypeScript 终端编码代理：迭代精炼循环与工具调用

详解 sst/opencode TypeScript AI 代理的部署配置、迭代精炼机制、工具调用集成与错误恢复策略，实现自主代码生成工程化。

2025-12-08ai-systems2025-12

使用 Frigate + Coral TPU/TensorRT 加速实时多摄像头对象检测 NVR

详解 Frigate 配置 Coral TPU/TensorRT 边缘推理、多摄像头优化、运动事件与高效存储参数，实现低延迟实时 NVR。

2025-12-08ai-systems2025-12

Claude 快速上手：工具调用与 RAG 代理部署模式

基于 Claude Quickstarts，工程化工具调用、RAG 检索及多步代理的应用模式，给出部署参数、监控清单。

2025-12-08ai-systems2025-12

高效词袋模型与 TF-IDF：稀疏矩阵操作与词汇剪枝实现可扩展文本分类

工程化词袋模型管道：TF-IDF向量化、CSR稀疏矩阵、max_features/min_df词汇剪枝参数，实现大规模古典文本分类的高效处理与监控要点。

2025-12-08ai-systems2025-12

Activepieces：统一 400+ MCP Servers 实现多 LLM AI Agent 工作流编排

低代码平台 Activepieces 通过开源 Pieces 框架，提供 ~400 MCP servers，支持 Claude Desktop 等工具的 AI agent 编排与自动化工作流。详解部署参数、集成清单与监控要点。

2025-12-08ai-systems2025-12

PAL-MCP 服务器：统一 MCP 协议集成多 CLI AI 工具

利用 pal-mcp-server 作为统一 MCP 后端，桥接 Claude Code、Gemini CLI、Codex CLI，支持 OpenAI/Grok/Ollama 等模型，实现一致 AI 代理工具调用与上下文连续。

2025-12-08ai-systems2025-12

500+ 开源 AI Agent 项目合集：跨行业生产工程实践

汇总 500+ OSS AI Agent 项目，聚焦医疗、金融等行业用例，提取工程模式与部署清单，支持快速生产落地。

2025-12-08ai-systems2025-12

用 Python 零拷贝 Buffers 构建 VibeVoice 实时多说话人分离管道

基于 VibeVoice 实时 TTS，结合 pyannote-audio 实现零拷贝实时多说话人分离，支持流式推理低延迟语音 AI，详述阈值调优、端到端优化参数与监控清单。

2025-12-08ai-systems2025-12

Python 实时多说话人分离管道工程：融合 VAD、说话者嵌入与零拷贝缓冲低延迟推理

工程化 Python 实时多说话人 diarization 管道，融合 VAD、speaker embedding、streaming 推理，使用零拷贝缓冲实现低延迟 voice AI，支持 VibeVoice 等合成前端。

2025-12-08ai-systems2025-12

嵌套学习：生产系统中无重训增量持续学习模型层次

工程嵌套模型层次，实现生产AI增量持续学习，避免全重训与灾难性遗忘，提供关键参数、监控与部署清单。

2025-12-08ai-systems2025-12

VibeVoice 实时多说话人分离：低延迟 VAD 与 Diarization Python 流水线实现

基于 VibeVoice 低延迟语音 AI，集成 Silero VAD 与 pyannote 实现实时多说话人分离的关键参数、阈值与监控策略。

2025-12-08ai-systems2025-12

Titans 混合架构：滑动窗口注意力与神经长期记忆实现 AI 长时记忆

Titans 通过滑动窗口注意力捕捉短期依赖，神经长期记忆模块基于惊喜度量动态更新参数，实现超 200 万 token 上下文的高效长时记忆工程参数与部署要点。

2025-12-08ai-systems2025-12

利用 GPTZero 扩展学术引用幻觉检测：arXiv 嵌入相似度和 DOI 交叉验证在会议投稿中的应用

针对会议投稿批处理，介绍 GPTZero Citation Checker 通过嵌入相似度匹配 arXiv/Scholar 和 DOI 验证大规模检测 LLM 生成学术引用幻觉的工程参数、阈值设置与审稿流程优化要点。

2025-12-08ai-systems2025-12

Foundry Local 的 Svelte 前端：离线 AI 模型管理与流式推理界面

基于 Foundry Local 的 OpenAI 兼容 API，用 Svelte 构建本地 AI 管理与聊天 UI，支持模型下载、硬件优化和流式输出。

2025-12-08ai-systems2025-12

Activepieces：集成 400+ MCP 服务器，实现多 LLM AI 代理工作流自动化

利用 Activepieces 开源平台，将 280+ pieces 转化为 MCP servers，支持多 LLM AI 代理在自动化管道中的编排，提供部署配置、开发清单与监控参数。

2025-12-07ai-systems2025-12

Titans KV 系统：AI 代理访问 PB 级长期记忆的 learned 索引与检索

剖析 Titans 的 KV-like 记忆架构，利用 surprise-based learned indexing 和 retrieval，实现 AI 代理高效访问 PB 级长期记忆的关键参数、阈值与工程实践。

2025-12-07ai-systems2025-12

PAL MCP 服务器：统一多 LLM 代理编排与共享上下文

基于 MCP 协议的 PAL 服务器，实现 Claude Code/GeminiCLI 等工具与 OpenAI/Ollama/Grok 的无缝集成，支持多模型协作、子代理桥接与上下文连续性。

2025-12-07ai-systems2025-12

从 500+ 开源项目提炼生产级 AI Agent 工程模式

针对医疗、金融、零售、教育领域，从 500+ OSS AI Agent 项目中，总结多代理协作、工具集成与容错机制等工程模式，提供生产部署参数与监控要点。

2025-12-07ai-systems2025-12

工程化开源 NotebookLM：本地文档 RAG、自定义 LLM 集成与结构化播客生成

基于 open-notebook 项目，详解本地多模态 RAG 实现、多提供商 LLM 适配，以及 TTS 驱动的多文档播客合成工程参数与部署清单。

2025-12-07ai-systems2025-12

使用 Coral TPU/TensorRT 构建 Frigate 实时本地对象检测 NVR

基于 Frigate 开源框架，利用边缘 ML 在 IP 摄像头流上实现低延迟对象检测、运动蒙版过滤与事件剪辑的完整工程配置与优化参数。

2025-12-07ai-systems2025-12

PAL MCP Server：多模型代理编码统一接口与工作流编排

通过单一 MCP 接口集成 Claude、Gemini、Ollama 等模型，实现 agentic coding 的多模型无缝切换与链式协作，提供 clink 子代理、codereview 等工具的参数配置与落地指南。

2025-12-07ai-systems2025-12

TypeScript 开源 Opencode：终端 AI 编码代理的工程部署与多步工作流

基于 SST Opencode，详解终端 AI 编码代理的 TypeScript 部署实践，包括多模型集成、agent 工作流、工具权限与 dev tools 集成参数。

2025-12-07ai-systems2025-12

VibeVoice 多说话人流式语音合成低延迟工程管道

微软开源 VibeVoice 框架，支持多说话人长形式流式 TTS，首块语音延迟约 300ms，给出 Python 部署参数、推理优化与监控清单。

2025-12-07ai-systems2025-12

Oxide 机架级系统中 LLM 可观测性集成：日志分析与舰队自动化

在 Oxide illumos/Hubris 环境中，利用自定义提示和工具集成 LLM 进行日志解析、调试和舰队自动化，提供工程参数与监控要点。

2025-12-07ai-systems2025-12

使用 Foundry 工程化 Rosetta 生物分子模型的共享训练器基础设施

基于 Foundry 的模块化共享训练器，支持 Rosetta 集成的生物分子基础模型训练管道，提供组件配置、训练参数与监控要点。

2025-12-07ai-systems2025-12

ai-engineering-hub 仓库实战：Jupyter 驱动的生产级 RAG 管道构建

利用 ai-engineering-hub Jupyter 笔记本，实现生产级 RAG：混合检索、多代理编排、工具集成与评估框架的具体工程参数与落地清单。

2025-12-07ai-systems2025-12

工程化部署 LLM Agent：RAG 混合架构、工具集成、多代理与评估框架

基于 ai-engineering-hub，详解生产级 LLM Agent 部署，包括代理化 RAG、CrewAI 工具集成、多代理协作及 Opik 评估实践，提供可落地参数与清单。

2025-12-07ai-systems2025-12

RAG管道生产模式：混合检索、代理编排与评估扩展

基于AI工程中心仓库，探讨RAG管道从教程到生产系统的工程模式，包括混合检索、代理协调、评估框架和LLM应用扩展策略。

2025-12-07ai-systems2025-12

VibeVoice 低延迟实时语音管道工程实践

基于微软 VibeVoice-Realtime-0.5B，工程化 Python 高性能实时语音管道：流式 STT、LLM 推理与 TTS 合成，低延迟流式参数与监控要点。

2025-12-07ai-systems2025-12

HRM：构建LLM多层级推理链的递归架构与工程实践

基于HRM的分层递归模型，实现复杂任务分解与推理链编排，提供训练参数、动态深度控制与监控要点。

2025-12-07ai-systems2025-12

VibeVoice 低延迟实时语音推理优化：流式 Token 处理与多模型融合

剖析 VibeVoice Realtime 模型的低延迟 token 流式机制与 LLM-Diffusion 多模型融合，提供实时语音推理栈的工程参数、部署清单与监控策略。

2025-12-07ai-systems2025-12

Claude Quickstarts：工具调用、结构化输出、RAG管道与代理编排模板实战

基于 Anthropic 官方 Claude Quickstarts 模板，快速构建支持工具调用、结构化输出、RAG 和代理编排的可部署 Claude API 应用，提供工程化参数、部署清单与监控要点。

2025-12-07ai-systems2025-12

Oxide 机架级系统中的 LLM 集成：可观测性、调试与舰队自动化实践

通过自定义提示和工具调用，将 LLM 集成到 Oxide rack-scale 系统，用于日志分析、故障调试和自动化运维，提供具体参数与落地清单。

2025-12-07ai-systems2025-12

编排 Claude 的持续代码迭代循环：反馈、错误处理与精炼实践

通过持久反馈循环编排 Claude，实现代码迭代、错误处理和精炼，模拟人类开发实践，提供工程参数和监控要点。

2025-12-07ai-systems2025-12

Gemini 3 Pro 融合视觉编码器实现长视频百万 Token 分析

Gemini 3 Pro 通过融合视觉编码器支持长视频 1M token 处理与 agentic 推理，详述工程参数、监控要点与集成清单。

2025-12-07ai-systems2025-12

Zebra-Llama 混合模型：dense 与 MoE 层融合的高效推理路由优化

基于 Zebra-Llama 风格的混合 LLM 设计，交替使用稠密层与 MoE 层，实现高效推理，详解路由机制、负载均衡与计算优化参数。

2025-12-07ai-systems2025-12

Flash Attention 2 加速 Z-Image S3-DiT 6B 推理：16G VRAM 部署调优与监控

Z-Image Turbo 6B 模型在 16G VRAM 下实现 8 步亚秒生成，详解 Flash Attention 集成、参数调优、资源阈值与生产监控要点。

2025-12-07ai-systems2025-12

Foundry 中共享训练器与模块化管道组件的工程实践：生物分子基础模型训练

基于 RosettaCommons Foundry 项目，工程化共享训练器和模块化管道组件，支持 RFD3、RF3 等模型的可扩展训练，提供开发配置、参数调优与监控策略。

2025-12-07ai-systems2025-12

通过软件探针解码TPU内部性能：脉动阵列利用率与XLA优化

基于TPU Profiler和XLA工具，提供软件级性能剖析方法，识别推理瓶颈并给出工程化参数。

2025-12-07ai-systems2025-12

Z-Image：6B参数高效图像生成模型的工程化优化

通过单流扩散Transformer（S3-DiT）架构与Decoupled-DMD蒸馏，Z-Image Turbo实现8步推理下16G VRAM亚秒级生成。提供部署参数、Flash Attention优化及资源监控要点。

2025-12-07ai-systems2025-12

Python 高性能 VibeVoice 语音 AI 管道：实时音频生成与推理优化

基于 Microsoft VibeVoice 开源框架，用 Python 构建高性能实时语音生成管道，包括安装、推理参数与实时流式优化要点。

2025-12-07ai-systems2025-12

动手探针 TPU 硬件：开盖与芯片内部剖析

绕过黑盒文档，通过 decapping 和显微镜揭开 TPU 内部架构，提供安全参数、步骤清单与逆向要点。

2025-12-06ai-systems2025-12

AI工程中心实战提炼：LLM管道、RAG混合检索、Agent编排与评估框架

从真实AI应用中提炼生产模式，给出LLM流水线、混合RAG、Agent协作及评估的工程参数与最佳实践。

2025-12-06ai-systems2025-12

ai-engineering-hub实战：生产RAG Agent的混合检索链、编排与评估框架

基于ai-engineering-hub仓库Jupyter示例，实现生产级RAG：混合搜索提升召回、Agent编排路由查询、Opik评估框架监控准确性，提供工程参数与清单。

2025-12-06ai-systems2025-12

LLM工程实战：RAG检索优化、多代理协作与生产部署Pipeline落地指南

基于AI Engineering Hub项目，详解RAG检索优化、多代理协作架构及生产部署pipeline的工程参数、监控要点与落地清单。

2025-12-06ai-systems2025-12

AI工程枢纽：生产级RAG管道与Agent编排模式

从AI Engineering Hub真实教程中提炼可扩展RAG管道、混合检索和代理编排模式，提供工程参数、阈值和生产部署清单。

2025-12-06ai-systems2025-12

Claude Quickstarts 生产就绪模板：工具调用、结构化输出与 RAG Agent 集成指南

利用 Anthropic 官方 Claude Quickstarts 的 Python/Node 模板，快速构建集成工具调用、结构化输出、RAG 和 Agent 的生产级 AI 应用，提供详细部署参数、优化清单与监控要点。

2025-12-06ai-systems2025-12

HRM分层推理模型工程实践：任务分解与复杂求解参数指南

工程化HRM分层架构，实现单pass复杂推理：高层规划、低层执行的参数配置与监控要点。

2025-12-06ai-systems2025-12

Foundry：构建生物分子基础模型的统一训练器与管道组件

Foundry 提供共享训练器和管道组件，支持蛋白质设计、折叠与逆折叠模型，实现生物分子 AI 的高效工程化部署。

2025-12-06ai-systems2025-12

检测 YouTube AI 视频编辑与误导性摘要：内容管道完整性保障

介绍检测 YouTube 未披露 AI 视频编辑和生成摘要的技术方法与工程参数，确保内容审核管道的可靠性。

2025-12-06ai-systems2025-12

自托管 Immich 照片库：Docker 部署、手机自动同步、ML 人脸对象检测与存储分片

Immich 开源照片管理平台 Docker 一键部署，支持手机自动备份、机器学习人脸/对象识别，以及高效存储分片模板配置，实现私有化高效照片库。

2025-12-06ai-systems2025-12

Next.js 集成 AI 驱动 draw.io：自然语言命令图表编辑实现

基于 Next AI Draw.io，解析自然语言命令生成/修改 draw.io XML 的核心机制、模型参数与部署清单，支持多云架构图高效可视化。

2025-12-06ai-systems2025-12

Gemini 3 Pro 融合视觉编码器：1M Token 视频分析与代理视觉推理工程实践

Gemini 3 Pro 的融合视觉编码器实现原生多模态处理，支持 1M Token 长视频分析、图表解读、密集文档 OCR 及视觉代理推理，提供工程化 API 配置与监控参数。

2025-12-06ai-systems2025-12

VibeVoice 开源 Python 语音 AI 流水线：实时合成与管道集成

基于 Microsoft VibeVoice 在 Python 中构建实时 TTS 流水线，支持长对话多说话人合成，提供安装、推理参数与 ASR 多模态整合要点。

2025-12-05ai-systems2025-12

动手实现 Microsoft ML-For-Beginners 的 26 个经典 ML 练习与测验：回归、聚类、NLP 等

基于 Microsoft 开源课程，从初学者到中级，指导实现回归、分类、聚类、NLP、时间序列等 26 个核心 ML 练习，包含测验、代码参数与优化清单。

2025-12-05ai-systems2025-12

Rust 实现的 Codex CLI 终端代理架构：无状态 API 循环与无 DB 会话持久化

剖析 OpenAI Codex CLI Rust 架构，聚焦无状态循环、工具调用集成及本地持久化，实现低延迟编辑的工程参数与监控。

2025-12-05ai-systems2025-12

Claude Code 多代理编排工具包：wshobson/agents 的终端自动化实践

基于 wshobson/agents 的 63 插件与 85 代理，实现 Claude Code 智能终端自动化与多代理代码工作流，详解粒度设计、安装参数与协调清单。

2025-12-05ai-systems2025-12

H100 GEMM L2驻留优化：warp-specialized TMA异步拷贝与RL调优策略

通过RL搜索warp TMA async copy参数与tile切分策略，实现H100上L2驻留GEMM超越cuBLAS的工程参数与监控要点。

2025-12-05ai-systems2025-12

PGlite + pgvector：浏览器端 WASM Postgres 向量索引，实现无服务器实时 RAG

PGlite 结合 pgvector 在浏览器中实现客户端向量索引与相似搜索，支持低延迟本地 RAG。提供完整参数配置、索引优化与监控清单。

2025-12-05ai-systems2025-12

NeurIPS 2025 最佳论文工程洞见：门控注意力与深度RL优化

从NeurIPS 2025获奖论文中提取AI系统工程实践：注意力门控的sigmoid参数配置、1024层RL网络batch缩放、扩散隐式正则化阈值等落地要点。

2025-12-05ai-systems2025-12

Rust 轻量终端编码代理实现：Codex CLI 的 LLM 集成与状态管理

基于 OpenAI Codex 的 Rust 终端单代理，详述 LLM API 集成、本地工具执行与 CLI 持久化状态的最佳实践与工程参数。

2025-12-05ai-systems2025-12

实践NeurIPS 2025最佳论文洞见：门控注意力与深度RL网络

从NeurIPS 2025最佳论文提取可落地insights：门控注意力优化LLM训练稳定性，千层网络提升自监督RL效率，提供PyTorch集成代码、超参阈值、perf基准与监控清单。

2025-12-05ai-systems2025-12

PGlite pgvector客户端向量索引：浏览器内相似搜索与实时RAG

3MB PGlite加载pgvector，实现浏览器向量存储/搜索/实时查询，支持离线AI检索，详解参数与监控。

2025-12-05ai-systems2025-12

从500+开源项目提炼跨行业AI代理编排、工具与评估模式：医疗、金融、零售实践

基于500+开源AI代理项目，总结医疗、金融、零售领域的编排（supervisor、多层）、工具集成（RAG、SQL）和评估（模拟、AgentEval）模式，提供可落地参数与清单。

2025-12-05ai-systems2025-12

构建 LLM 交易竞技场：5 模型实盘部署 10 万美元 8 个月实战工程

工程化 LLM 股票交易竞技场，支持 5 模型 10 万美元实盘、实时执行、回测与 Sharpe 比率等风险分析，提供落地参数与监控要点。

2025-12-05ai-systems2025-12

LLM工程基础：分词方案、缩放定律、预训练/微调策略与KV缓存优化

基于ZJU-LLMs教材与经典论文，工程化剖析LLM管道：BPE分词、Kaplan/Chinchilla缩放定律、PEFT微调及KV缓存量化/分页优化，提供参数清单与监控要点。

2025-12-05ai-systems2025-12

用 RL 自动调优 CUDA GEMM 内核：超越 cuBLAS 在 A100/H100 性能

CUDA-L2 通过强化学习搜索 GEMM 调度与平铺策略，在 A100 上 1000 个配置中多数超越 cuBLAS。给出工程部署参数、基准脚本与 QPS 监控要点。

2025-12-05ai-systems2025-12

LLM推理工程：KV缓存优化参数与监控要点

剖析Transformer推理中KV缓存的核心作用、内存消耗机制与工程优化参数，实现高吞吐、低延迟的LLM部署实践。

2025-12-05ai-systems2025-12

Claude 多代理编排：终端代码自动化工作流工程实践

基于 Claude Code 的 agents 项目，实现多代理协作的终端代码自动化。详解插件安装、混合模型编排参数与工作流监控要点。

2025-12-05ai-systems2025-12