# 分类：ai-systems

> 该分类下的文章按时间倒序排列，便于按主题继续深挖。

## 页面摘要
- 路径: /categories/ai-systems/page/37/
- 当前页: 37 / 75
- 文章总数: 5960
- 当前页文章数: 80

## 快速导航
- [首页](/)
- [分类索引](/categories/)
- [归档索引](/archive/)

## 本页文章
### [用运行时干预机制在推理阶段精准控制 LLM 行为，避免重训即可修正偏差与幻觉](/posts/2025/12/10/runtime-intervention-llm-inference-control/)
- 日期: 2025-12-10T07:33:15+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 熵触发、条件激活、进度向量三大路线，让推理 LLM 在生成阶段即可被‘微操作’，无需重训即可修正幻觉与偏差，并给出可直接落地的参数清单与风险应对方案。

### [Devstral 以 61.6% SWE-Bench Verified 刷新开源模型极限，可深挖其测试集过滤与工具调用优化细节](/posts/2025/12/10/devstral-61-percent-swe-bench-verified-open-source-limit/)
- 日期: 2025-12-10T07:05:09+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从 Devstral Medium 2507 的 61.6% 得分出发，拆解 Mistral 在测试集过滤、工具调用与长上下文推理上的三件秘密武器，并给出可落地的本地复现参数与监控清单。

### [拆解 Mistral Devstral：24B 参数拿下 SWE-Bench Verified 46.8% 的三件套工程](/posts/2025/12/10/devstral-swe-bench-verified-46-percent/)
- 日期: 2025-12-10T06:33:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 数据合成、强化学习奖励函数与沙盒执行回环如何协力把 24B 模型推到开源榜首，并给出可复现的本地化训练脚本。

### [从 46.8% 到 72.2%：Devstral 2 的代理微调与测试集过滤工程](/posts/2025/12/10/devstral2-swebench-verified-72-percent-agent-fine-tune/)
- 日期: 2025-12-10T06:18:32+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 拆解 Mistral Devstral 2 如何把 SWE-Bench Verified 刷到 72% 量级：数据去污染、强化学习脚手架与三阶段评测流水线。

### [拆解 Mistral Devstral2 的 72.2% SWE-Bench 流水线与测试过滤策略](/posts/2025/12/10/devstral2-swebench-72-percent-pipeline/)
- 日期: 2025-12-10T06:03:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在假设 72.2% 得分成立的前提下，用公开案例反推 Devstral2 可能采用的三阶段代码修复流水线、双层测试过滤器与可落地超参数。

### [Devstral 2 72.2% SWE-Bench 验证背后的 Agent 代码合成与运行时干预机制拆解](/posts/2025/12/10/devstral-2-swe-bench-agent-intervention/)
- 日期: 2025-12-10T05:48:12+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从 46.8% 到 72.2% 的跃升并非魔法，而是把 Agent、框架与 CLI 工具链拧成一股绳：本文给出可复制的运行时干预参数与监控清单。

### [拆解 Mistral Devstral 在 SWE-Bench 46.8% 成绩背后的 agentic 代码修复流程与工具链集成要点](/posts/2025/12/10/mistral-devstral-swebench-agentic-code-repair/)
- 日期: 2025-12-10T05:33:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从环境感知到沙箱回归，逐层拆解 Devstral 的 agentic 代码修复闭环，并给出 RTX 4090 本地部署与 OpenHands 框架集成清单。

### [Devstral 2 的 72.2% SWE-Bench 背后：流式代码生成与运行时沙箱拆解](/posts/2025/12/10/devstral-2-swe-bench-streaming-sandbox/)
- 日期: 2025-12-10T05:03:28+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 以 Devstral 46.8% 开源 SOTA 为锚点，拆解其如何借助 OpenHands 沙箱与流式生成在真实 GitHub 问题上实现高效修复，并给出本地部署与参数调优清单。

### [Devstral 2 刷新开源代码修复纪录：72.2% SWE-Bench 背后的数据筛选与后训练策略](/posts/2025/12/10/devstral-2-swebench-record/)
- 日期: 2025-12-10T04:18:32+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 以 72.2% SWE-Bench Verified 拿下开源榜首的 Devstral 2，只用 24B 参数就超越 670B 巨兽。本文拆解其真实 GitHub Issue 数据筛选、Small 3.1 轻量微调与强化学习后训练配方，给出可落地的私有化部署参数与 IDE 集成要点。

### [拆解微软 VibeVoice 的 Frontier Voice AI 架构：低延迟流式多语言语音合成实践](/posts/2025/12/10/vibevoice-frontier-voice-ai-low-latency-streaming-tts/)
- 日期: 2025-12-10T04:07:35+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从 7.5 Hz 声学 Tokenizer 到交错窗口，还原 300 ms 首包语音的实现细节与可落地参数。

### [Devstral 2 与 Vibe CLI：本地化大模型如何一句 vibe 出可合并 PR](/posts/2025/12/10/devstral-2-vibe-cli-local-llm-mergeable-pr/)
- 日期: 2025-12-10T03:54:40+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 拆解 Mistral 新发布的 Devstral 2（72.2% SWE-Bench）与 Vibe CLI，看本地化大模型如何端到端 vibe 出可合并 PR。

### [拆解 Devstral 的 SWE-Bench 冠军回路：补丁级生成与测试回环加速](/posts/2025/12/10/devstral-swe-bench-champion-loop/)
- 日期: 2025-12-10T03:27:13+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于开源代理框架，Devstral 以 46.8% 拿下 SWE-Bench Verified 第一，其补丁生成与测试反馈回路的关键参数与优化策略。

### [拆解 Mistral Devstral 2 的 SWE-Bench 微调配方：数据构造、强化学习奖励与推理时 patch 验证流水线](/posts/2025/12/10/mistral-devstral2-swe-bench-recipe/)
- 日期: 2025-12-10T03:03:36+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在现有 46.8% 成绩基础上，按 Mistral 披露的三段式配方继续放大，推导出迈向 72.2% 的关键阈值与可落地参数清单。

### [Devstral 2 如何冲击 72.2%：自研沙盒、并行验证与失败回放](/posts/2025/12/10/devstral2-72-percent-swe-bench-verified/)
- 日期: 2025-12-10T02:33:31+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 以 46.8% 为起点，拆解 Mistral 若要再提 25 个百分点可落地的评估工程化框架与参数。

### [Devstral 2 如何在 RTX 3090 上蒸馏出高 pass@1 的代码修复小模型](/posts/2025/12/10/devstral-2-distill-high-pass1-on-rtx3090/)
- 日期: 2025-12-10T02:19:49+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 46.8% SWE-Bench Verified 的 Devstral，给出单卡 RTX 3090 蒸馏到 7B、pass@1 提升至 55% 的完整工程参数与监控方案。

### [cuTile Python：轻量级 DSL 加速 PyTorch 算子 3-5 倍](/posts/2025/12/10/cu-tile-python-tiled-kernel-dsl/)
- 日期: 2025-12-10T02:15:24+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: cuTile 用几行 Python DSL 表达 GPU 分块与共享内存优化，实现 PyTorch 自定义算子 3-5 倍提速的关键参数与融合实践。

### [Devstral 2 以 72.2% SWE-Bench Verified 刷新开源上限：训练数据配比与后训练策略复盘](/posts/2025/12/10/devstral-2-swe-bench-72-percent-training-data-post-training/)
- 日期: 2025-12-10T02:10:21+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 拆解 Devstral 2 如何通过 80/20 真实+合成数据配比与 RL+DPO 后训练策略，实现开源模型 SWE-Bench Verified 72.2% 历史新高，提供微调参数清单与部署监控要点。

### [拆解 Devstral 2 在 SWE-Bench 72.2% 的验证机制与 Vibe CLI 实时干预：本地代码智能体流水线落地](/posts/2025/12/10/devstral-2-swe-bench-verification-vibe-cli-local-agent-pipeline/)
- 日期: 2025-12-10T01:54:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Mistral Devstral 2 的 SWE-Bench 高分验证机制与 Vibe CLI 实时干预架构，给出本地代码智能体流水线的参数配置、监控要点与风险阈值。

### [Devstral 本地 CLI 实战：零样本函数级补丁与多文件 diff 回写参数拆解](/posts/2025/12/10/devstral-local-cli-zero-shot-function-patch-multi-file-diff/)
- 日期: 2025-12-10T01:39:34+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Devstral 46.8% SWE-Bench Verified 领先开源成绩，拆解本地 CLI 零样本函数级补丁生成、多文件 diff 回写工程参数与监控清单。

### [用运行时干预钩子把 LLM 的生成流在 token 级做热替换，实现可控输出修正](/posts/2025/12/10/mentat-runtime-intervention-hot-token-replace/)
- 日期: 2025-12-10T01:18:46+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向多模型流式输出，给出 SSE 连接管理与断线续传的工程化参数与监控要点。

### [把 Devstral 跑在 3090：一条 CLI 工作流与四项关键参数](/posts/2025/12/10/devstral-on-rtx3090-cli-workflow-and-four-key-parameters/)
- 日期: 2025-12-10T00:48:26+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 官方并未发布‘Devstral 2’与 72.2% 分数，但社区已验证：单卡 RTX 3090 可无损跑通 Devstral-Small 全流程，本文给出量化下载、vLLM 起服务、OpenHands 对接与监控点清单。

### [Devstral 2 如何以 72.2% SWE-Bench 逼近 Sonnet-3.5：Agent 策略与沙盒加速参数清单](/posts/2025/12/10/devstral2-72-swe-bench-sonnet35-agent-sandbox/)
- 日期: 2025-12-10T00:33:13+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 假如 Devstral 2 真拿到 72.2%，它在 Agent 编排、工具调用与沙盒加速上必须落地的三项参数与两项风险控制。

### [Devstral 46.8% SWE-Bench 开源第一：本地部署与 LoRA 微调 CLI 实战](/posts/2025/12/10/devstral-local-fine-tune-cli/)
- 日期: 2025-12-10T00:25:20+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Devstral-Small-2505 在 SWE-Bench Verified 达 46.8%，开源领先。详解 Ollama 一键运行、vLLM 多卡部署及 Axolotl LoRA 微调全流程。

### [用 Python 绑定 cuTile：快速上手 NVIDIA GPU 高阶 Tile 原语](/posts/2025/12/10/python-cutile-bindings-quickstart-high-order-tile-primitives/)
- 日期: 2025-12-10T00:15:23+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过 cuTile Python 绑定，掌握 GPU Tile 编程模型，从向量加法到矩阵乘的高阶原语实战参数与优化要点。

### [Nia 给编码智能体注入结构化上下文：用检索式知识库替代手工提示工程](/posts/2025/12/09/nia-context-for-coding-agents/)
- 日期: 2025-12-09T22:48:13+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向多模型流式输出，给出 SSE 连接管理与断线续传的工程化参数与监控要点。

### [给编码代理注入“不会丢”的实时业务上下文](/posts/2025/12/09/agent-context-injection-tips/)
- 日期: 2025-12-09T22:04:25+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 用短时记忆晋升、钩子注入、动态工具三种模式，把业务规则、字段语义、约束条件实时塞回编码 Agent，降低多轮幻觉，给出可落地的参数与防注入校验代码。

### [给编码 Agent 注入项目级上下文的可落地方案：Nia 的实时知识切片与注入机制](/posts/2025/12/09/nia-agent-context-delivery/)
- 日期: 2025-12-09T21:18:37+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 用 Nia 的三件套（监听→切片→注入）让编码 Agent 获得秒级更新的项目脑，附双阈值语义折叠算法与 Token 经济学参数。

### [用 cuTile Python 写 GPU 并行 kernel：像 NumPy 广播一样简洁却跑满 Tensor Core](/posts/2025/12/09/cutile-python-gpu-kernel-like-numpy-broadcast/)
- 日期: 2025-12-09T20:09:42+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 CUDA 13.1 的 cuTile Python，15 行代码即可写出打满 Tensor Core 的 GPU kernel，并给出 Tile 尺寸、dtype、occupancy 等可直接落地的调优参数。

### [给编码智能体注入更细粒度的仓库级上下文，提升多文件补全与重构准确率](/posts/2025/12/09/injecting-granular-repo-context-into-coding-agents/)
- 日期: 2025-12-09T19:49:02+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 解析 JetBrains Junie 如何通过 RAG+MCP 把‘行级补全’升级为‘仓库级任务’，并给出 2 min 级多文件接口生成的落地参数与回滚策略。

### [用可检索上下文注入让编码 Agent 实现跨文件精准补全与重构](/posts/2025/12/09/agent-retrievable-context-injection/)
- 日期: 2025-12-09T19:33:31+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 将代码上下文外包给检索系统，按需注入 Agent，兼顾 token 成本与跨文件准确率，给出三段阈值与回滚策略。

### [给编码 Agent 注入可验证的代码上下文，减少幻觉并支持多步重构](/posts/2025/12/09/inject-verifiable-context-into-coding-agent/)
- 日期: 2025-12-09T19:06:10+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在 Agent Planning 阶段插入 Verifiable Context Provider，输出影响图、变更契约与校验桩，让每一步 diff 先验证后落地，实现仓库级多步重构不断链。

### [编码 Agent 代码库级上下文注入：三层架构与检索压缩策略](/posts/2025/12/09/codebase-context-injection-for-coding-agents/)
- 日期: 2025-12-09T18:54:47+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 针对Coding Agent在大型代码库中的上下文缺失，给出显式/动态/隐式三层注入架构，检索重排压缩策略，以及15分钟落地清单。实测SWE-bench通过率↑12%，任务时长减半。

### [用 Nia 的「对话-代码混合上下文」把编码代理的窗口利用率拉满，避免 token 浪费与幻觉](/posts/2025/12/09/nia-mixed-context-for-agent/)
- 日期: 2025-12-09T18:34:30+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 对话与代码异构信息共存时，Agent 窗口极易爆仓。Nia 通过分治+融合、双级压缩与阈值触发，把长任务 token 成本砍半，幻觉率下降 40%。

### [给编码 Agent 注入结构化上下文：Nia 的仓库级记忆方案与落地模板](/posts/2025/12/09/structured-context-injection-for-coding-agent/)
- 日期: 2025-12-09T18:05:35+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 把仓库级长期记忆拆成静态结构化上下文与动态状态两段注入，让大模型在单轮 200k token 内既看得远又踩得准，附可复制模板与阈值。

### [编码 Agent 上下文注入：仓库摘要、调用链与变更历史融合](/posts/2025/12/09/coding-agent-context-injection-repo-summary-call-chain-change-history-fusion/)
- 日期: 2025-12-09T16:55:23+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 为编码 Agent 提供高质量上下文注入方案，融合仓库摘要、调用链分析与变更历史，实现 SWE-bench 74.6% Pass@1 性能。

### [用 Nia 为编码 Agent 注入细粒度上下文，实现跨文件、跨会话的精准补全与修复](/posts/2025/12/09/nia-context-injection-for-coding-agents/)
- 日期: 2025-12-09T16:35:05+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 把‘代码世界的知识图谱’常驻在 Agent 内部，给出可落地的索引延迟、召回率与接入清单，让跨文件补全与回归 Bug 修复不再失忆。

### [用轻量级上下文注入让编码代理一次拿到仓库 README、最近 Issue 与 ADR，减少幻觉与来回提问](/posts/2025/12/09/lightweight-context-injection-for-coding-agents/)
- 日期: 2025-12-09T16:19:34+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向多模型流式输出，给出 SSE 连接管理与断线续传的工程化参数与监控要点。

### [用可验证上下文快照终结幻觉：Nia 的 coding agent 实战](/posts/2025/12/09/nia-coding-agent-context-snapshot/)
- 日期: 2025-12-09T16:03:19+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 拆解 Nia 如何为 coding agent 注入可验证的上下文快照，避免幻觉与重复劳动。

### [把项目级上下文压缩进 8k token，让 coding agent 真正读懂私有代码库](/posts/2025/12/09/coding-agent-8k-context-compression/)
- 日期: 2025-12-09T15:18:29+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在 8k token 经济区间，用三级漏斗把 50k–200k token 的私有代码库压缩成高保真上下文，给出可直接落地的参数、监控与回滚方案。

### [用 200k 上下文给编码 Agent 喂整库结构，让多步重构不再掉线](/posts/2025/12/09/200k-context-window-coding-agent-repository-refactoring/)
- 日期: 2025-12-09T14:48:06+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 把整库 AST、依赖图、模块边界一次性塞进 200k 窗口，跨文件重构时不再‘忘记’前面改动了什么。

### [用 Nia 给编码 Agent 注入结构化上下文，抑制多轮幻觉](/posts/2025/12/09/nia-context-injection-coding-agents/)
- 日期: 2025-12-09T14:33:38+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 把远程仓库、文档与依赖包索引成可检索记忆，让 coding agent 在长对话中保持上下文一致，实测幻觉率下降 34 %。

### [用可检索上下文给编码智能体「刹幻觉」：Nia 的增量索引与 MCP 实践](/posts/2025/12/09/retrievable-context-for-coding-agents/)
- 日期: 2025-12-09T13:47:44+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向 Cursor、Claude Code 等 MCP 客户端，给出可检索上下文层的部署参数与刷新策略，实测降低幻觉率与重复调用。

### [用 Nia Context Lens 把多仓库上下文零拷贝注入 LLM 编码代理](/posts/2025/12/09/nia-context-lens-zero-copy-llm-agent/)
- 日期: 2025-12-09T13:32:47+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过 MCP 服务器实时索引代码、文档与日志，让 Cursor 等代理在推理瞬间获得零幻觉、跨语言的完整上下文。

### [为编码 Agent 设计 Nia 上下文引擎：IDE 内的精准项目背景与调用链感知](/posts/2025/12/09/nia-context-engine-for-coding-agents/)
- 日期: 2025-12-09T12:52:29+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过 Nia 上下文引擎为 IDE 内的编码 Agent 提供精准的项目背景感知与调用链分析能力，显著减少 LLM 幻觉并提升代码生成准确性。

### [在Cloudflare全栈上自建类Cursor的vibe-coding平台：模板化生成与一键部署实战](/posts/2025/12/09/building-cursor-like-vibe-coding-platform-on-cloudflare-stack/)
- 日期: 2025-12-09T12:08:17+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于Cloudflare VibeSDK构建企业级AI编程平台，详解模板化代码生成、容器化沙箱执行与一键部署的完整工程化方案。

### [把 200k token 项目上下文压缩成 2k 可检索向量的 VSCode 插件，让编码代理不迷航](/posts/2025/12/09/agent-context-compression-vscode-plugin/)
- 日期: 2025-12-09T12:03:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向多模型流式输出，给出 SSE 连接管理与断线续传的工程化参数与监控要点。

### [用 Cloudflare 全栈落地高可用 vibe-coding 平台：提示即代码与边缘部署一体化](/posts/2025/12/09/cloudflare-vibe-coding-platform-at-edge/)
- 日期: 2025-12-09T11:34:40+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 VibeSDK 与 Cloudflare 边缘原生服务，给出可扩展的 vibe-coding 平台架构、灰度与回滚参数，以及生产级部署清单。

### [Nia：为 Coding Agents 注入可观测结构化上下文的落地拆解](/posts/2025/12/09/nia-observable-structured-context-for-coding-agents/)
- 日期: 2025-12-09T10:54:08+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 拆解 Nia 如何为百万行代码库构建心智模型，提供自托管索引与 Agent SDK 集成方案，含监控参数与权限控制。

### [在 Cloudflare Workers 上零运维落地 vibe-coding 平台：插件热加载与边缘 KV 协同机制](/posts/2025/12/09/vibesdk-serverless-vibe-coding-hot-reload-kv-coord/)
- 日期: 2025-12-09T06:09:52+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Cloudflare VibeSDK，解析如何借助 Vite 插件实现秒级热加载，并让 Workers 无状态计算、Durable Objects 状态化 Agent 与全球 KV 协同，支撑自然语言生成应用的零运维落地。

### [把 Agent 上下文窗口变成可检索知识库：跨会话精准召回与注入实战](/posts/2025/12/09/agent-context-window-searchable-knowledge-base/)
- 日期: 2025-12-09T04:40:12+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 代码 Agent 常陷上下文遗忘与 token 爆炸困境，本文给出知识库双层索引、精准召回注入参数与跨框架模式，实现跨会话仓库高效记忆。

### [用 CodeGraph 为 Nia 注入跨仓库上下文：可解释 Diff 的工程化方案](/posts/2025/12/09/engineering-cross-repo-context-for-nia-explainable-diff/)
- 日期: 2025-12-09T04:03:08+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 给出 CodeGraph 构建、RAG-AST 检索、轻量 Commit Summary 与行号锚定的 4 组可复制参数，让 Agent 生成不再幻觉、Diff 一目了然。

### [用可观测的上下文注入让编码 agent 在真实 repo 中减少幻觉、可回溯调试](/posts/2025/12/09/observable-context-injection-for-coding-agents/)
- 日期: 2025-12-09T03:33:06+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Nia 框架，通过 eBPF 语义标签与 RAG 工具筛选，将幻觉率从 18% 降至 5%，并给出可落地的内核采样、ring buffer、相似度阈值等关键参数。

### [用 200k token 滑动窗口为编码 Agent 持续注入 Repo 级上下文，减少重复提问与幻觉](/posts/2025/12/09/sliding-window-200k-token-agent-repo-context/)
- 日期: 2025-12-09T03:18:00+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向多模型流式输出，给出 SSE 连接管理与断线续传的工程化参数与监控要点。

### [把 128k 窗口变成无限仓库：编码 Agent 的向量记忆压缩参数清单](/posts/2025/12/09/vector-memory-compaction-for-coding-agents-within-128k-window/)
- 日期: 2025-12-09T02:48:34+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 用 AST 分块+双索引把整库压成可检索向量记忆，配合 95% 触发压缩与 5 文件句柄保留，让 coding agent 在 128k 窗口内精准复现跨文件依赖。

### [为编码 Agent 注入自定义上下文与示例：少样本上下文工程实践](/posts/2025/12/09/agent-context-injection-few-shot-coding/)
- 日期: 2025-12-09T02:19:19+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 用 3–5 个高质量示例替代冗长规则，结合 Just-in-time 加载与 SDK 级验证，给编码 Agent 注入可演进上下文，提升多步推理准确率与生成一致性。

### [把 90 分钟播客压进 300 ms 首包：VibeVoice 流式低延迟语音合成链路拆解](/posts/2025/12/09/vibevoice-streaming-low-latency-tts-dissection/)
- 日期: 2025-12-09T02:09:10+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于微软开源 VibeVoice-Realtime-0.5B，详解 7.5 Hz 双 tokenizer、next-token diffusion 并行解码与可落地的低延迟参数表。

### [用 Nia 的「代码上下文快照」机制让多轮 Agent 不再丢失历史改动细节](/posts/2025/12/09/nia-context-snapshot-for-coding-agent/)
- 日期: 2025-12-09T01:47:44+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向多轮编码 Agent 的上下文失忆痛点，给出 Nia 快照原理、落地参数与监控要点，让每一轮对话都能『接着上一轮继续说』。

### [拆解 Google Titans 长期记忆模块：推理阶段 O(1) 更新与分钟级召回的工程化要点](/posts/2025/12/09/titans-long-term-memory-inference-o1-update/)
- 日期: 2025-12-09T00:02:58+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从惊奇度门控到块级并行更新，给出 Titans 在推理端实现毫秒级记忆写入与常数时间召回的可落地参数与监控策略。

### [微软 VibeVoice 流式语音推理架构拆解：7.5 Hz Tokenizer 与 Next-Token Diffusion 的 300 ms 首包实践](/posts/2025/12/08/microsoft-vibevoice-streaming-voice-inference-architecture/)
- 日期: 2025-12-08T22:10:37+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从双 tokenizer 压缩、自回归扩散到滑窗 KV-cache，给出可落地的流式多模态语音推理参数与踩坑清单。

### [拆解 Google Titans 的“长期记忆”模块：如何在外存-缓存-模型三层架构下做到 2M token 线性扩展](/posts/2025/12/08/google-titans-long-term-memory-2m-linear-scaling/)
- 日期: 2025-12-08T21:33:04+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 用一句话概括：把 MLP 权重当‘外存’，用 SGD 增量更新实现 O(1) 每 token 计算，再叠 128 k 滑动窗口注意力当‘缓存’，Google Titans 在 2 M 长度下仍保持 90% needle 召回，只花 1.8× 算力。

### [拆解 Google Titans 长期记忆模块：推理阶段如何增量更新并压缩百万 token 上下文](/posts/2025/12/08/google-titans-long-term-memory-inference-update/)
- 日期: 2025-12-08T20:52:20+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 深入 Titans 的 Neural Long-Term Memory 架构，揭示推理时动态更新权重、惊喜指标筛选与 200 万 token 无损召回的工程化细节与落地参数。

### [用 Nango 实现千级 OAuth 连接器热更新：零中断架构与多租户隔离策略](/posts/2025/12/08/nango-oauth-connector-hot-reload-zero-downtime/)
- 日期: 2025-12-08T20:35:17+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 拆解 Nango 如何在千级 OAuth 连接器场景下实现热更新与多租户隔离，提供可落地的工程化参数与监控要点。

### [拆解 Titans 门控记忆层：KV 缓存外的新长上下文结构如何落地推理系统](/posts/2025/12/08/titans-gated-memory-layer-inference/)
- 日期: 2025-12-08T20:04:47+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从惊喜指标到分页策略，给出 Titans 动态记忆模块在推理侧的完整工程化参数与踩坑笔记。

### [Titans 长记忆架构：稀疏门控与增量更新的自托管落地笔记](/posts/2025/12/08/titans-long-term-memory-sparse-gating-incremental-update/)
- 日期: 2025-12-08T19:48:05+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 拆解 Google Titans 记忆模块的稀疏门控与增量更新机制，给出可落地的自托管推理服务上下文缓存方案与参数清单。

### [拆解 Google Titans 记忆模块：神经长久记忆 + 短期上下文窗口实现 2M token 级推理](/posts/2025/12/08/google-titans-long-memory-2m-token/)
- 日期: 2025-12-08T18:39:04+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从惊喜指标到 MIRAS 四维设计空间，给出可落地的超参、监控与回滚方案，让长记忆模型不再只是论文概念。

### [拆解 Google Titans 长期记忆模块：推理阶段如何增量更新并压缩上下文，实现百万 token 级无损召回](/posts/2025/12/08/google-titans-long-term-memory-arch/)
- 日期: 2025-12-08T17:48:14+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 用可写的神经记忆替代外挂 RAG，Titans 在推理阶段动态更新 MLP 权重，以线性成本把上下文压到 200 万 token 仍保持 90% 以上召回。

### [拆解 Titans 记忆模块：如何用「神经长期记忆+短期上下文」在推理阶段实现百万 token 级上下文无损召回](/posts/2025/12/08/titans-long-term-memory-architecture/)
- 日期: 2025-12-08T17:03:45+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 从惊奇度写入到动量遗忘，详解 Google Titans 如何在推理阶段动态维护一个可更新的 MLP 记忆体，把上下文窗口推至 200 万 token 仍保持 90%+ 召回，并给出可直接落地的超参卡与工程 checklist。

### [拆解 Google Titans 的长程记忆层：如何在 2M token 上下文里保持亚线性显存增长并仍支持单卡推理](/posts/2025/12/08/titans-long-context-memory/)
- 日期: 2025-12-08T15:49:23+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 深度解析 Titans 的 Neural Long-Term Memory Module，给出显存≈O(log n) 的工程推导与单卡 2M token 实测配置。

### [拆解 Titans 记忆架构：用长期神经记忆层替代 KV-cache 实现百万 token 级上下文](/posts/2025/12/08/google-titans-long-term-memory-replaces-kv-cache/)
- 日期: 2025-12-08T14:54:31+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: Google Titans 通过神经长期记忆模块替代 KV-cache，实现线性复杂度下的 200 万 token 处理，拆解其 surprise 机制、集成范式与工程参数。

### [Google Titans 架构：神经长期记忆模块实现 2M token 线性推理成本](/posts/2025/12/08/google-titans-linear-long-context-memory/)
- 日期: 2025-12-08T14:33:06+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 拆解 Titans 如何通过深度 MLP 记忆单元、惊喜指标与在线元学习，在仅 1.8× 算力增幅下将上下文窗口扩至 200 万 token 并保持推理成本线性增长。

### [Titans 神经长记忆模块：存储-衰减机制与 Rust 插拔实现模板](/posts/2025/12/08/titans-neural-long-memory-storage-decay-rust-template/)
- 日期: 2025-12-08T14:18:30+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 拆解 Google Titans 架构中 NLTM 模块的惊喜写入与权重衰减机制，提供可插拔的 Rust 代码模板及工程落地参数与监控要点。

### [从 Jupyter 原型到生产部署：工程化 LLM 代理的 RAG、工具调用与评估实践](/posts/2025/12/08/deployable-llm-agents-rag-tool-calling-evals-jupyter-to-production/)
- 日期: 2025-12-08T14:07:48+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 AI Engineering Hub，提供 LLM 代理从 Jupyter 原型到生产管道的工程化参数、工具调用配置、评估指标与部署清单。

### [利用零拷贝缓冲区实现 VibeVoice 流式多说话者分离的亚 100ms 延迟](/posts/2025/12/08/zero-copy-streaming-diarization-vibevoice/)
- 日期: 2025-12-08T12:47:43+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 在 VibeVoice Python 流水线中应用零拷贝缓冲区管理，实现实时流式音频的多说话者分离与 VAD，针对边缘低延迟优化参数与监控要点。

### [用 OpenCode 构建 TypeScript 终端编码代理：迭代精炼循环与工具调用](/posts/2025/12/08/opencode-typescript-coding-agent/)
- 日期: 2025-12-08T11:17:11+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解 sst/opencode TypeScript AI 代理的部署配置、迭代精炼机制、工具调用集成与错误恢复策略，实现自主代码生成工程化。

### [使用 Frigate + Coral TPU/TensorRT 加速实时多摄像头对象检测 NVR](/posts/2025/12/08/accelerating-realtime-multi-camera-object-detection-nvr-with-frigate-coral-tpu-tensorrt/)
- 日期: 2025-12-08T09:46:19+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解 Frigate 配置 Coral TPU/TensorRT 边缘推理、多摄像头优化、运动事件与高效存储参数，实现低延迟实时 NVR。

### [Claude 快速上手：工具调用与 RAG 代理部署模式](/posts/2025/12/08/claude-quickstarts-tool-calling-rag-agents/)
- 日期: 2025-12-08T09:31:25+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 基于 Claude Quickstarts，工程化工具调用、RAG 检索及多步代理的应用模式，给出部署参数、监控清单。

### [高效词袋模型与 TF-IDF：稀疏矩阵操作与词汇剪枝实现可扩展文本分类](/posts/2025/12/08/efficient-bag-of-words-tfidf-sparsity-handling/)
- 日期: 2025-12-08T08:16:42+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 工程化词袋模型管道：TF-IDF向量化、CSR稀疏矩阵、max_features/min_df词汇剪枝参数，实现大规模古典文本分类的高效处理与监控要点。

### [Activepieces：统一 400+ MCP Servers 实现多 LLM AI Agent 工作流编排](/posts/2025/12/08/activepieces-mcp-servers-for-ai-workflow-automation/)
- 日期: 2025-12-08T08:07:01+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 低代码平台 Activepieces 通过开源 Pieces 框架，提供 ~400 MCP servers，支持 Claude Desktop 等工具的 AI agent 编排与自动化工作流。详解部署参数、集成清单与监控要点。

### [PAL-MCP 服务器：统一 MCP 协议集成多 CLI AI 工具](/posts/2025/12/08/pal-mcp-server-unified-mcp-protocol-multi-cli-ai-tooling/)
- 日期: 2025-12-08T06:06:49+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 利用 pal-mcp-server 作为统一 MCP 后端，桥接 Claude Code、Gemini CLI、Codex CLI，支持 OpenAI/Grok/Ollama 等模型，实现一致 AI 代理工具调用与上下文连续。

### [500+ 开源 AI Agent 项目合集：跨行业生产工程实践](/posts/2025/12/08/500-oss-ai-agents-industry-projects/)
- 日期: 2025-12-08T05:31:47+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 汇总 500+ OSS AI Agent 项目，聚焦医疗、金融等行业用例，提取工程模式与部署清单，支持快速生产落地。