ai-systems
机器智能
自托管 Immich 照片库:Docker 部署、手机自动同步、ML 人脸对象检测与存储分片
Immich 开源照片管理平台 Docker 一键部署,支持手机自动备份、机器学习人脸/对象识别,以及高效存储分片模板配置,实现私有化高效照片库。
Next.js 集成 AI 驱动 draw.io:自然语言命令图表编辑实现
基于 Next AI Draw.io,解析自然语言命令生成/修改 draw.io XML 的核心机制、模型参数与部署清单,支持多云架构图高效可视化。
Gemini 3 Pro 融合视觉编码器:1M Token 视频分析与代理视觉推理工程实践
Gemini 3 Pro 的融合视觉编码器实现原生多模态处理,支持 1M Token 长视频分析、图表解读、密集文档 OCR 及视觉代理推理,提供工程化 API 配置与监控参数。
VibeVoice 开源 Python 语音 AI 流水线:实时合成与管道集成
基于 Microsoft VibeVoice 在 Python 中构建实时 TTS 流水线,支持长对话多说话人合成,提供安装、推理参数与 ASR 多模态整合要点。
动手实现 Microsoft ML-For-Beginners 的 26 个经典 ML 练习与测验:回归、聚类、NLP 等
基于 Microsoft 开源课程,从初学者到中级,指导实现回归、分类、聚类、NLP、时间序列等 26 个核心 ML 练习,包含测验、代码参数与优化清单。
Rust 实现的 Codex CLI 终端代理架构:无状态 API 循环与无 DB 会话持久化
剖析 OpenAI Codex CLI Rust 架构,聚焦无状态循环、工具调用集成及本地持久化,实现低延迟编辑的工程参数与监控。
Claude Code 多代理编排工具包:wshobson/agents 的终端自动化实践
基于 wshobson/agents 的 63 插件与 85 代理,实现 Claude Code 智能终端自动化与多代理代码工作流,详解粒度设计、安装参数与协调清单。
H100 GEMM L2驻留优化:warp-specialized TMA异步拷贝与RL调优策略
通过RL搜索warp TMA async copy参数与tile切分策略,实现H100上L2驻留GEMM超越cuBLAS的工程参数与监控要点。
PGlite + pgvector:浏览器端 WASM Postgres 向量索引,实现无服务器实时 RAG
PGlite 结合 pgvector 在浏览器中实现客户端向量索引与相似搜索,支持低延迟本地 RAG。提供完整参数配置、索引优化与监控清单。
NeurIPS 2025 最佳论文工程洞见:门控注意力与深度RL优化
从NeurIPS 2025获奖论文中提取AI系统工程实践:注意力门控的sigmoid参数配置、1024层RL网络batch缩放、扩散隐式正则化阈值等落地要点。
Rust 轻量终端编码代理实现:Codex CLI 的 LLM 集成与状态管理
基于 OpenAI Codex 的 Rust 终端单代理,详述 LLM API 集成、本地工具执行与 CLI 持久化状态的最佳实践与工程参数。
实践NeurIPS 2025最佳论文洞见:门控注意力与深度RL网络
从NeurIPS 2025最佳论文提取可落地insights:门控注意力优化LLM训练稳定性,千层网络提升自监督RL效率,提供PyTorch集成代码、超参阈值、perf基准与监控清单。
从500+开源项目提炼跨行业AI代理编排、工具与评估模式:医疗、金融、零售实践
基于500+开源AI代理项目,总结医疗、金融、零售领域的编排(supervisor、多层)、工具集成(RAG、SQL)和评估(模拟、AgentEval)模式,提供可落地参数与清单。
构建 LLM 交易竞技场:5 模型实盘部署 10 万美元 8 个月实战工程
工程化 LLM 股票交易竞技场,支持 5 模型 10 万美元实盘、实时执行、回测与 Sharpe 比率等风险分析,提供落地参数与监控要点。
LLM工程基础:分词方案、缩放定律、预训练/微调策略与KV缓存优化
基于ZJU-LLMs教材与经典论文,工程化剖析LLM管道:BPE分词、Kaplan/Chinchilla缩放定律、PEFT微调及KV缓存量化/分页优化,提供参数清单与监控要点。
用 RL 自动调优 CUDA GEMM 内核:超越 cuBLAS 在 A100/H100 性能
CUDA-L2 通过强化学习搜索 GEMM 调度与平铺策略,在 A100 上 1000 个配置中多数超越 cuBLAS。给出工程部署参数、基准脚本与 QPS 监控要点。
Claude 多代理编排:终端代码自动化工作流工程实践
基于 Claude Code 的 agents 项目,实现多代理协作的终端代码自动化。详解插件安装、混合模型编排参数与工作流监控要点。
TypeScript 终端 AI 编码代理构建:Opencode 与 Claude 集成及多代理编排
基于 Opencode 开源框架,用 TypeScript 实现终端 AI 编码代理,集成 Claude 模型,支持代码编辑、自动化任务及多代理协作,提供工程参数与部署清单。
Rust 实现的 Codex 终端编码代理:Execpolicy 配置与安全实践
OpenAI Codex CLI 轻量 Rust 终端代理,支持代码生成编辑自动化。详解 Execpolicy 参数、Sandbox 清单与工程化落地要点。
Next.js + AI 对话式 Draw.io 图表生成:工程化管道实践
基于 Next.js 的 next-ai-draw-io 开源应用,通过自然语言与 AI 协作创建/修改 Draw.io 图表。聚焦对话式工程管道,包括多 LLM 支持、XML 处理、历史版本管理与生产部署参数。
AI 代理 API 驱动外呼电话:电话后端与 STT/LLM/TTS 实时集成
通过 API 发起 AI 代理外呼,实现电话后端与 STT/LLM/TTS 的实时自然对话与呼叫控制,提供工程参数与监控要点。
NoeticMap 濒死体验 AI 流水线:从报告到沉浸式音频
剖析 NoeticMap 处理 8000+ 濒死报告的 AI 管道:LLM 提取总结、主题聚类、TTS 音频化,提供工程化参数与落地清单。
VERL PPO训练器中的FSDP3D分片、价值剪裁与KL控制:大规模LLM RLHF稳定训练
VERL框架下PPO训练器利用FSDP3D分片策略实现高效模型重分片,结合价值函数剪裁和自适应KL控制,确保亿参数级LLM在分布式RLHF中的梯度稳定与策略收敛。
4k+ n8n 工作流合集:无代码 AI Agent 编排与 ETL 管道实战
精选 4343 个 n8n 工作流资源库,支持在线搜索与 Docker 部署,实现 AI Agent 协调、ETL 数据管道的无代码落地。
Memori:LLM 代理的分层语义内存持久化、检索与去重 LRU 优化
基于 Memori 开源引擎,实现 LLM 代理的可扩展内存系统,包括分层持久化、语义检索、去重机制、LRU 驱逐与压缩策略,支持多代理协作。
剖析CoT提示工程缺陷:自一致采样与MCTS工程替代
揭示思维链CoT的长度爆炸、一致性低与幻觉放大缺陷,提供Self-Consistency采样(40路径,temp=0.7)和ToT-MCTS树搜索(分支5、深度4、LLM评估)的工程参数、清单与监控要点。
Milvus DiskANN 混合索引与动态分片:亿级 ANN 搜索延迟优化
Milvus 云原生向量数据库,利用 DiskANN 磁盘混合索引、动态分片和多向量过滤,实现亿级规模 ANN 搜索的低延迟和高吞吐工程参数。
JetBrains代理式开发环境:AI智能体驱动的多步骤任务自动化实践
解析JetBrains代理式开发环境的核心技术栈,提供AI智能体在代码生成、测试与任务编排中的工程化参数配置与风险控制清单。
LightRAG 双路径检索生产实现:降低 RAG 延迟 60% 的工程参数
LightRAG 通过双路径(local+global)检索结合向量和知识图谱,在生产中以 hybrid 模式将 RAG 延迟降低 60%,本文给出部署参数、阈值优化与监控清单。
LightRAG 双路径检索生产部署:延迟降低 60% 的工程实践
基于 LightRAG 的双路径检索架构,在生产环境中通过 hybrid 模式与参数优化,实现 RAG 延迟降低 60%,并提供完整部署参数与监控清单。
Docker部署TrendRadar:35平台热点聚合与MCP AI分析管道
基于Docker的TrendRadar部署方案,聚合35+平台热点,支持MCP协议AI工具进行趋势追踪、情感分析与多渠道通知,实现工程化舆情监控。
Phind mini-app 答案:代码合成与 iframe 嵌入的交互探索
Phind 为每个搜索答案生成交互式 mini-app,通过 AI 代码合成和 iframe 安全嵌入,实现可执行探索,提供工程参数与监控要点。
Phind mini-app 答案:代码合成与 iframe 嵌入的交互探索
Phind 为每个搜索答案生成交互式 mini-app,通过 AI 代码合成和 iframe 安全嵌入,实现从静态文本到可执行探索的跃升,提供工程化参数与监控要点。
TrendRadar:35平台热点聚合+MCP AI分析pipeline的工程部署与推送集成
详解TrendRadar工程实践:35平台(抖音/知乎/B站等)热点监控+MCP 14工具AI分析,支持Docker部署、企业微信/Telegram推送的关键参数与优化。
ADK-Go 中并行工具分发与状态检查点恢复机制
基于 Go 的 AI agent 工具包 ADK-Go,实现 parallel tool dispatch 通过 ParallelAgent,利用 goroutines 并发执行工具调用;state checkpointing 依赖 session 模块,支持长运行会话的故障恢复与 tracing 监控。
Call Center AI 的状态化多轮电话管道:实时对话、Claim 收集与持久化
基于 Microsoft Call Center AI,解析 API 触发状态化多轮电话代理的核心管道,支持实时 ASR/TTS、Claim schema 数据收集、断线续传与人工转接,实现客服全链路自动化。
LightRAG 双本地-全局图索引与查询融合蒸馏:在低内存边缘设备上实现亚秒级 RAG 延迟
LightRAG 通过双层图索引、查询融合蒸馏和模型量化,在内存不足 6GB 的边缘设备上实现亚秒级 RAG 延迟,提供参数配置与部署清单。
Anthropic收购Bun后:Zig驱动的高吞吐JS Runtime赋能AI代理Serverless部署
Anthropic收购Bun后,利用Zig构建的高性能JS运行时优化AI代理的serverless部署与流式响应,提供具体参数配置与监控要点。
LightRAG 双图索引+查询融合蒸馏:高效RAG落地参数与监控
剖析 LightRAG dual-graph 构建、hybrid 查询融合与 KV 蒸馏机制,提供初始化参数、阈值清单与生产回滚策略。
构建鲁棒手写识别管道:连笔分段、倾斜归一化与语言模型融合
针对多样脚本的手写文本识别(HTR),给出连笔笔画分段、仿射变换倾斜校正及上下文语言模型融合的工程参数与监控要点,实现>95%准确率。
Ecosia最低碳足迹AI搜索工程化:低功耗模型推理、绿色数据中心调度与可再生能源集成优化
工程化Ecosia AI搜索最低碳足迹实践:INT8量化减能耗50%、碳强度调度阈值<100g/kWh、PPA绿电集成,实现PUE 1.15。
Memori 分层语义去重与 LRU 驱逐及 compaction 阈值:LLM 多代理高效长期记忆
Memori 通过分层语义去重、LRU 驱逐策略与 compaction 阈值,实现 LLM 代理及多代理系统高效长期记忆管理,详解工程参数、监控要点与落地清单。
API触发有状态多轮电话AI管道:实时ASR/TTS集成与session checkpointing
基于Microsoft call-center-ai的工程实践,详解API触发stateful电话AI代理的低延迟流式管道参数、session checkpoint机制与监控要点。
AI 代理压力测试管道:模拟日常对抗场景下规则违规检测与缓解
基于 PropensityBench 基准,设计工程化压力测试管道,包括场景构建、压力梯度注入与多层缓解策略,确保代理在高压环境下遵守规则。
Mistral 3 中小型模型的多模态融合与长上下文高效部署
剖析 Ministral 3 系列的视觉-文本融合机制、256k 上下文处理优化,以及单 GPU 到边缘设备的可扩展部署参数与监控要点。
TrendRadar:多平台热点聚合 + MCP驱动AI分析管道
TrendRadar聚合35+平台热点,通过MCP协议驱动AI管道,实现趋势追踪、情感分析等13工具,支持Docker部署与多渠道推送,提供工程化参数与监控要点。
工程化 StutterZero 实时语音转换 pipeline:结巴检测、转录纠错与 speech-to-speech 流式生成
基于 StutterZero 和 StutterFormer 的端到端结巴语音修正 pipeline,实现低延迟流式检测、转录纠错与 TTS 合成,支持实时应用部署。
LightRAG EMNLP 管道:双图索引与查询融合的简单快速 RAG 实现
LightRAG EMNLP 管道通过本地/全局双图索引 + 查询融合,实现简单快速 RAG,支持高效本地部署与低资源检索增强。
Memori:分层语义记忆去重压缩引擎,支持LLM代理长期召回
Memori开源引擎通过embedding聚类与vector存储,实现分层记忆(entity/process/session)的dedup compaction,支持多代理长期语义召回。一行集成,节省80%存储,落地参数详解。
ADK-Go 中 Code-First 并行工具分发:状态检查点与追踪控制
剖析 ADK-Go 如何通过 Go 并发原语实现 agents 的并行工具调用,支持状态持久化恢复与细粒度追踪,提升生产级部署灵活性。
LightRAG 查询融合蒸馏管道:双图索引下的高效检索优化
LightRAG 通过双本地-全局图索引与查询融合蒸馏管道,实现 LLM 调用减少 50%,同时提升召回率与响应速度,提供工程阈值参数与落地清单。
Qwen3-VL 长视频细节提取:架构创新与工程参数
Qwen3-VL 通过 interleaved MRoPE、DeepStack 和文本时间戳,实现2小时视频(约100万token)的高精度细节定位,提供部署阈值、监控清单与回滚策略。
API调用触发电话AI代理:微软Call Center AI的客服自动化管道
通过API一键触发AI代理拨打电话,或配置号码直连bot,实现实时ASR/TTS客服管道。详解参数配置、部署清单与监控要点。
用 Milvus DiskANN 构建亿级向量搜索引擎:混合多向量过滤与云原生分片
DiskANN 磁盘索引结合混合多向量搜索与 Kubernetes 分片,实现亿级嵌入的高效 ANN 检索,附参数调优与运维清单。
Claude 4.5 Opus 的 Soul Document 机制:模型自省与跨对话记忆工程化
解析 Claude 4.5 Opus Soul Document 如何实现内部自省状态持久化,提供跨对话记忆的工程参数、监控阈值与落地清单,提升长上下文任务稳定性。
Trainium3 与 P5 实例:自定义硅 FP8 格式与 Neuron 编译器融合实现 LLM 训练 4 倍加速
Trainium3 通过 3nm 工艺、FP8 精度、Neuron 编译器融合运算及 Trn3/P5 集群扩展,实现较 Trainium2 4 倍 LLM 训练加速,提供工程参数与监控清单。
ADK-Go:AI代理并行评估、自定义基准与检查点感知部署实践
基于 Google ADK-Go 工具包,详解 Go 并发驱动的并行代理评估、自定义基准测试集配置,以及 session checkpoint 保障的可靠部署参数与监控清单。
LightRAG 双图查询融合与知识蒸馏:高效 RAG 工程实践
LightRAG 通过双本地/全球图索引、查询融合机制与知识蒸馏优化,实现大规模文档的高效检索与生成,提供生产参数配置与监控要点。
Mistral 3 Medium/Small 模型架构:高效多模态融合、长上下文扩展与生产级低延迟推理
剖析 Mistral 3 Medium 和 Small 模型的多模态融合机制、128k 长上下文扩展及基准性能,提供生产级部署参数、阈值监控与回滚清单。
Mistral 3 系列工程实践:指令调优、长上下文与高效推理部署
基于 Mistral 3 系列模型,详解指令调优流程、长上下文优化、多模态融合及高效推理部署的参数配置与监控要点,实现生产级落地。
Mistral 3 模型家族推理管道工程化:扩展、量化和多模态部署优化
针对 Mistral 3 开源多模态模型家族,详解推理服务的 scaling、量化压缩及多模态部署的关键工程参数与最佳实践。
ADK-Go:Code-First Go Toolkit 中的并行工具分发与状态检查点恢复
基于 Google ADK-Go 工具包,工程化实现 AI Agent 的并行工具调用、状态快照保存与检查点恢复,支持多步复杂系统的可靠执行与追踪监控。