ai-systems

共 7658 篇文章。

LLM函数调用驱动Excel公式动态生成与数据处理自动化实践

深入解析GPT-5.4函数调用能力在Excel公式动态生成中的应用，输出工程化落地的参数配置、监控指标与自动化管道设计要点。

2026-04-16ai-systems2026-04

Claude Code 游戏工作室架构：49 个 AI Agent 的三层编排体系

基于 49 个 AI Agent 与 72 个工作流技能的完整游戏开发工作室编排架构解析。

2026-04-16ai-systems2026-04

动手学大模型：来自上海交大的LLM编程实践教程指南

《动手学大模型》是由上海交通大学开发的开源编程实践教程，通过代码驱动方式讲解大模型微调、提示工程、知识编辑等核心技术，适合入门者快速上手LLM工程实现。

2026-04-16ai-systems2026-04

多智能体编排系统中的积分消耗机制与伦理边界：以 Gas Town 为例

剖析 Gas Town 这类多智能体编排平台的积分消耗模式，探讨资源使用透明度、用户知情权与潜在的环境伦理问题。

2026-04-16ai-systems2026-04

Vercel Open Agents 架构解析：Agent 与沙箱的分离设计

深入解析 Vercel 开源云代理模板的核心架构设计，探讨 Agent 运行时与沙箱隔离的分离策略及其工程优势。

2026-04-16ai-systems2026-04

Claude-Mem 会话记忆压缩插件：跨会话上下文恢复的工程化实践

深入解析 Claude-Mem 如何通过生命周期钩子实现会话级全量操作捕获与 AI 语义压缩，提供可落地的工程参数与监控要点。

2026-04-16ai-systems2026-04

Gemma 2B CPU 推理性能优化：量化策略与边缘部署实战指南

深入分析 Gemma 2B 在 CPU 上的推理性能优化路径，涵盖 GGUF 量化、llama.cpp 参数调优及边缘部署工程考量，提供可落地的参数配置清单。

2026-04-16ai-systems2026-04

Gemini Robotics-ER 1.6 实体推理技术解析：指向计数与仪表读数的机器人多模态理解

深入解析 Google DeepMind Gemini Robotics-ER 1.6 在实体 AI 领域的多模态推理技术突破，涵盖空间指向、目标计数、任务成功检测及仪表读数等核心能力与准确率数据。

2026-04-16ai-systems2026-04

Gemini Robotics-ER 1.6 实体推理详解：指向计数与仪表读数的机器人多模态理解

解析 Google DeepMind Gemini Robotics-ER 1.6 在实体 AI 领域的多模态推理技术突破，涵盖空间指向、目标计数、任务成功检测及仪表读数等核心能力。

2026-04-16ai-systems2026-04

Libretto 如何实现 AI 浏览器自动化的确定性

深入解析 Libretto 通过自愈式选择器和语义定位器解决 AI 驱动浏览器自动化中的非确定性难题，提供可落地的工程化参数与监控方案。

2026-04-16ai-systems2026-04

工程实践中的逆向思维：传统方法为何能在语言分析中匹配或超越 AI

基于近年研究与行业实践，探讨在特定语言分析任务中，传统算法为何能匹配甚至超越大型语言模型，并给出工程实践中的具体抉择参数。

2026-04-16ai-systems2026-04

AI 驱动文件类型检测：Magika 如何实现 99% 准确率与 5ms 延迟

深度学习模型替代 magic bytes 进行文件类型检测，在混淆格式识别上准确率显著提升，推理延迟控制在 5ms 级别。

2026-04-15ai-systems2026-04

MCP 协议作为 AI Agent 与内核 Tracepoints 的观测接口

将 MCP 协议作为 AI Agent 与内核 tracepoints 的观测接口，打通模型推理过程与系统级可观测性的工程实践。

2026-04-15ai-systems2026-04

Magika 文件类型检测：深度学习模型架构与推理优化实践

深入解析 Google Magika 如何利用深度学习实现毫秒级文件类型检测，涵盖模型架构设计、ONNX 推理优化及生产环境部署参数。

2026-04-15ai-systems2026-04

从3K种子代码到技能树：GenericAgent自进化架构与6倍Token优化实践

解析GenericAgent如何通过分层记忆与最小工具集实现代理自进化，形成用户专属技能树并将Token消耗降至1/6。

2026-04-15ai-systems2026-04

Claude Code Routine 组合模式：链式编排复杂工作流

深度探讨 Claude Code 中 Routine 的组合模式：如何将多个独立 Routine 链式编排为复杂工作流，实现任务分解与可复用编排。

2026-04-15ai-systems2026-04

多主体AI量化交易系统架构设计：以AI Hedge Fund为例

深入解析基于19个专业化AI Agent的量化交易流水线，涵盖角色分工、数据管道、风险管理及策略回测的完整工程实现。

2026-04-15ai-systems2026-04

Gemma 4 iPhone 全离线推理：量化策略、Core ML 集成与延迟优化工程实践

详解 Google Gemma 4 在 iPhone 端侧部署的模型量化参数、Core ML 转换工作流与推理延迟优化实践。

2026-04-15ai-systems2026-04

面向可重复任务自动化的工程实践：Claude Code Routines 状态持久化与跨会话恢复机制深度解析

深度解析 Claude Code Routines 的工程实现：任务自动化配置、三种触发机制、运行状态持久化与跨会话恢复的技术细节与落地参数。

2026-04-15ai-systems2026-04

Superpowers 方法论评估：Agentic Skills 的工程化实践与技术成熟度分析

从技术成熟度、核心原则与工程实用性三个维度评估 Superpowers 作为 Agentic Skills 开发方法论的价值与局限。

2026-04-15ai-systems2026-04

金融领域大模型推理延迟优化实战：Kronos 的批处理、缓存与量化部署策略

聚焦金融领域大模型 Kronos 的推理部署优化，详解连续批处理策略、KV 缓存复用与量化部署的具体参数配置与落地要点。

2026-04-15ai-systems2026-04

andrej-karpathy-skills 工程化实践：CLAUDE.md 的 skill 定义模式与行为约束最佳实践

解析 andrej-karpathy-skills 项目如何通过 CLAUDE.md 配置约束 AI 编码行为，给出工程化落地的 skill 定义模式与最佳实践。

2026-04-15ai-systems2026-04

面向自成长的 Agent 架构：Hermes Agent 的递归技能构建与运行时动态技能获取

解析 Hermes Agent 如何通过闭环学习循环实现技能自创建与运行时动态获取，剖析其递归能力扩展的工程化实现路径。

2026-04-15ai-systems2026-04

面向华尔街的 Claude Code：LangAlpha 金融工作流代理框架设计解析

解析 LangAlpha 如何借鉴 Claude Code 设计理念，为金融场景构建持久化沙盒与领域上下文注入的工作流代理框架。

2026-04-15ai-systems2026-04

开源模型工具调用的 M×N 评估难题：组合复杂度下的性能衰减度量

系统解析开源模型在工具数与参数组合维度下的评估挑战，给出 M×N 复杂度度量框架与分层测试策略。

2026-04-15ai-systems2026-04

渐进式披露与上下文窗口调度：Claude-Mem 的记忆分层策略

解析 Claude-Mem 的渐进式披露机制，探讨 AI 编码代理如何通过三层工作流实现上下文窗口的高效调度与记忆分层。

2026-04-15ai-systems2026-04

基于 Skill 定义的 LLM 编码行为约束框架：Superpowers 实践解析

深入解析 Superpowers 框架如何通过 skill 定义将编码最佳实践转化为可执行的自动化规则，实现 LLM 编码行为的有序控制。

2026-04-15ai-systems2026-04

Karpathy 观察启示：LLM 编码的四大行为陷阱与工程化应对

基于 Andrej Karpathy 的实测观察，解析 LLM 编码中的假设盲区、过度工程、边界腐蚀与目标迷失四大陷阱，给出可落地的工程约束参数。

2026-04-15ai-systems2026-04

Plain 双模式架构：同时服务人类开发者与 AI Agent 的全栈 Python 框架

解析 Plain 作为 Django fork 如何通过 Rules、Docs、Skills、CLI 四层架构同时服务人类开发者与 AI Agent，探讨其类型安全与显式设计的工程价值。

2026-04-15ai-systems2026-04

ClawRun 秒级部署架构解析：Firecracker 微虚拟机与状态快照工程实践

深度剖析 ClawRun 平台如何在秒级完成 AI Agent 部署，涵盖 Vercel Sandbox 的 Firecracker 微虚拟机隔离、水平扩缩容策略与状态管理工程实现。

2026-04-15ai-systems2026-04

Kronos 金融基础模型架构解读：K线语言的自回归Transformer训练范式

解析首个专注金融市场K线序列的开源基础模型，剖析其分层量化Tokenizer与自回归Transformer的联合训练机制。

2026-04-15ai-systems2026-04

面向 LLM 应用的根因分析 Agent 架构设计：Kelet 自动错误追踪与故障定位

深度解析 Kelet 如何通过 Signal 机制与自动化错误传播链追踪，实现多轮对话中的故障根因定位与修复方案生成。

2026-04-15ai-systems2026-04

Voicebox 实时流式语音合成 Pipeline 架构与低延迟实现

解析开源 Voicebox 语音合成 studio 的异步生成队列、SSE 流式传输、自动分片与交叉淡入淡出等工程细节，提供低延迟流式输出的关键参数与监控建议。

2026-04-15ai-systems2026-04

LLM 代码冗余度量化：从 token 浪费到自动化重构阈值

面向 LLM 生成代码的冗余度问题，定义可量化的度量指标并给出工程化的优化策略与重构触发阈值。

2026-04-14ai-systems2026-04

构建 Polymarket 非体育事件空头机器人：市场分类与自动化做市实战

面向 Polymarket 预测市场，设计非体育事件识别模块与自动化空头做市策略，提供市场分类参数、做市逻辑、止盈止损阈值及 Gas 成本优化方案。

2026-04-14ai-systems2026-04

开源模型工具调用评测的 M×N 矩阵复杂度与工程化应对

深入分析开源模型工具调用评估中 M 种工具与 N 个模型的组合矩阵复杂度问题，并给出工程化评测框架的设计要点与可落地参数。

2026-04-14ai-systems2026-04

开源模型多工具调用能力评估：基准测试与工程实践要点

系统梳理 BFCL、ToolBench 等主流基准测试，剖析开源模型在多工具调用场景下的能力差异与工具编排工程挑战。

2026-04-14ai-systems2026-04

从 Vibe Coding 到 Agentic：Claude Code 工程化实践方法论

系统化梳理从直觉式 vibe coding 到结构化 agentic 工程的核心路径，聚焦 Claude Code 在真实项目中的落地参数与最佳实践。

2026-04-14ai-systems2026-04

构建可组合的AI代理技能系统：Superpowers框架深度解析

解析obra开发的Superpowers框架，探讨其可组合技能设计理念与工程化实践，为AI代理系统的技能管理提供可落地的架构参考。

2026-04-14ai-systems2026-04

Microsoft MarkItDown 文档转换管道：多格式提取与布局保留工程实践

深入解析 Microsoft MarkItDown 的文档转 Markdown 管道工程，涵盖格式自动检测、插件化转换器注册、流式处理接口与结构保留策略。

2026-04-14ai-systems2026-04

用纯 SQL 在 Postgres 中实现 MOS 6502 微处理器的工程挑战与指令集映射

解析 pg_6502 项目如何用纯 SQL 函数与表结构映射 6502 指令集，并探讨其工程实现细节与性能权衡。

2026-04-14ai-systems2026-04

DaVinci Resolve RAW 照片处理管线：色彩科学与 GPU 加速架构深度解析

剖析 DaVinci Resolve 21 的 RAW 照片处理管线设计，涵盖 YRGB 色彩科学、GPU 加速策略与解码参数配置。

2026-04-14ai-systems2026-04

自省扩散语言模型的 token 生成机制与工程实践

深入解析 I-DLM 的 Introspective Strided Decoding 机制，提供 token 生成的验收标准、 stride 参数配置与服务集成方案。

2026-04-14ai-systems2026-04

从 Vibe Coding 到 Agentic Engineering：工作流演进参数与实践

探讨 Claude Code 开发者如何从 vibe coding 过渡到 agentic engineering，提取可操作的工作流改进参数，包括 CLAUDE.md 书写规范、命令与技能的使用阈值、上下文管理策略等。

2026-04-14ai-systems2026-04

主流 LLM 在真实代码库 CVE 检测中的能力评估：准确率、覆盖度与误报率数据对比

基于 N-Day-Bench 最新评估结果，深度分析 GPT-5.4、Claude Opus 4.6 等主流模型在真实 GitHub 仓库漏洞检测任务中的准确率、漏洞类型覆盖与误报率工程数据。

2026-04-14ai-systems2026-04

轻量级 meta-prompting 实战：GSD 框架如何用规格驱动 Claude Code 开发

解析 get-shit-done 框架通过上下文工程与规格驱动开发解决 AI 编码助手的上下文衰减问题，提供可落地的配置参数与工作流设计。

2026-04-14ai-systems2026-04

AMD GAIA：消费级硬件上的本地 AI Agent 框架设计

深度解析 AMD 开源的本地 AI Agent 运行时架构，基于 Ryzen AI NPU+iGPU 混合加速的工程实现与隐私保护设计。

2026-04-14ai-systems2026-04

Voicebox流式推理Pipeline工程化实践：低延迟音频Buffer与多声线调度

深入解析开源语音合成Studio的流式推理架构，涵盖音频Buffer参数、多声线调度策略与工程化落地的关键阈值。

2026-04-14ai-systems2026-04

SnapState：为 AI Agent 工作流提供持久化状态管理方案

解析 SnapState 如何通过 Checkpoint、Resume 与 Replay 机制，为 AI Agent 提供运行时状态保持与断点续训能力，填补工作流持久化的技术空白。

2026-04-14ai-systems2026-04

弥合AI认知鸿沟：工程团队的产品落地策略

基于斯坦福HAI 2026报告分析AI从业者与公众的认知差异，为工程团队提供产品落地时的沟通策略与实操参数。

2026-04-14ai-systems2026-04

CLAUDE.md 手动工程化与自动上下文压缩：LLM 编码助手的两种优化范式对比

对比基于 Karpathy 观察的手动 CLAUDE.md 规则工程与 claude-mem 的自动上下文压缩实现，解析两种 LLM 编码助手优化路径的工程差异与适用场景。

2026-04-14ai-systems2026-04

AMD GAIA 框架解密：本地 AI Agent 运行时架构与边缘部署优化

深入解析 AMD GAIA 开源框架的本地 AI Agent 运行时架构，聚焦边缘设备的 NPU/GPU 协同加速策略与隐私优先的部署方案。

2026-04-14ai-systems2026-04

任务看板与技能复合：Multica 托管代理平台的架构设计

解析开源托管代理平台 Multica 如何通过任务生命周期管理、实时进度流与技能累积机制，将 AI 代理转化为可协作的团队成员。

2026-04-14ai-systems2026-04

Polymarket单边卖No策略的库存风险管理与做市商返利优化

聚焦持续卖出No头的单边做市策略，从金融工程角度分析寸头管理、对手方风险暴露、对冲成本计算与做市商返利优化路径。

2026-04-14ai-systems2026-04

构建 Polymarket 自动化机器人：过滤非体育市场与持续买入 No 合约的工程实现

详解如何通过 Polymarket CLOB API 构建自动化交易机器人，实现非体育市场过滤与 No 合约持续买入的完整工程方案。

2026-04-14ai-systems2026-04

多代理量化交易系统架构：角色分工、数据流编排与策略执行

深入解析开源 AI 对冲基金项目的多代理系统架构设计，涵盖 19 个专业化代理的角色分工、集中式状态管理与串并联混合的数据流编排模式。

2026-04-14ai-systems2026-04

Claude-Mem 深度解析：会话级自动记忆压缩与上下文注入机制

剖析 Claude Code 插件如何通过 5 个生命周期钩子实现会话上下文自动捕获，利用 AI 压缩后注入未来会话，突破上下文窗口限制。

2026-04-14ai-systems2026-04

构建 AI Agent 基准污染检测流水线：自动化架构与工程参数

围绕 AI Agent 基准污染检测流水线，详述数据泄露与基准腐化的自动化识别架构、工程实现参数及持续监控策略。

2026-04-13ai-systems2026-04

AI智能体基准测试系统性攻陷：揭示主流基准的脆弱点

解析RDI Berkeley研究团队如何利用基准本身的结构性脆弱点，实现零任务解决到接近满分的系统性攻击手法。

2026-04-13ai-systems2026-04

主流AI智能体基准测试的系统性攻陷：从零任务解决到接近满分

解析RDI Berkeley研究团队如何利用基准本身的结构性脆弱点，实现零能力获取高分的系统性攻击手法。

2026-04-13ai-systems2026-04

Hermes-Agent 技能复合机制：显式能力单元的递归增长

解析 Hermes-Agent 如何通过显式 skills 的组合实现递归能力增长，区别于传统持续学习的隐式适应机制。

2026-04-13ai-systems2026-04

GSD 元提示框架：面向 Claude Code 的规范驱动开发实践

深度解析 GSD 元提示工程框架的核心机制：上下文工程、XML 格式化提示、原子化提交与质量门禁，提供可落地的配置参数与工作流设计。

2026-04-13ai-systems2026-04

Voicebox Web 端实时流式合成管线的工程实践

深入解析 Voicebox 开源语音合成 studio 的 Web 端实时流式管线架构，涵盖 SSE 状态推送、Web Audio 集成、自动分片与交叉淡入淡出等核心工程实践。

2026-04-13ai-systems2026-04

Voicebox实时语音合成管线工程解析：交互式管线与批处理TTS的架构差异

深入解析Voicebox基于TypeScript的全栈实时语音合成架构，对比VoxCPM2批处理TTS的工程差异，聚焦交互管线、异步队列与SSE流式传输的工程实践。

2026-04-13ai-systems2026-04

Deep-Live-Cam 实时推理优化：ONNX 执行提供者配置与帧率调优实战

聚焦单图实时人脸交换的高效推理管道优化，给出 ONNX 执行提供者配置参数、线程调度策略与监控要点。

2026-04-13ai-systems2026-04

Token Bucket 算法实现 LLM API 速率限制：工程参数与调优实践

深入解析 Token Bucket 算法的工程实现，涵盖桶容量、填充速率、令牌成本估算与突发流量处理的具体参数配置。

2026-04-13ai-systems2026-04

Gemma 4 本地推理实战：Codex CLI 集成配置与硬件选型指南

详解在 Codex CLI 环境中部署 Google Gemma 4 的工程配置、量化策略与不同硬件层级下的内存优化方案。

2026-04-13ai-systems2026-04

AI 在前端工程中的结构性困境：技术根因与工程实践挑战

深入分析 AI 在处理前端任务时的核心瓶颈：DOM 结构理解不足、布局依赖缺失、样式推理困难等技术根因。

2026-04-13ai-systems2026-04

金融时序基础模型 Kronos 解析：K线语言模型预训练范式与微调实战

深入解析 Kronos 金融时序基础模型的预训练范式与微调策略，对比其与通用 LLM 在市场预测、因子挖掘上的工程差异。

2026-04-13ai-systems2026-04

苹果Neural Engine边缘推理：硬件AI协同如何筑起技术护城河

解析苹果Neural Engine专用推理加速器的架构优势，对比云端GPU/TPU方案，探讨边缘AI时代硬件与软件协同设计的核心竞争逻辑。

2026-04-13ai-systems2026-04

AI Agent 基准游戏化检测：数据泄露、奖励黑客与过拟合的工程化防御策略

深入解析 AI Agent 基准游戏化的三大核心攻击向量：数据泄露、奖励黑客、过拟合，并给出可落地的工程化检测参数与防御阈值。

2026-04-13ai-systems2026-04

Hermes-Agent自改进框架：技能习得、反馈循环与动态能力扩展的工程实现

深入解析Hermes-Agent的持续学习机制，从技能自主创建、记忆系统管理到会话搜索，揭示智能体如何在执行中学习和扩展能力。

2026-04-13ai-systems2026-04

AMD ROCm与NVIDIA CUDA互操作工程实践：工具链、移植路径与多供应商部署策略

从HIPify到Triton，深度解析ROCm与CUDA互操作的技术实现路径、移植工作流优化及多供应商GPU集群的工程挑战与生态建设方向。

2026-04-13ai-systems2026-04

Anthropic 缓存 TTL 静默下调事件解析：2026年3月6日变更的技术影响与应对

深入分析 Anthropic 于2026年3月6日将提示缓存 TTL 从1小时下调至5分钟的技术动因、对生产系统的成本影响及工程团队的具体应对策略。

2026-04-13ai-systems2026-04

基于 Archon 构建可复现 AI 编码评估 Harness 的工程实践

深入解析如何利用 Archon 框架构建自动化评测体系，实现 AI 编码能力的可量化评估与结果全链路追溯。

2026-04-13ai-systems2026-04

Hermes-Agent 多代理技能组合与工具编排模式：任务分配与进度追踪设计

深入解析 Hermes-Agent 框架的多代理编排架构，涵盖技能组合机制、工具调用模式、任务分解策略与进度追踪的工程化实现。

2026-04-13ai-systems2026-04

Blender MCP 集成实战：Python 端 MCP Server 注册与 Agent 工具调用

深入解析 blender-mcp 架构，探讨 Blender 与 AI Agent 的 MCP 协议集成实现细节，包含 Python 端 MCP Server 注册、Blender API 调用封装与工具发现机制。

2026-04-13ai-systems2026-04

构建AI基准测试污染检测Pipeline：Clean Test Set设计规范与工程实践

从攻击防御两侧视角出发，给出AI Agent基准测试的污染检测Pipeline架构与Clean Test Set设计规范，包含可落地参数与实施清单。

2026-04-13ai-systems2026-04

Claudraband 实战：打造高阶用户的 Claude Code 可编程工具链

深入解析 Claudraband 如何为 Claude Code 提供会话持久化、HTTP 守护进程与 ACP 集成能力，帮助开发者构建自定义工作流。

2026-04-13ai-systems2026-04

VoxCPM2无分词器架构解析：实时语音克隆的首包延迟优化

从工程视角分析VoxCPM2 tokenizer-free架构如何消除传统TTS分词器延迟瓶颈，给出实时语音克隆场景下的首包延迟优化参数与生产部署建议。

2026-04-13ai-systems2026-04