ai-systems

Explore engineering deployable LLM agents using Parlant, focusing on low-latency orchestration, state persistence, and industrial automation integration.

阅读全文 →

2025年09月08日

工程化部署可控 LLM 代理：Parlant 的快速设置与行为指南

面向真实世界控制的 LLM 代理工程化部署，给出 Parlant 的快速设置、行为指南和实时约束处理的工程参数与监控要点。

阅读全文 →

2025年09月08日

工程化 GPT-5 搜索增强生成管道：实时推理与信息检索优化

面向对话 AI 接口，给出 GPT-5 搜索增强生成管道的工程参数、实时推理优化与监控要点。

阅读全文 →

2025年09月08日

GPT-5 管道中的 Token 级搜索增强工程化：动态阈值优化低延迟实时推理

在 GPT-5 管道中工程化 token 级搜索增强，使用动态阈值优化粒度检索，实现多轮交互中的低延迟实时推理。

阅读全文 →

2025年09月08日

预算660美元内实现双臂移动家用机器人的控制系统：硬件执行器、传感器融合与路径规划

在低预算下，为双臂移动家用机器人构建控制系统，整合执行器、传感器融合和路径规划，实现家务任务自动化。

阅读全文 →

2025年09月08日

实现本地嵌入的语义grep：使用Claude代码构建向量索引的查询优化与阈值选择

基于Claude生成的代码示例，探讨本地嵌入模型在语义grep中的应用，聚焦向量索引构建、近重复查询优化及阈值选择策略，以提升代码检索的精度和效率。

阅读全文 →

2025年09月08日

GPT-5 管道中实现 token 级搜索集成：细粒度实时推理与低延迟检索阈值

面向 GPT-5 的 token 级搜索增强，给出低延迟检索阈值、不确定性评分机制的工程实现参数与监控要点。

阅读全文 →

2025年09月08日

将 Research Goblin 集成到 ChatGPT 以实现 GPT-5 中的粒度搜索增强：实时查询检索与推理提升，无需外部 API

探讨 Research Goblin 工具在 ChatGPT 中的集成策略，聚焦 GPT-5 实时查询检索与推理增强机制，实现无需外部 API 的高效搜索。

阅读全文 →

2025年09月08日

用 UI-TARS 集成多模态 AI 代理基础设施：桌面部署的 TypeScript 编排与低延迟推理管道

探讨 UI-TARS-desktop 中 TypeScript 编排机制与低延迟推理管道的集成，实现多模态 AI 代理的桌面部署工程化参数与优化策略。

阅读全文 →

2025年09月08日

将 Roo Code 和 Cline 特性合并到统一的 TypeScript 框架中：用于 AI 驱动的代码规划、构建和修复的自定义扩展性

探讨 Kilo Code 如何将 Roo Code 和 Cline 的特性融合成一个 TypeScript 框架，支持 AI 辅助的代码规划、构建与修复，并提供自定义扩展机制。

阅读全文 →

2025年09月08日

Photonic Circuit Design for Coherent Ising Machines in Solving NP-Hard Problems like TSP

Design principles for photonic circuits using coherent Ising machines to solve NP-hard optimization problems like TSP, with integration into AI inference for hybrid acceleration.

阅读全文 →

2025年09月08日

Running and Fine-Tuning Open-Source LLMs on Apple Silicon macOS: Metal Acceleration and Memory Optimization

Explore low-latency local inference by running and fine-tuning open-source LLMs on Apple Silicon macOS, emphasizing Metal acceleration and memory optimization techniques.

阅读全文 →

2025年09月08日

Taco Bell LLM 驱动的 Drive-Thru 语音订单处理工程化部署

面向快餐 drive-thru 场景，探讨 LLM 驱动的语音订单系统工程部署，包括实时交互、确认机制和错误恢复策略，以提升运营吞吐量。

阅读全文 →

2025年09月08日

BitNet三值权重量化阈值选择与精度权衡：CPU多精度1-bit LLM推理优化

面向BitNet的三值权重量化，给出阈值选择策略与CPU多精度推理的工程化参数与监控要点。

阅读全文 →

2025年09月07日

Claude Code 框架基准测试：架构差异、延迟优化与多模型集成

通过基准测试剖析 Claude Code 框架的架构差异，优化延迟参数，并实现多模型集成以提升 AI 辅助编码效率。

阅读全文 →

2025年09月07日

构建1-bit LLM CPU高效推理管道：权重量化与低资源部署优化

基于bitnet.cpp框架，指导构建1-bit LLM的CPU高效推理管道，包括权重量化、内核优化和低资源部署策略，实现边缘设备的高效能耗比推理。

阅读全文 →

2025年09月07日

使用 Pathway ETL 构建实时 RAG 管道：从 Kafka、PostgreSQL 和 API 实时同步数据减少 LLM 幻觉

利用 Pathway 框架实现从多种数据源实时同步到 RAG 系统，动态更新知识库以降低 LLM 幻觉。

阅读全文 →

2025年09月07日

利用Claude Code SDK实现端到端测试智能筛选与自动化

通过配置Claude Code SDK，基于代码变更上下文自动选择并运行相关E2E测试，将测试时间缩短84%，同时提供关键参数与安全控制清单。

阅读全文 →

2025年09月07日

通过三值权重量化在 CPU 上部署 1-bit LLM：实现笔记本低延迟推理

面向资源受限硬件如笔记本，利用 BitNet 的三值权重量化部署 1-bit LLM，给出 CPU 优化参数与低延迟推理的工程化实践。

阅读全文 →

2025年09月07日

在4节点树莓派5集群部署Qwen3 30B A3B：实现13 token/s的工程优化清单

基于distributed-llama项目，提供在树莓派5集群上部署Qwen3 30B A3B模型的完整硬件清单、网络配置与性能调优参数，目标达成13 token/s推理速度。

阅读全文 →

2025年09月07日

Efficient Spiking Neural Network Simulator in Python/NumPy for 1000-Neuron Binary Decision Model

This post details the construction of a lightweight spiking neural network simulator using pure Python and NumPy, targeting a 1000-neuron model for binary decisions in under 100 seconds, with emphasis on real-time efficiency.

阅读全文 →

2025年09月07日

工程化 Embedding Atlas：跨过滤搜索与元数据查询的实现

探讨 Embedding Atlas 中跨过滤搜索和元数据查询的工程机制，支持大规模嵌入数据的交互可视化和高效过滤，提供性能优化参数与监控要点。

阅读全文 →

2025年09月07日

构建交互式嵌入探索系统：实时交叉过滤与工程化架构要点

解析 Embedding Atlas 工程架构，提炼支持百万级点实时交叉过滤与探索式搜索的可落地参数与系统设计模式。

阅读全文 →

2025年09月07日

LLM 幻觉检测工程化：令牌级不确定性估计与置信度评分

探讨 LLM 推理管道中令牌级不确定性估计与置信度评分的工程实践，实现实时幻觉输出检测与过滤，提升系统可靠性。

阅读全文 →

2025年09月07日

Engineering RAG Implementation to Reduce LLM Hallucinations: Dynamic Querying and Knowledge Fusion

通过检索增强生成 (RAG) 注入外部知识源，减少 LLM 输出中的幻觉问题，提供工程实现参数与优化策略。

阅读全文 →

2025年09月07日

构建 GPT-5 搜索增强推理管道：实时检索与多模态优化

面向 GPT-5 搜索增强推理，给出实时检索机制集成、多模态查询处理的参数与优化要点。

阅读全文 →

2025年09月07日

使用 Claude Code 实现的 Rust 语义 grep：本地嵌入确保隐私与低延迟

基于 Rust 构建的语义 grep 工具，利用 Claude Code 进行高效代码搜索，通过本地嵌入模型实现隐私保护和低延迟查询，无需外部 API 调用。

阅读全文 →

2025年09月07日

FHEVM 中集成符号执行的异步协处理器：隐私保护与高效计算参数

通过符号执行集成到 FHEVM 协处理器，实现区块链 FHE 计算的隐私与高效，提供关键参数与监控要点。

阅读全文 →

2025年09月07日

构建交互式嵌入可视化系统：Apple Embedding Atlas 的工程化集成与性能边界

解析 Embedding Atlas 如何通过自动聚类、密度轮廓与 WebGPU 渲染实现大规模嵌入数据的实时探索，并给出 Python/JS 集成参数与预处理要求。

阅读全文 →

2025年09月07日

构建交互式嵌入可视化系统：实时交叉过滤与WebGPU性能参数

面向大规模嵌入数据集，解析Embedding Atlas的实时交叉过滤架构与WebGPU渲染性能调优参数，提供工程化落地清单。

阅读全文 →

2025年09月07日

从线性代数到信息论：大模型核心数学原理与工程实现指南

拆解大模型底层依赖的线性代数、概率与信息论原理，提供可落地的参数调试清单与工程实现建议。

阅读全文 →

2025年09月07日

oTTomator 平台如何托管与编排开源 AI 代理：构建即插即用生态的工程实践

深入解析 oTTomator Live Agent Studio 的托管架构与编排机制，提供开发者可复用的参数清单与集成策略，实现开源 AI 代理的即插即用。

阅读全文 →

2025年09月07日

ottomator Live Agent Studio：开源AI代理的托管与协作新范式

剖析ottomator平台如何通过开源代码、模板化工作流与社区驱动，为AI代理开发者提供准工程化的托管、学习与协作环境。

阅读全文 →

2025年09月07日

Parlant 行为指南范式：从祈祷提示到精确指令的强控制革命

剖析 Parlant 如何用自然语言行为指南取代系统提示，实现从模糊祈祷到精确指令的强行为控制范式转变。

阅读全文 →

2025年09月07日

Parlant 分钟级部署与强控制工程实现：参数、回滚与监控清单

剖析 Parlant 如何通过异步架构、智能批处理与多级缓存实现 LLM Agent 的分钟级部署与强行为控制，提供可落地的工程参数与监控清单。

阅读全文 →

2025年09月07日

通过部署时注入约束规则，实现LLM代理行为的毫秒级控制与安全边界设定

利用Parlant的指南系统，在部署阶段注入速度与行为约束，实现LLM代理的毫秒级响应控制与安全边界设定。

阅读全文 →

2025年09月07日

剖析 Parlant 框架的实时约束机制：Guidelines 与 Journeys 如何驯服 LLM Agent

深入解析 Parlant 框架如何利用 Guidelines 和 Journeys 两大核心组件，在运行时对 LLM Agent 施加硬性约束，确保其行为符合预设规则，避免生产环境失控。

阅读全文 →

2025年09月07日

在4x树莓派5集群上实现Qwen3 30B A3B 13 token/s推理速度的工程优化清单

面向低成本ARM集群，给出量化、并行调度与内存优化的可落地参数清单，实测推理速度达13 token/s。

阅读全文 →

2025年09月06日

TrendRadar：基于MCP协议的多平台热点聚合与AI分析工程实践

深入解析TrendRadar如何通过MCP协议构建AI分析工具链，实现35+平台热点聚合、智能筛选与自然语言交互分析。

阅读全文 →

2025年09月06日

AI智能体革命：从桌面自动化到企业控制的新范式

探索AI桌面智能体和企业级AI控制框架的新兴趋势，这些技术正在重塑我们与计算机交互和自动化复杂工作流程的方式

阅读全文 →

2025年09月06日

AI经济学的困境：为什么所有AI公司都在亏钱

深入分析AI行业的盈利困境，从OpenAI、Anthropic到应用层公司，揭示生成式AI经济学中的根本性矛盾

阅读全文 →

2025年09月06日

Apple Embedding Atlas 工程落地指南：密度聚类参数、WebGPU 配置与多端集成清单

剖析 Apple 开源工具如何实现大规模嵌入的交互式可视化、交叉过滤与语义搜索，提供工程落地指南。

阅读全文 →

2025年09月06日

BitNet b1.58：彻底重塑CPU上的大模型效率革命

微软开源的BitNet b1.58通过1.58位三值量化技术，实现了在CPU上高达6倍的推理加速和82%的能耗降低，让百亿参数大模型在普通设备上运行成为现实。

阅读全文 →

2025年09月06日

Chris Lattner访谈：为什么机器学习需要新的编程语言

LLVM和Swift之父Chris Lattner深度解析为什么当前编程语言无法满足机器学习需求，以及Mojo语言如何解决AI计算的碎片化问题

阅读全文 →

2025年09月06日

Containerized AI Desktop Agents - The Future of Autonomous Computing

深入分析 Bytebot 和 Parlant 等开源 AI 桌面代理项目，探讨容器化 AI 代理如何重新定义自动化计算的未来

阅读全文 →

2025年09月06日

AI模型部署的最佳实践工程化指南

探讨AI模型部署的核心工程实践，包括优化参数、监控要点与风险控制策略。

阅读全文 →

2025年09月06日

FHEVM：用全同态加密构建链上机密智能合约的工程架构与参数

剖析 FHEVM 如何通过 TFHE 集成与符号执行架构，在 EVM 上实现端到端加密的智能合约，提供关键性能参数与落地清单。

阅读全文 →

2025年09月06日

GLM-4.5与Claude Code的致命组合：重新定义AI编码代理

Zhipu AI最新发布的GLM-4.5模型与Anthropic的Claude Code工具相结合，正在重新定义AI编码代理的能力边界。本文深入分析这一组合的技术优势、实际应用场景以及对开发者工作流程的革命性影响。

阅读全文 →

2025年09月06日

AI模型微调中的梯度裁剪策略：阈值选择与动态调整工程实践

面向AI模型微调场景，提供梯度裁剪阈值选择、动态调整方法及与学习率协同的工程化参数清单与避坑指南。

阅读全文 →

2025年09月06日

KV缓存压缩三剑客：R-KV、EvolKV与Ada-KV的工程实践

解析R-KV、EvolKV与Ada-KV三种KV缓存压缩技术，提供显存节省90%、预算1.5%性能反超等可落地参数与风险清单。

阅读全文 →

2025年09月06日

MentraOS架构解析：开源智能眼镜OS如何实现低功耗AI推理与AR交互

聚焦MentraOS云原生架构与本地轻量代理协同机制，解析其通过MCU预处理与TS/Java双栈SDK实现<200ms延迟的AI推理，为开发者提供跨设备AR应用落地清单。

阅读全文 →

2025年09月06日

Mojo编程语言：AI基础设施的革命性突破

Chris Lattner的Mojo语言正在重新定义AI开发范式，将Python的易用性与C的性能完美结合，解决了两语言问题的根本痛点

阅读全文 →

2025年09月06日

Parlant：AI代理指南革命——重新定义LLM行为控制

探索Parlant如何通过创新的指南系统彻底改变AI代理的行为控制，解决LLM在生产环境中的不可预测性问题。

阅读全文 →

2025年09月06日

Parlant：通过结构化指令与运行时约束实现LLM Agent精准控制的企业级部署指南

剖析Parlant如何利用自然语言规则定义与工具绑定机制，确保LLM Agent行为符合业务逻辑，实现分钟级企业级部署。

阅读全文 →

2025年09月06日

在4x树莓派5集群上实现Qwen3 30B A3B模型13 token/s推理速度的优化策略与部署实践

面向资源受限的边缘设备，详细解析如何通过量化、内存优化、NEON指令集和分布式并行，在4x树莓派5集群上实现Qwen3 30B A3B模型13 token/s的推理速度。

阅读全文 →

2025年09月06日

SSE多模型流式补全的断线续传与超时参数配置

面向多模型流式输出场景，详解SSE连接的断线续传机制与工程化超时参数配置，提供可落地的技术方案。

阅读全文 →

2025年09月06日

使用 SSE 承载多模型流式补全：断线续传与超时参数

面向多模型流式输出，给出 SSE 连接管理与断线续传的工程化参数与监控要点。

阅读全文 →

2025年09月06日

InspectMind AI：建筑工地检查报告生成的三层技术架构与工程实现

分析YC W24批次公司InspectMind AI如何通过三层技术架构将工地检查报告撰写时间从一周缩短至15分钟，探讨多模态融合与领域知识编码的工程挑战。

阅读全文 →

2025年09月05日

Fiber并发：现代轻量级并发编程的新范式

探索Fiber并发编程模型如何通过轻量级协程和异步/await语法革命性地改变现代软件开发中的并发处理方式

阅读全文 →

2025年09月05日

谷歌删除净零排放承诺：科技公司气候承诺的深远影响

谷歌从其可持续发展网站上删除了净零排放承诺，这一举动引发了对科技行业气候承诺可靠性的广泛讨论。

阅读全文 →

2025年09月05日

高中生的AI课堂革命：从被动使用者到主动创造者

一位高中生分享AI工具在课堂中的真实体验，探讨教育如何从'禁止AI'转向'驾驭AI'的范式转变

阅读全文 →

2025年09月05日

io_uring vs mmap：性能对决，Linux I/O架构的革命性突破

深入分析io_uring如何超越传统mmap技术，重新定义Linux高性能I/O处理的新标准

阅读全文 →

2025年09月05日

纽约联储研究显示：AI对就业市场影响目前有限

纽约联储最新研究显示，尽管AI技术快速发展，但迄今为止对就业市场的整体影响相对有限，主要影响集中在特定行业和年轻群体

阅读全文 →

2025年09月05日

OpenAI推出AI就业平台与沃尔玛合作，重塑未来职场生态

OpenAI宣布推出AI驱动的就业平台和认证计划，与沃尔玛合作培训160万员工，目标在2030年前为1000万美国人提供AI技能认证，这标志着AI巨头正式切入人力资源领域

阅读全文 →

2025年09月05日

Podman vs Docker：为什么开发者正在转向无守护进程容器

随着容器技术的成熟，Podman作为Docker的替代方案正在获得越来越多的关注。本文将深入分析Podman与Docker的核心差异、优势以及为什么越来越多的开发者选择迁移到Podman。

阅读全文 →

2025年09月05日

Stripe Tempo区块链：支付专用L1的革命性设计与企业级金融的未来

Stripe与Paradigm联手推出Tempo区块链，专为支付场景设计，每秒处理10万+交易，颠覆传统金融基础设施

阅读全文 →

2025年09月05日

维基百科的韧性架构：为何在互联网崩溃时依然坚挺

探索维基百科独特的技术架构设计，分析其为何能够在互联网其他部分崩溃时依然保持稳定运行的技术原理和设计哲学

阅读全文 →

2025年09月04日

Claude Code与Zed集成：AI编程助手的革命性进化

深度解析Anthropic的Claude Code如何通过Zed编辑器的原生集成重新定义开发者体验，探讨AI编程助手的未来发展方向

阅读全文 →

2025年09月04日

CPU利用率统计的真相与谎言

深入分析CPU利用率统计的误导性，探讨现代处理器架构如何让传统监控指标失效

阅读全文 →

2025年08月23日

Google Photos 对话式AI编辑：Gemini驱动的智能P图革命

深度解析Google在2025年8月23日推出的对话式AI编辑功能，基于Gemini技术实现文字/语音智能修图，重新定义移动端图像编辑体验。

阅读全文 →

2025年07月10日

Moonshot AI Kimi K2:开源万亿参数MoE模型的Agent能力突破

深度解析月之暗面Kimi K2的MoE架构创新、MuonClip优化器突破，以及其如何在Agent能力优化上超越GPT-4.1，标志着开源大模型的新里程碑。

阅读全文 →

2025年04月25日

Dify工作流的三个隐藏技巧

官方文档不会告诉你的Dify工作流优化技巧

阅读全文 →

2025年01月26日

macOS平台实时语音转录的技术优化与隐私保护实战

深入解析VoiceInk等macOS语音转录工具的技术架构，从Speech Framework集成到延迟优化，再到本地化隐私保护，为开发者提供全面的系统级优化指南。

阅读全文 →

2025年01月06日

AI可解释性基础：安全视角下的技术决策指南

面向技术决策者，解析AI可解释性在安全风险防范中的核心作用，探讨机械可解释性的技术路径与实施策略。

阅读全文 →

2024年09月06日

使用 SSE 实现多模型 AI 流式补全：断线续传与超时处理

面向多模型 AI 流式输出，提供 SSE 连接管理、断线续传及超时参数的工程实践指南。

阅读全文 →

2024年07月10日

基于 ISO/IEC 25059:2023 的 AI 系统质量模型工程实现参数

面向 AI 系统开发，给出 ISO/IEC 25059 质量模型的工程参数与评估清单。

阅读全文 →

第 66 / 67 页 · 共 5282 篇