ai-systems
机器智能
使用神经音频编解码器实现实时语义分词:直接馈入 LLM 的低延迟多模态处理
探讨神经音频编解码器在实时语义分词中的应用,直接将音频 token 馈入 LLM,绕过传统 ASR,实现低延迟多模态处理。提供工程参数、延迟优化和边缘部署指南。
PaddleOCR PP-OCRv4 混合 CNN-Transformer 架构工程化:扫描文档弯曲手写文本检测与边缘优化
探讨 PP-OCRv4 在扫描文档中处理弯曲和手写文本的混合 CNN-Transformer 架构,聚焦检测与识别优化,并提供动态量化及轻量推理的边缘部署参数与策略。
Skyvern 中使用 YOLO 检测和 LLM 置信度阈值的闭环视觉反馈:动态动作纠正与错误恢复
在 Skyvern 浏览器自动化中,工程化闭环视觉反馈,使用 YOLO 检测 UI 元素并通过 LLM 置信度阈值实现动态动作纠正和错误恢复机制。
电子书到有声书零-shot跨语言语音克隆端到端管道:章节感知自然叙述生成
利用零-shot语音克隆、韵律转移和多说话者混合,实现电子书到有声书的端到端合成,支持1100+语言的自然章节叙述,提供工程化参数与优化要点。
ChatGPT Atlas 中实时想法聚类与关系提取的工程实践:构建交互式知识地图
在 ChatGPT Atlas 中工程化实时想法聚类与关系提取,用于从用户输入构建交互知识地图,提供参数配置与监控要点。
Kyutai Mimi 神经音频编解码器与 LLM Token 条件音频解码集成
探讨将 Kyutai Mimi 神经音频编解码器与 LLM token 条件集成,实现直接音频到 token 转换,支持低延迟多模态生成和实时语音合成。
Skyvern:多模态工作流编排实现自主浏览器自动化
探讨 Skyvern 如何利用 LLM 与 CV 模型协同编排多步浏览器工作流,包括动态适应机制、错误处理策略及外部 API 集成实践。
Engineering Modular TypeScript Pipelines in Open Notebook for Flexible Multi-Modal Sourcing
探讨 Open Notebook 项目中如何利用模块化 TypeScript 管道实现灵活的多模态内容来源、扩展的 LLM 链式调用以及丰富的播客生成功能,作为开源 Notebook LM 替代方案的工程实践。
神经音频编解码器与 LLM 令牌条件化的集成:直接多模态音频处理
通过令牌化原始音频为语义单元,并条件化 LLM 层,实现无中间 ASR 的直接多模态处理。探讨工程化管道、参数配置与监控要点。
CVD 金刚石薄膜在多芯片let AI 加速器热界面材料中的工程化集成
面向多芯片let AI 加速器的高功率热管理,使用 CVD 金刚石薄膜作为热界面材料,实现高效热扩散与低梯度温度控制。
在嵌入式设备上部署 Sherpa-ONNX 实现多语言离线 STT
探讨在 Raspberry Pi、iOS 和 Android 等嵌入式设备上使用 Sherpa-ONNX 部署离线多语言语音转文本,支持说话者分离和 VAD,提供工程化参数与优化要点。
在NVIDIA上暴力部署DeepSeek-OCR:Claude代码生成优化GPU推理,实现边缘实时OCR
利用brute-force超参数调优和Claude AI辅助编码,在NVIDIA GPU上部署DeepSeek-OCR,实现高效文档解析。提供优化参数、监控要点,适用于边缘硬件实时OCR场景。
在 Skyvern 中集成 YOLO 实现实时 UI 元素检测
在 Skyvern 浏览器自动化框架中集成 YOLO 模型,用于从截图实时检测 UI 元素,支持 LLM 驱动的动作选择,适用于动态网站自动化。
使用 Sherpa-ONNX 工程化离线语音到文本管道:说话者分离、增强与 VAD
探讨如何利用 Sherpa-ONNX 在嵌入式系统、移动设备和服务器上构建离线 STT、说话者分离、语音增强和 VAD 管道,提供关键参数和部署指南。
工程化 Clink CLI 代理的模块化流水线:即时部署与生产集成
Clink 通过 CLI AI agents 实现自定义代理的即时生产部署,提供 modular pipelines 支持 runtime execution 和开发者工作流无缝集成。
LLM 推理时性能退化:上下文过载与注意力稀释的工程解决方案
分析 LLM 在延长会话中因上下文过载和注意力稀释导致的性能衰退机制,并提供周期性状态重置、动态上下文修剪等工程策略,以实现持续可靠的推理性能。
工程化零样本跨语言语音克隆:韵律转移与多说话者混合生成自然有声书
利用 OpenVoice TTS 管道,从 EPUB 生成自然有声书,实现跨语言语音克隆、韵律转移及多说话者声音混合,提供工程参数与监控要点。
Dyad 本地 AI 应用构建器的模块化 TypeScript 管道工程
探讨 Dyad 如何通过模块化 TypeScript 管道实现 prompt-to-UI 工作流,支持开源模型的无云隐私开发。
大规模 RAG 摄取管道:处理 500 万+ 文档的 MinHash LSH 去重、语义分块与质量过滤
针对 RAG 系统大规模文档摄取,提供 MinHash LSH 去重、语义分块及质量过滤的工程参数与优化策略,提升检索相关性并避免重复计算。
Skyvern 中视觉-语言-动作模型的工程化:动态网页导航与零样本自动化
基于 Skyvern 框架,探讨视觉-语言-动作模型在动态网页导航中的工程实现,支持无固定 UI 选择器的多模态推理任务自动化。
扩展 Micrograd 以支持稀疏张量自动求导:针对图神经网络的自定义反向传播
在 Micrograd 引擎中集成稀疏矩阵操作的自定义反向传播,实现图神经网络中不规则连接的高效自动求导与内存优化。
Claude 代理中动态工具选择与链式调用的工程实践:基于 Cookbook 模式
基于 Claude Cookbook 的代理模式,实现动态工具选择、多步编排与运行时错误处理,确保生产级工作流的可靠性和效率。
DeepSeek OCR 在边缘设备上的令牌高效部署:动态裁剪与视觉令牌编码优化
探讨 DeepSeek OCR 在边缘场景下的高效部署策略,通过动态裁剪和视觉令牌编码最小化 LLM 输入大小,同时保障实时布局解析准确性,提供工程参数与监控清单。
使用 DeepSeek OCR 工程化零样本表格提取管道:视觉编码与 LLM 后处理
基于 DeepSeek OCR 的零样本表格提取管道,利用视觉编码压缩和 LLM 后处理,将扫描文档转换为结构化 JSON,无需训练数据。
在 Open Notebook 中构建可扩展的多轮 LLM 链式与自定义音频合成
探讨 Open Notebook 中多轮 LLM 链式与自定义 TTS 的工程实践,用于从多样来源生成灵活播客。
Skyvern 中集成 YOLO 模型实现浏览器自动化 UI 元素精确定位
探讨在 Skyvern 框架中集成 YOLO 模型,用于浏览器自动化中的 UI 元素检测,提供子像素精度和假阳性过滤的工程参数与实现要点。
工程化 PP-OCRv4 混合 CNN-Transformer 管道:扫描文档弯曲文本检测与边缘部署优化
针对扫描文档中的弯曲/不规则文本,工程化 PP-OCRv4 的混合 CNN-Transformer 管道,提供动态分辨率裁剪和边缘部署参数配置。
生产环境中 RAG 的学习型查询扩展与端到端评估指标实现
本文聚焦生产 RAG 系统中的学习型查询扩展技术实现,包括 LLM 驱动的扩展方法与参数优化;同时介绍端到端评估指标,如上下文精确率、忠实度和事实正确性,用于持续性能监控与迭代。
构建可扩展 TypeScript 管道:多轮 LLM 链式交互与播客生成
利用 TypeScript 构建多轮 LLM 链式管道,支持流式响应、音频合成和自定义工具集成,实现灵活的播客生成,超越单一笔记本限制。
AI 代理的提示逆向工程:拦截 API 调用与行为模式分析实现模块化组成
通过拦截 API 调用和分析行为模式,从 20+ AI 工具中提取系统提示,实现自定义工具集成的模块化代理构建,提供工程参数与监控要点。
用 Micrograd 构建向量化自动求导引擎:拓扑排序反向传播支持的 PyTorch 式神经网络训练
基于 Micrograd 的纯 Python 实现,探讨 scalar autograd 如何通过 Value 列表模拟向量化操作,并利用拓扑排序实现高效 backprop,支持简单神经网络的训练参数与 API 设计。
用 PaddleOCR 构建轻量级 OCR 系统:解析 PDF/图像为 LLM 结构化数据,支持 100+ 语言
基于 PaddleOCR 开发高效 OCR 系统,从 PDF 和图像中提取结构化数据,支持多语言文本检测与识别,便于集成到 LLM 工作流中。
Claude Cookbook:Jupyter 中模块化提示工程与工具集成实践
基于 Claude Cookbook,利用 Jupyter notebooks 工程化模块化提示模式和工具集成,实现可重现的 AI 工作流和智能代理应用。包括提示模板设计、工具调用参数及 agentic 工作流优化要点。
Token-Efficient Edge Deployment of DeepSeek-OCR: Dynamic Resolution Cropping and Visual Encoding
探讨 DeepSeek-OCR 通过动态分辨率裁剪和视觉编码优化,实现边缘设备上的实时多语言文档扫描,包含工程参数和最佳实践。
生产级RAG系统中BM25与嵌入混合检索:学习式查询扩展与端到端评估指标
探讨5M+文档RAG系统的混合检索实现,包括BM25与向量嵌入融合、学习查询扩展,以及召回/精确率权衡的评估策略,提供工程参数与监控要点。
RAG 工程化实践:5M+ 文档摄入中的 MinHash LSH 近重复去重与语义质量过滤
基于 5M+ 文档处理经验,详解 MinHash LSH 近重复去重与语义阈值质量过滤的工程参数,确保 RAG 索引纯净高效。
使用AST工程化可执行心理状态代码模型:AI心智理论的多代理社会推理
探讨如何通过抽象语法树(AST)将推断的心理状态转化为可执行代码,实现AI代理在多代理交互中的人类般社会推理,提供工程参数和落地清单。
在微型标量 Autograd 引擎中实现向量化操作:启用 PyTorch-like 神经网络训练
探讨如何在 micrograd 等标量自动求导引擎中引入向量化操作,支持高效的 PyTorch 风格神经网络训练,同时保持最小开销的教育性实现。
收集与逆向工程20+ AI工具系统提示:构建统一工具调用与模块化代理
汇总Devin、Cursor、Claude等工具的系统提示,提取工具调用、上下文管理和错误处理模式,帮助构建可靠的模块化AI代理。
工程化可扩展 RAG:处理 500 万文档的切块策略、混合检索索引与评估指标
从处理超过 500 万文档的生产部署经验中,探讨工程化可扩展 RAG 系统,包括语义保留的切块策略、混合检索索引优化,以及关键评估指标与落地参数。
使用 Playwright 和 Claude 实现低上下文浏览器自动化
通过 Playwright MCP Server 集成 Claude AI,实现高效浏览器自动化,聚焦低上下文优化,提供工程参数与实践清单。
在 LeRobot 中微调扩散策略:面向灵巧操作的任务稳定性与样本效率优化
探讨使用 LeRobot 框架对扩散策略进行微调,实现端到端学习在机器人硬件上的灵巧操作,重点优化噪声调度、奖励塑造等参数以提升策略稳定性和样本利用率。
DeepSeek OCR 工程化布局保持文本检测:复杂文档空间层次保留
利用 DeepSeek OCR 实现复杂文档的布局保持文本检测,保留空间层次以提升下游 RAG 和 NLP 管道效率。
Qwen2.5 推理引擎内核融合与动态量化实现:Nvidia GPU 内存使用减少 82%
通过内核融合和动态量化优化Qwen2.5推理引擎,实现Nvidia GPU内存使用减少82%,并维持吞吐量,适用于大型AI服务。
Reverse-Engineering-Devin-Cursor-Claude-Prompts-for-Modular-AI-Agents
从 Devin、Cursor 和 Claude 的内部提示中提取工具调用、上下文管理和错误处理机制,指导构建可靠的模块化 AI 代理,包括参数配置和监控要点。
在 Qwen-VL 中实现动态张量重构和低秩适应以实现高效多模态推理
通过动态张量重构和低秩适应技术,在 Qwen-VL 模型中优化多模态推理,实现 GPU 利用率降低 82%,并提供运行时调度参数和监控要点。
使用 LeRobot 细调扩散策略实现灵巧操纵
本文探讨如何利用 LeRobot 框架在机器人数据集上细调 Diffusion Policy,支持灵巧操纵任务,并集成真实硬件进行端到端部署。提供配置参数、训练清单和监控要点。
用端到端学习构建可访问的 AI 机器人:从数据集模仿到强化微调
通过 Hugging Face 的 LeRobot 库,利用端到端学习从演示数据集训练机器人策略,支持硬件无关的政策,并在 PyTorch 中实现真实世界操纵任务的强化微调。