ai-systems
机器智能
使用 TEN Framework 工程化多轮语音 AI 代理的低延迟 C 管道
基于 TEN Framework,在资源受限硬件上构建低延迟 C 管道,集成实时 ASR、NLU 和 TTS,支持多轮对话代理。
使用 Detectron2 构建生产级实时目标检测与分割管道:ONNX 导出与自定义 ROIAlign 多尺度推理
基于 Detectron2 工程化实时视觉管道,聚焦 ONNX 边缘部署与 ROIAlign 多尺度优化,提供参数配置与监控要点。
使用 OpenAI Codex 工程化 Rust 终端编码代理:实时代码合成与 RAG 上下文
基于 OpenAI Codex CLI 的 Rust 终端代理,实现实时代码生成、调试和自动补全,集成 RAG 提供代码库上下文,并支持本地 LLM 回退机制。
基于 PP-OCRv4 的边缘部署 OCR 管道工程:PTQ、ONNX 导出与运行时优化实现实时多语言文本检测与识别
利用 PP-OCRv4 构建资源受限设备上的实时多语言 OCR 管道,涵盖 PTQ 量化、ONNX 导出及运行时优化,提供工程参数与监控要点。
从单一提示工程化 LLM 驱动的全栈应用代码生成:自动 schema 设计、CRUD API 与持久数据库集成
基于 LLM 从单一提示生成全栈应用的工程实践,包括 schema 设计、API 端点与数据库集成,提供参数配置与监控要点。
工程化 LLM 多代理管道实现实时波动预测与动态对冲策略
探讨 LLM 协调的多代理系统在 AI 对冲基金中的应用,聚焦实时波动预测、动态投资组合再平衡及自适应对冲策略的工程参数与落地清单。
工程化 ArXiv 论文的 RAG 管道:语义搜索、LLM 问答与交互聊天
针对 ArXiv 学术论文构建检索增强生成 (RAG) 系统,实现语义搜索、基于 LLM 的问答、引用提取及带来源链接的交互式聊天界面,提供工程实现要点、参数配置和监控建议。
用 Python 工程化 Tongyi DeepResearch 代理实现多跳推理:工具调用编排与迭代查询细化
指导在 Python 中构建 Tongyi DeepResearch 代理,聚焦多跳推理的工具调用管理和迭代查询优化,适用于复杂研究任务。
增强 SQLBot 的 RAG 管道:动态 schema 检索、查询分解与错误反馈循环
通过动态 schema 检索、查询分解和错误反馈机制,提升 SQLBot 在复杂多表查询和聚合场景下的 SQL 生成准确性,给出工程化参数和监控要点。
通过 WebNN API 在 Chrome 扩展中集成 Gemini Nano 实现本地 JS/TS 代码自动完成
利用 Gemini Nano 和 WebNN API 在 Chrome 扩展中构建设备端代码自动完成功能,支持实时代码片段生成和错误检测。
DeepResearch 中的分层代理规划:多跳 RAG 与工具调用工程实践
工程视角下 Tongyi DeepResearch 的分层代理,支持多跳 RAG 检索与动态工具调用,实现复杂任务自动化规划。
使用 WebNN API 在 Chrome 扩展中实现 Gemini Nano 的 JS/TS 代码自动完成
通过 WebNN API 集成 Gemini Nano,实现实时本地 JS/TS 代码自动完成,支持 token 流式输出和语法上下文注入,提升开发效率。
在Cactus框架中实现INT8训练后量化和NPU卸载:移动设备低延迟LLM推理
基于Cactus框架,探讨INT8 PTQ与NPU卸载的集成,提供量化阈值、运行时分区参数和性能监控要点,实现手机端高效LLM推理。
用 Rust 实现基于 RAG 的终端编码代理:本地 LLM 增强代码库检索
基于 OpenAI Codex CLI,构建无云依赖的终端代理,使用 RAG 从代码库检索上下文,支持本地 LLM 进行准确代码合成和调试。
使用 Rust 实现高斯溅射的实时 3D 场景重建与浏览器渲染
基于 Brush 项目,探讨从单目视频利用高斯溅射进行实时 3D 重建的 Rust 实现,支持 WebGPU 浏览器渲染,实现可访问的 AR/VR 管道。
在 Chrome 中通过 WebNN API 实现 Gemini Nano 的本地标签组织、写作辅助与提示增强
利用 Gemini Nano 和 WebNN API 在 Chrome 中构建隐私友好的 on-device AI 功能,包括标签智能组织、写作辅助和提示优化。
在 Wormhole AI 芯片上实现 TT-NN 操作符与 Metalium 内核:借助 TT-Buda 优化张量计算
利用 TT-Metalium 开发低级内核,并在 Wormhole 上通过 TT-Buda 实现张量优化与融合,提供工程参数与监控要点。
Cactus框架下INT8量化与NPU加速的低功耗AI推理管道
基于Cactus框架,结合INT8量化与NPU硬件加速,实现智能手机低功耗多模态AI模型部署,支持实时语音与视觉任务的工程参数与优化策略。
通过 WebNN 在 Chrome 扩展中集成 Gemini Nano:本地标签聚类、内容摘要与 AI 提示生成
利用 Gemini Nano 在 Chrome 扩展中实现本地标签聚类、内容摘要和 AI 提示生成,提升实时浏览生产力。
Chrome 中通过 WebNN API 集成 Gemini Nano:浏览器端本地 AI 推理实践
在 Chrome 浏览器中利用 WebNN API 集成 Gemini Nano,实现设备端 AI 任务如标签页总结和内容生成,提供离线工程化参数与监控要点。
OpenAI Codex CLI 与本地 LLM 离线回退集成:终端 RAG 检索与代码合成指南
在低资源硬件终端环境中,集成官方 OpenAI Codex CLI 与本地 LLM 回退,实现离线 RAG 检索、代码合成及调试,提供混合在线-离线管道的工程化参数与优化策略。
Integrate React UI with AI Copilot Infrastructure Using CopilotKit
使用 CopilotKit 集成 React UI 组件与后端基础设施,实现 AI 副驾驶的 in-app 聊天机器人、状态同步和工具调用。
SQLBot 与企业数据库集成:安全 RAG Text-to-SQL 实现
探讨 SQLBot 在企业环境中通过 RAG 和 LLM 实现安全的 Text-to-SQL,重点包括 schema 检索、查询生成、迭代修正及角色访问控制,以降低注入风险和数据泄露。
通过 WebNN API 将 Gemini Nano 集成到 Chrome 中实现设备端 AI 任务
利用 WebNN 在 Chrome 中运行 Gemini Nano,实现离线文本摘要和提示增强,提供启用指南和优化参数。
Integrating SQLBot RAG Pipeline: Dynamic Schema Retrieval, Query Decomposition, and Error Feedback
利用SQLBot的RAG机制,实现动态schema检索与查询分解,支持错误反馈循环,提升复杂SQL生成的准确性和鲁棒性。
集成SQLBot RAG管道:动态Schema检索、查询分解与错误反馈
利用SQLBot的RAG机制,实现动态schema检索与查询分解,支持错误反馈循环,提升复杂SQL生成的准确性和鲁棒性。
使用 WebNN API 在浏览器扩展中嵌入 Gemini Nano:JS/TS 代码自动补全
面向 JS/TS 编辑器,给出 Gemini Nano 在浏览器扩展中的集成参数与代码辅助管道。
SQLBot 中多轮 SQL 生成工程化:RAG 驱动的查询分解与错误反馈循环
面向动态数据库的多轮 Text-to-SQL,介绍 SQLBot 中的 RAG 查询分解、动态 schema 检索及 LLM 错误反馈循环的工程参数与实现要点。
nvmath-python:cuBLAS与cuSOLVER的Python绑定加速ML线性代数
利用nvmath-python绑定cuBLAS和cuSOLVER,实现GPU加速的线性代数操作,支持ML管道中的张量分解和稀疏求解,提升训练可扩展性。
SQLBot 中查询分解与错误反馈:优化动态 Schema 下的 Text-to-SQL
集成查询分解与错误反馈机制,提升 SQLBot 在复杂动态数据库中的 Text-to-SQL 准确率。
构建开源 Perplexity AI 替代品:本地 LLM 集成与隐私搜索
基于 Perplexica 项目,探讨本地 LLM 集成实现隐私优先的 AI 搜索,支持 RAG 和多模态查询,提供部署参数与优化策略。
使用 RAG 增强的 Text-to-SQL 系统:基于 LLM 的模式检索、查询生成与迭代纠错
构建 RAG 增强的 Text-to-SQL 系统,利用 LLM 进行模式检索、查询生成及迭代纠错,处理复杂数据库查询,减少幻觉。
终端部署轻量级 OpenAI Codex CLI:利用 Rust 集成实现低延迟代码合成与调试
在终端中部署 OpenAI Codex CLI,通过 Rust 核心和本地沙箱,支持实时代码合成、调试与自动补全,实现低延迟边缘计算。
边缘设备上部署轻量级PaddleOCR:后训练量化与ONNX Runtime优化
在资源受限的边缘设备上部署PaddleOCR模型,通过后训练量化生成INT8 ONNX模型,利用ONNX Runtime实现高效多语言文本提取的工程参数与优化策略。
使用 TEN 框架工程化低延迟 C 语言代理:实时语音转录、意图检测与多轮对话管理
基于 TEN 框架的 C 组件,实现嵌入式系统的低延迟语音 AI 代理,包括转录、意图识别与对话管理参数。
工程化分层式AI代理规划:DeepResearch中的顶级规划代理设计
针对多代理系统中的分层任务分解,设计顶级规划代理,支持LLM协调子代理进行查询分解、证据合成与迭代精炼,实现自动化深度研究。
AI 服务中的工程中断缓解:来自 Anthropic 最近事件的经验教训
基于 Anthropic 最近三起事件,探讨 AI 服务中断的根因分析、告警优化以及容量保障策略,提供可落地的工程参数与清单。
工程物理基础模型预训练策略:模拟数据管道与Transformer适应
工程物理基础模型预训练的核心在于构建高效模拟数据管道、适应Transformer处理物理约束,并通过多模态融合提升模型精度。
将 OpenAI Codex CLI 与本地 LLM 如 Ollama 集成:实现离线实时代码合成与混合云边工作流
通过 MCP 协议将 OpenAI Codex CLI 与 Ollama 集成,实现终端离线代码生成、调试和自动完成,支持混合云边工作流,降低延迟并提升隐私。
Nanobrowser:基于本地LLM的多代理Web自动化工程实践
工程化Chrome扩展集成本地LLM API,实现多代理协作Web自动化,支持实时任务分解、DOM导航和错误恢复的低延迟工作流要点。
AI 生成代码检测:基于令牌模式、语法异常和嵌入相似度的启发式实现
在 CI/CD 管道中集成 AI 代码检测机制,通过统计和机器学习启发式分析令牌模式、语法异常及嵌入相似度,实现 95% 准确率。
使用 CoT 和 Few-shot 提示重写提升 GPT-5-Mini 在 Tau² 基准上的性能 22%
通过迭代提示重写策略,实现链式思考和少样本引导,在复杂推理任务中提升小型模型性能,提供工程化参数。
构建 RAG 增强的自纠错 Text-to-SQL 系统:Schema 检索与 LLM 迭代修正
通过 RAG 集成 schema 检索、few-shot 提示和 LLM 迭代错误修正,提升 Text-to-SQL 多表查询准确率至 80%以上,提供工程化参数。
使用 Nanobrowser Chrome 扩展构建多代理浏览器自动化
基于开源 Nanobrowser,探讨 Chrome 扩展中多代理任务编排、DOM 交互与容错导航的工程实践,提供可落地参数与监控要点。
使用 Anthropic Claude API 构建 VSCode 扩展:上下文感知代码生成与多轮推理
利用 Anthropic Claude API 在 VSCode 中构建上下文感知代码生成扩展,聚焦多轮推理和减少幻觉的实现策略。
DeepCode:通过多代理编排将研究论文转化为可执行代码的代理管道构建
基于 DeepCode 框架,探讨构建多代理管道以从研究论文和规范生成可执行代码,包括解析、规划与迭代细化,提供工程参数与落地清单。
在 Apple Silicon 上使用 MLX 实现高效 LLM 推理:统一内存与优化内核
探讨 MLX 框架如何利用 Apple Silicon 的统一内存和优化内核,实现低延迟 LLM 微调与边缘 AI 部署。
工程化分层多代理系统中的代理间移交协议与冲突解决:面向自动化深度研究的容错任务委托与实时同步
探讨分层多代理系统中的代理间移交协议设计与冲突解决策略,强调容错任务委托机制与实时同步,确保深度研究任务高效执行,提供工程参数与监控要点。
Waymo SFO 机场无人出租车导航:实时高精地图更新与多传感器融合工程实践
针对旧金山机场高流量区无人驾驶挑战,探讨实时高精地图更新、多传感器融合及监管合规故障转移的工程参数与监控要点。
工程化顶级规划代理:DeepResearchAgent的分层任务分解与子代理协作
基于DeepResearchAgent框架,工程化顶级规划代理实现复杂研究任务的自动化分解与多子代理协调,提供设计参数、配置指南与执行清单。
工程化顶级规划代理:DeepResearchAgent中分层任务分解与子代理协调
在DeepResearchAgent框架中工程化顶级规划代理,实现复杂研究任务的自动化分解与子代理协作,提供设计参数、协调机制与落地实践。
工程化顶级规划代理:DeepResearchAgent中分层任务分解与子代理协调
探讨DeepResearchAgent框架中顶级规划代理的工程化设计,实现复杂任务的自动化分解与子代理协作,提供实用参数、机制与落地指南。
实现 RAG 管道用于 Text-to-SQL:模式检索、少样本提示与 LLM 错误修正
通过 RAG 管道、schema 检索、few-shot 提示和 LLM 错误修正,实现复杂数据库的自然语言查询,提供参数配置和监控要点。
TimesFM Transformer 的零样本多变量时间序列预测实现:利用预训练实现可扩展预测
探讨如何使用 TimesFM 进行零样本多变量时间序列预测,利用其在多样数据集上的预训练,实现无需领域特定微调的可扩展预测。包括架构解析、安装步骤和实用参数配置。
使用 DiT 模型实现零样本语音与歌唱转换:F0 条件实时低延迟流式处理
基于 Seed-VC 的扩散 Transformer 架构,实现零样本语音转换与歌唱支持,通过 F0 条件和 GPU 加速参数优化实时流式输出。
将 Ollama 视觉模型集成到 Perplexica:实现多模态 RAG 的本地图像搜索
通过 Ollama 视觉模型增强 Perplexica 的多模态 RAG 能力,支持图像嵌入融合,实现本地高效图像基础搜索,查询延迟控制在 100ms 以内。
使用多代理LLM编排自主对冲基金风险模拟:Monte Carlo方法、VaR计算与CCXT实时数据馈送
工程多代理LLM系统,实现对冲基金风险模拟,包括Monte Carlo场景生成、VaR计算及CCXT实时数据集成,提供参数配置与压力测试清单。
工程化顶级规划代理:DeepResearchAgent的分层任务分解与子代理协作
基于DeepResearchAgent框架工程化顶级规划代理,实现复杂研究任务的自动化分解、子代理协调与执行,提供关键参数、配置与落地清单。
使用链式思考和少样本适配工程化提示重写,提升GPT-5-Mini在Tau²基准上的推理性能达22%
面向Tau²基准,介绍提示重写工程化方法,包括链式思考与少样本适配,实现GPT-5-Mini 22%性能提升的关键参数与验证清单。