ai-systems

机器智能

2025年10月20日

Modular LLM Chaining for Multi-Turn Podcast Generation in Open-Notebook

在 Open-Notebook 中利用模块化 LLM 链式调用，实现多轮互动播客生成，支持动态上下文传递和响应精炼，提供工程化参数和最佳实践。

阅读全文 →

2025年10月20日

OpenVoice 中基于 VAE 的韵律与情感转移：用于表达性短参考有声书合成

探讨 OpenVoice 通过 VAE 编码和风格令牌实现韵律与情感转移的技术细节，支持无语言特定再训练的表达性有声书合成，提供工程参数与落地指南。

阅读全文 →

2025年10月20日

ebook2audiobook 中的跨语言零样本语音克隆：自动语言检测与口音适应

集成 XTTSv2 实现 ebook2audiobook 的多语言语音克隆，支持 1100+ 语言的自然有声书生成与 fallback 策略。

阅读全文 →

2025年10月20日

集成 PP-OCRv4 布局模块：从复杂扫描 PDF 中提取结构化表格与表单

本文探讨如何将 PP-OCRv4 的布局分析模块集成到 RAG 管道中，从复杂扫描 PDF 中检测并提取表格和表单，使用自适应边界框合并和向量化技术，实现高效的结构化数据处理。提供工程化参数和落地清单。

阅读全文 →

2025年10月20日

Multi-Speaker Voice Cloning Pipeline for Expressive Audiobooks

工程化实现 ebook2audiobook 与 XTTSv2 的多说话者 TTS 管道，处理章节节奏、情感过渡及 1100+ 语言支持，实现最小 artifacts 的 audiobook 合成。

阅读全文 →

2025年10月20日

DeepSeek-OCR 多模态表格提取：布局解析与结构化 JSON 输出

利用 DeepSeek-OCR 的视觉语言融合技术，从复杂文档图像中提取表格，解析布局生成带单元格合并和关系推理的 JSON 结构，适用于 LLM 输入优化。

阅读全文 →

2025年10月20日

使用 DeepSeek OCR 构建低延迟 OCR 推理管道：布局分析、多语言提取与 GPU 批处理

面向可扩展文档处理，集成 DeepSeek OCR 的低延迟推理管道，涵盖布局分析、多语言文本提取及 GPU 批处理优化参数与监控策略。

阅读全文 →

2025年10月20日

MiniMind 中集成旋转位置嵌入：优化因果注意力长序列处理与外推

在 MiniMind 框架中集成 RoPE 以提升小规模 GPT 训练的长序列处理能力，提供外推参数调优和工程实践要点。

阅读全文 →

2025年10月20日

DeepSeek-VL2 多模态 OCR：视觉编码器与 LLM 端到端集成

DeepSeek-VL2 通过 MoE 架构统一训练视觉与语言模型，实现文档端到端 OCR，支持布局分析和多语言提取。提供工程参数、监控要点和部署指南。

阅读全文 →

2025年10月20日

英伟达 Blackwell 在美晶圆生产与芯片let 组装工程

针对多芯片let B200 GPU 的 CoWoS 封装集成，提供本土晶圆生产下的工程参数与供应链弹性策略。

阅读全文 →

2025年10月20日

OpenVoice 零样本跨语言语音克隆工程：音色保留、口音检测阈值与多语言音色迁移

面向 audiobook 合成，提供 OpenVoice 零样本跨语言克隆的音色保留、口音适应阈值及迁移参数工程指南。

阅读全文 →

2025年10月20日

实现 PP-OCRv4 双阶段多语言 OCR 管道：DBNet++ 检测与 SVTR-Lite 识别

基于 PP-OCRv4 构建高效多语言 OCR 系统，聚焦 DBNet++ 旋转文本检测和 SVTR-Lite 轻量识别，实现 <10MB 模型边缘部署。

阅读全文 →

2025年10月20日

用信息论调优 LLM 提示词冗余度生成 DSL 代码

利用熵等信息论指标优化 LLM 提示词的详细程度，在生成 Q/Kdb 等 DSL 可执行代码时，避免简洁输出导致的语法错误，同时控制令牌成本。

阅读全文 →

2025年10月20日

DeepChat 中集成本地日历、邮件和文件 API：TypeScript 隐私保护个人 AI 助手集成

探索在 DeepChat TypeScript 框架下集成本地 API，实现 AI 助手对日历、邮件和文件的隐私访问，无需云服务。提供配置、代码示例和安全实践。

阅读全文 →

2025年10月20日

OpenVoice 零-shot 语音克隆部署：3秒参考音频嵌入提取与实时合成优化

面向即时语音克隆，给出 OpenVoice 嵌入提取、PyTorch serving 部署与低延迟优化的工程参数。

阅读全文 →

2025年10月20日

Skyvern 中视觉 LLM 的自适应提示策略：处理 UI 布局变异的工程实践

Skyvern 通过动态提示精炼和 few-shot 适应，提升视觉 LLM 在不同 UI 布局下的元素选择鲁棒性，提供工程参数和监控要点。

阅读全文 →

2025年10月20日

Tool-Calling Integrations in Claude Cookbook for Agentic AI Workflows

探索 Claude Cookbook 中的工具调用示例，实现代理式工作流，支持动态 API 交互和结构化响应解析，无需外部协调器。提供工程化参数和监控要点。

阅读全文 →

2025年10月20日

OpenVoice 多说话者语气与情绪调制工程实践：有声书适应性合成

基于 OpenVoice TTS 实现多说话者混合的语气和情绪精细控制，针对有声书场景，提供上下文感知的语音合成工程参数与监控要点。

阅读全文 →

2025年10月19日

使用语义嵌入子主题聚类增强 Pyversity RAG 的结果多样化

通过语义嵌入对检索结果进行子主题聚类，结合 Pyversity 的多样化策略，实现查询多方面的平衡覆盖，避免 MMR 贪婪选择的局限，提供工程化参数和实现指南。

阅读全文 →

2025年10月19日

生产 AI 系统中的原子模型交换：零停机替换与版本化检查点同步

面向生产 AI 系统，实现原子模型交换的零停机部署策略，包括版本化检查点同步、双缓冲机制与监控要点。

阅读全文 →

2025年10月19日

全量微调与 PEFT 方法如 LoRA 的效率-泛化权衡

评估全量微调与 LoRA 等 PEFT 方法在计算成本与任务特定泛化方面的权衡，提供 LLM 管道中的工程化参数与监控要点。

阅读全文 →

2025年10月19日

ebook2audiobook 中的多语音融合叙事：克隆语音与韵律控制实现

基于 XTTSv2 在 ebook2audiobook 中实现多角色语音克隆、韵律调整与无缝过渡，构建角色驱动的有声书叙事。

阅读全文 →

2025年10月19日

通过拓扑排序优化微型自动微分引擎中的反向传播调度

探讨在动态计算图中利用拓扑排序优化反向传播调度，提升微型 autograd 引擎如 micrograd 的效率，提供工程参数与实现要点。

阅读全文 →

2025年10月19日

Skyvern 中基于 YOLO 的 CV 元素定位：实现无选择器浏览器自动化

在 Skyvern 框架中集成 YOLO 计算机视觉模型，用于动态 UI 元素检测，实现适应布局变化的无选择器浏览器交互自动化。

阅读全文 →

2025年10月19日

Pyversity 中 FAISS 索引分片：实现百万规模 RAG 的并行多样化查询

面向百万规模文档集，在 Pyversity 中通过 FAISS 索引分片实现低延迟 RAG，支持动态负载均衡与多样化 reranking 的工程实践。

阅读全文 →

2025年10月19日

工程化可组合AI代理：零-shot适应与工具集成替换软件工作流手动任务

构建可组合AI代理实现软件工作流自动化，提供零-shot适应参数、工具集成清单与工程落地要点。

阅读全文 →

2025年10月19日

工程化可组合AI代理：零-shot适应与工具集成替换软件工作流手动任务

构建可组合AI代理，实现软件工作流中手动任务的零-shot自动化替换，提供工具集成参数和工程实践。

阅读全文 →

2025年10月19日

大语言模型中继续预训练 vs 指令调优：效率与控制比较

比较继续预训练用于知识注入与指令调优用于任务对齐在大语言模型中的效率和控制，提供生产适配管道的实用参数和清单。

阅读全文 →

2025年10月19日

浏览器交互中 CV 元素定位工程：动态 UI 检测与模拟

探讨使用计算机视觉管道工程化浏览器中动态 UI 元素的检测与交互模拟，实现 LLM 驱动自动化对布局变化的弹性，通过实时视觉反馈循环提升鲁棒性。

阅读全文 →

2025年10月19日

ESP32 与 WebRTC 集成实现实时语音 AI 处理

将 ESP32 微控制器与 WebRTC 结合，用于电池供电徽章上的低延迟音频流和本地 AI 推理，提供工程参数和监控要点。

阅读全文 →

2025年10月19日

在 Pyversity 中实现 MMR 评分：平衡 RAG 检索的相关性和多样性

详细介绍 MMR 算法在 Pyversity 中的应用，优化 lambda 参数和余弦相似度以提升 RAG 系统检索效率和多样性。

阅读全文 →

2025年10月19日

工程化可扩展的 SvelteKit 前端 UI：支持多 LLM 对话、流式响应与模型切换的 Hugging Face Chat UI

剖析 Hugging Face Chat UI 的 SvelteKit 实现，提供多 LLM 集成、流式响应处理与模型切换的工程化配置与监控要点。

阅读全文 →

2025年10月19日

在 RAG 系统集成 Pyversity 实现检索结果多样化

本文介绍如何在 RAG 系统中集成 Pyversity 库，利用 MMR 算法平衡检索 chunk 的相关性和新颖性，提供集成步骤、参数调优和工程实践要点。

阅读全文 →

2025年10月19日

用 TypeScript 构建可扩展的 NotebookLM 克隆：多格式导出、自定义语音合成与模块化 LLM 链式

基于开源项目，探讨 TypeScript 工程实践，实现多格式内容导出、自定义语音合成集成及模块化 LLM 链式，支持个性化知识合成。

阅读全文 →

2025年10月19日

LLM 微调复兴：使用 LoRA 适配器实现高效领域特定适应

探讨 LLM 微调的复兴战略，使用 LoRA 适配器避免全模型重训，实现计算成本与性能的平衡，支持领域特定适应如金融和代码生成。

阅读全文 →

2025年10月19日

Skyvern 中 LLM 视觉任务分解：适应性导航与交互失败恢复

利用 LLM 和计算机视觉分解复杂浏览器任务，提供动态 UI 适应与失败恢复策略。

阅读全文 →

2025年10月19日

Open Notebook：构建开源 NotebookLM 替代品，支持可扩展提示、TTS 语音克隆与多格式导出

基于 Open Notebook 项目，探讨如何通过可扩展提示集成多模型 AI、TTS 语音克隆生成个性化播客，以及多格式导出实现自定义 AI 音频/播客从文档生成。

阅读全文 →

2025年10月19日

构建 Micrograd：微型 Python Autograd 引擎

从零构建一个小型 autograd 引擎，实现标量值的反向传播，支持 PyTorch 风格 API，用于教育性神经网络实现。

阅读全文 →

2025年10月19日

在 TTS 系统部署 OpenVoice 实现零样本即时语音克隆

面向 TTS 系统的 OpenVoice 部署指南：零样本克隆、多语言合成与音色参数优化。

阅读全文 →

2025年10月19日

MCP Java SDK 中的令牌认证与上下文隔离：Spring AI 多租户安全编排实践

在多租户 Spring AI 环境中，利用 MCP Java SDK 实现 OAuth 2.0 令牌认证与租户上下文隔离的工程化方案与参数配置。

阅读全文 →

2025年10月19日

在 Jupyter 中实现协作历史滑块：使用操作变换支持无冲突并发编辑

探讨 Jupyter 多用户协作中历史滑块的工程实现，基于操作变换 (OT) 算法处理 undo/redo，确保并发编辑一致性，提供参数配置与监控要点。

阅读全文 →

2025年10月19日

Deploy Quantized TensorFlow Lite Models on Coral NPU for Sub-1W Real-Time Multi-Model Inference

探讨如何利用 Coral NPU 的硬件-软件协同设计，在边缘设备上部署量化 TFLite 模型，实现低功耗实时多模型推理，包括内核融合和运行时调度的最佳参数与实践。

阅读全文 →

2025年10月19日

使用 LLM 上下文重排序和置信阈值构建 PaddleOCR 后 OCR 错误校正管道

本文探讨如何利用 LLM 上下文重排序和置信阈值技术，构建 PaddleOCR 的后处理错误校正管道，提升多语言文档提取准确性，适用于 RAG 系统。提供工程化参数、阈值设置及实现清单。

阅读全文 →

2025年10月19日

Coral NPU 上并发多模型推理的运行时调度器设计：低延迟切换与内存分区优化

针对电池受限 IoT 设备，探讨 Coral NPU 多模型并发推理的调度策略，包括上下文切换机制、共享内存分配参数，以及功耗优化要点，确保低延迟和高效率。

阅读全文 →

2025年10月19日

PaddleOCR 与 LLM 结构化提取集成：多语言 PDF/图像处理用于 RAG 管道

本文探讨如何将 PaddleOCR 与 LLM 结合，用于从多语言 PDF 和图像中提取结构化表格和文本，优化 RAG 管道的文档处理流程。提供端到端集成步骤、参数配置和监控要点，确保高效准确的结构化输出。

阅读全文 →

2025年10月19日

领域特定数据集上微调 PaddleOCR：转移学习与增强策略

针对医疗表单或发票等专业文档，利用转移学习和数据增强微调 PaddleOCR 模型，提升文本提取精度。详述数据准备、训练参数配置及工程实践要点。

阅读全文 →

2025年10月19日

Pathway 中实现动态 Schema 演进：流式 ETL 无重启列添加与类型变更

探讨 Pathway 框架中动态 Schema 演进机制，实现流式 ETL 中无缝列添加和类型变更，支持自适应 LLM 管道，避免重启中断。

阅读全文 →

2025年10月19日

在 Jupyter 中利用 Claude Cookbooks 实现多轮链式思考提示工程

利用 Claude Cookbooks 在 Jupyter 环境中构建多轮对话代理，通过链式思考提示提升推理可靠性，提供结构化推理路径的参数配置与状态管理策略。

阅读全文 →

2025年10月19日

使用 TypeScript 集成 DeepChat 与本地日历、邮件和文件 API 构建隐私优先的个人 AI 助手

面向隐私需求，介绍 DeepChat 的 MCP 协议与本地数据源的 TypeScript 集成方法，包括 API 连接参数、安全监控和落地清单。

阅读全文 →

2025年10月19日

ResNet 中实现身份跳跃连接以训练超深网络

通过身份快捷连接在CNN块中传播梯度，缓解退化问题，实现152层ResNet训练的工程化指南。

阅读全文 →

2025年10月19日

实现AI训练数据集自动偏见检测的可扩展管道

利用统计指标和ML审计构建自动化管道，检测训练数据偏见，解决人类识别局限，确保公平AI模型部署。

阅读全文 →

2025年10月19日

Coral NPU 中 TensorFlow Lite 的内核融合与动态量化优化：1W 功率下实时边缘推理

针对边缘设备低功耗需求，介绍在 TensorFlow Lite 中应用内核融合与动态量化优化 Coral NPU 的张量管道，实现 1W 功率下的实时推理参数与工程实践。

阅读全文 →

2025年10月18日

在 Coral NPU 上部署自定义量化 TFLite 模型实现 IoT 亚 10ms 推理

针对 IoT 场景，介绍自定义 TFLite 模型量化部署到 Coral NPU 的工程实践，包括 Edge TPU 编译器优化内存与功耗的关键参数。

阅读全文 →

2025年10月18日

使用 Coral NPU 构建全栈边缘 AI 解决方案

集成 Coral NPU 的硬件加速与软件工具，实现低功耗嵌入式设备的边缘 AI 推理，提供工程参数与部署指南。

阅读全文 →

2025年10月18日

使用 Coral NPU 部署边缘 AI 解决方案：TensorFlow Lite 硬件加速与集成

基于 Google Coral Edge TPU 的全栈边缘 AI 部署指南，涵盖优化推理、硬件集成及 TensorFlow Lite 参数配置。

阅读全文 →

2025年10月18日

从零构建 26M GPT 训练管道：自定义分词器、高效数据加载与单 GPU 评估循环

基于 MiniMind，介绍单 GPU 从零训练小型 GPT 的核心实现，包括 tokenizer 训练、数据管道和评估机制。

阅读全文 →

2025年10月18日

使用 Pathway 实现 LLM 管道中的实时 Schema 演化

探讨 Pathway 框架如何通过动态 Schema 构建和验证机制处理演化的 LLM 数据格式，确保流式 ETL 管道的鲁棒性，提供工程化参数和监控要点。

阅读全文 →

2025年10月18日

构建电子书到有声书的自动化管道：集成语音克隆 TTS 支持多语言个性化合成

本文探讨如何使用 ebook2audiobook 工具构建自动化管道，将电子书转换为支持 1100+ 语言的个性化有声书。通过集成 XTTSv2 等 TTS 模型和语音克隆技术，实现脚本化提取、合成与章节管理，提供工程参数与最佳实践。

阅读全文 →

2025年10月18日

Integrating MCP Java SDK with Spring AI for Multi-Model Orchestration

本文探讨 MCP Java SDK 与 Spring AI 的集成方法，用于构建标准化 AI 客户端和服务器，支持多模型协调、工具调用及安全上下文共享，提供工程化配置和最佳实践。

阅读全文 →

2025年10月18日

AI代理十年级验证监督：多步验证与混合人-AI监督策略

探讨AI代理可靠性十年级工程策略，聚焦多步验证、混合人-AI监督及系统规划挑战，提供可落地参数与监控要点。

阅读全文 →

2025年10月18日

无服务器 PaddleOCR 管道：实时多语言 OCR 部署

利用 PaddleOCR 构建无服务器管道，实现 PDF 和图像的实时多语言 OCR，输出结构化数据供 LLM 摄取，优化低延迟参数与部署策略。

阅读全文 →

2025年10月18日

AI代理混合监督验证协议设计：多步规划中的可扩展循环与错误界定

针对多步AI代理规划，设计人类-AI混合监督协议，强调可扩展验证循环、错误界定机制及工程参数，实现可靠性提升。

阅读全文 →

2025年10月18日

使用 Pathway 构建 RAG 系统的流式向量同步管道

面向 RAG 系统，利用 Pathway 实现实时向量嵌入更新与去重，提供增量 ETL 管道配置与监控要点。

阅读全文 →

2025年10月18日

使用 Pathway 构建 LLM 编排的流式 ETL 管道：实时摄取与故障容错

利用 Pathway 框架实现 LLM 编排中的流式 ETL，涵盖实时数据摄取、转换、分布式模型同步，提供低延迟输出和容错机制的参数配置与监控要点。

阅读全文 →

2025年10月18日

动手实践大型语言模型：使用 Jupyter 笔记本实现端到端工作流

基于 O'Reilly 的《Hands-On Large Language Models》书籍代码库，通过 Jupyter 笔记本实现 LLM 的 fine-tuning、RAG 集成和部署，提供实用参数和监控要点。

阅读全文 →

2025年10月18日

使用 DeepChat 构建个人数据集成 AI 助手：日历、邮件与文件的安全链接

基于 DeepChat 和 MCP 协议，指导集成用户日历、邮件和文件，实现上下文感知的主动 AI 交互，包括安全 API 钩子和参数配置。

阅读全文 →

2025年10月18日

语音克隆电子书转有声书管道：章节提取与自然叙述工程实践

基于ebook2audiobook管道，给出电子书解析、TTS语音克隆及多语言支持的落地参数、监控与输出格式优化。

阅读全文 →

2025年10月18日

Claude API 提示工程食谱：Jupyter 笔记本中的链式思考、少样本适应与 XML 结构化输出

通过 Jupyter 笔记本演示 Claude API 的提示工程技巧，包括链式思考、少样本适应和 XML 结构化输出，实现 robust AI 任务编排。提供可复制代码和最佳实践参数。

阅读全文 →

2025年10月18日

在 Open Notebook 中集成 Tortoise-TTS 实现自定义语音克隆

在 Open Notebook 中集成 Tortoise-TTS，用于自定义语音克隆，支持个性化多格式播客生成与低延迟合成。

阅读全文 →

2025年10月18日

基于视觉的Skyvern自适应网页抓取：元素检测与故障恢复

利用视觉语言模型实现Skyvern的动态JS站点抓取，聚焦无固定选择器的元素检测、自适应导航及故障恢复策略。

阅读全文 →

2025年10月18日

使用 PyTorch DDP 将 MiniMind 的 26M GPT 训练扩展到多 GPU 集群：数据分片、梯度同步与弹性检查点

探讨如何通过 PyTorch DDP 将 MiniMind 26M 参数 GPT 模型训练扩展到多 GPU 环境，包括数据分片、梯度 all-reduce 机制，以及弹性检查点实现故障容忍。

阅读全文 →

2025年10月18日

AI 代理的十年级系统挑战：可靠性和监督

基于 Karpathy 访谈，剖析 AI 代理十年级可靠性难题，聚焦多步规划验证阈值与混合人类-AI 监督集成，提供工程参数与监控要点。

阅读全文 →

2025年10月18日

在 MiniMind 中集成 FP16 混合精度训练：加速 26M GPT 原型在消费级 GPU 上的开发

面向 MiniMind 的 PyTorch 训练循环，给出 FP16 混合精度集成、AMP 配置与损失缩放的工程实践与稳定性监控要点。

阅读全文 →

2025年10月18日

PaddleOCR 输出链式接入 LLM：扫描文档表格结构化提取与后处理优化

探讨将 PaddleOCR 输出链式输入 LLM，实现扫描文档中表格的结构化提取，包括实体解析和噪声输入错误校正，提供工程参数与监控要点。

阅读全文 →

2025年10月18日

AI 代理十年规模系统性挑战：多步规划可靠性验证与混合监督架构

分析 AI 代理在十年尺度上的系统性难题，聚焦多步规划的可靠性验证机制及可扩展混合监督架构的设计要点与落地参数。

阅读全文 →

2025年10月18日

使用 WebMCP 构建浏览器原生 MCP 客户端

探讨 WebMCP 如何实现无服务器中介的多模型 AI 工具集成，提供工程化构建指南与安全参数。

阅读全文 →

2025年10月18日

桥接 PaddleOCR 与 LLM：PDF 结构化数据提取

利用 PaddleOCR 输出桥接到 LLM，实现多语言 PDF 的结构化提取，支持验证与错误修正的工程化管道。

阅读全文 →

2025年10月18日

AI代理多步规划可靠性：验证循环与混合人-AI监督实现

针对生产环境中AI代理的多步执行，提出验证循环机制与混合人-AI监督策略，减少幻觉传播风险，提供参数阈值与监控清单。

阅读全文 →

2025年10月18日

MiniMind：从零用 PyTorch 构建 26M GPT 核心训练组件

探讨 MiniMind 中 PyTorch 实现的 Transformer 架构、分词器、数据管道及训练循环，为小规模 GPT 训练提供工程化指导。

阅读全文 →

2025年10月18日

工程可靠AI代理：Karpathy眼中的多步规划与错误积累挑战

探讨AI代理可靠性工程，聚焦多步规划、错误积累与工具集成，提供可落地参数与策略。

阅读全文 →

第 48 / 66 页 · 共 5280 篇