ai-systems

机器智能

2025年10月24日

PyTorch 后训练量化与优化的工程化实践：TorchForge 工具链详解

基于 PyTorch 原生工具链，解析 TorchForge 在后训练量化中的分布式参数配置与故障转移策略，附 GPU 资源阈值清单。

阅读全文 →

2025年10月24日

Designing ML Systems Labs with Real-World Tradeoffs in Distributed Training and Inference

解析哈佛CS249r课程如何通过实验设计教授分布式训练与边缘推理中的工程权衡，提供可落地的教学参数清单。

阅读全文 →

2025年10月24日

Engineering Real-Time Metrics Aggregation for ML Library Popularity: Pipeline Design and Heuristics

How to build a dynamic metrics pipeline for ML library ecosystem monitoring using GitHub API heuristics, with actionable parameters for stability and scalability.

阅读全文 →

2025年10月24日

通过级联DCT变换实现多层盲水印：针对AI图像管道的压缩与裁剪鲁棒检测

在AI图像生成管道中，利用级联DCT变换的多层盲水印嵌入策略，提升对压缩和裁剪攻击的鲁棒性，无需原图即可可靠提取。

阅读全文 →

2025年10月24日

Engineering Shared Memory for Multi-Claude Agent Systems

面向多Claude代理系统，给出共享内存协议的工程化设计，包括同步访问、冲突解决和任务移交参数。

阅读全文 →

2025年10月24日

扩散LLM的无训练加速：内核蒸馏与渐进采样在边缘设备上的应用

应用内核蒸馏和渐进采样技术，实现扩散LLM在边缘设备上3倍推理加速，无需模型重训练或质量损失。

阅读全文 →

2025年10月24日

LLM 对话上下文的 Git 式分支与合并实现

探讨在 LLM 会话中引入 Git 风格的分支和合并机制，实现多用户协作的多线程 AI 工作流，并包括冲突检测的工程实践。

阅读全文 →

2025年10月24日

Claude API 跨会话持久内存工程：检索增强存储、工具集成与状态管理

在 Claude API 中实现跨会话持久内存，通过检索增强存储管理状态，集成工具支持可扩展代理工作流，提供工程参数和最佳实践。

阅读全文 →

2025年10月24日

在 Dyad 的 TypeScript 管道中实现持久化 Saga 编排：本地 AI 应用的容错执行

探讨如何在 Dyad 框架中运用 Saga 模式实现本地 AI 工作流的耐久性，包括重试机制、状态检查点和离线恢复策略，确保无云依赖下的可靠执行。

阅读全文 →

2025年10月24日

实现动态令牌路由优化 MoE 负载均衡：5 倍加速工程实践

通过动态令牌路由实现 MoE 负载均衡优化，提供 5 倍加速的工程参数与监控要点。

阅读全文 →

2025年10月24日

Claude 持久内存工具集成：实现有状态多轮代理工作流

探讨Claude的内存工具如何与工具调用结合，支持跨会话状态管理，实现无重置的多轮代理应用。提供API参数、示例和工程化建议。

阅读全文 →

2025年10月24日

使用 Sherpa-ONNX 构建 WebSocket 服务器实现实时双向 STT/TTS 流式处理

本文探讨如何利用 Sherpa-ONNX 的 ONNX 模型，通过 WebSocket 服务器构建低延迟的分布式语音应用，支持实时 STT 和 TTS 流式传输，无需互联网依赖。

阅读全文 →

2025年10月24日

通过 Sherpa-ONNX 在边缘设备上部署离线 STT 模型：实时转录与 ONNX 优化

面向边缘设备，给出 Sherpa-ONNX 离线 STT 部署的工程化参数与多语言实时转录要点。

阅读全文 →

2025年10月24日

Sherpa-ONNX 在嵌入式系统上的离线 TTS 模型部署：低延迟与多说话人优化

使用 Sherpa-ONNX 在嵌入式设备上实现离线 TTS，聚焦低延迟合成、多说话人支持及资源优化策略。

阅读全文 →

2025年10月24日

AI发现的MoE负载均衡算法：实现5倍更快推理

在MoE模型中实施AI发现的token路由和专家负载均衡，实现无准确性损失的5倍推理加速，提供优化参数和监控要点。

阅读全文 →

2025年10月23日

Sherpa-ONNX 中 VAD 与说话人分离集成：边缘设备低延迟多说话人处理

利用 Sherpa-ONNX 的 VAD 和说话人分离功能，在边缘设备上实现实时多说话人识别，提供聚类算法、ONNX 优化和工程参数配置指南。

阅读全文 →

2025年10月23日

在嵌入式系统中部署 ONNX 源分离模型：实时多通道音频解纠缠优化

利用 Sherpa-ONNX 在嵌入式设备上实现实时音频源分离，聚焦模型量化与低延迟推理参数配置。

阅读全文 →

2025年10月23日

为 LLM 上下文构建 Git-like 版本控制：分支、合并与差异比较

面向多轮对话状态管理，给出 Git-like 接口的工程实现与参数配置要点。

阅读全文 →

2025年10月23日

使用 Dyad 通过 TypeScript 管道搭建本地优先 AI 应用

Dyad 是一个开源工具，通过模块化 TypeScript 管道，帮助开发者快速搭建无需云依赖的本地 AI 应用。集成离线模型如 Ollama、React 状态管理和本地部署钩子，实现隐私优先的开发流程。

阅读全文 →

2025年10月23日

Claude API 中实现跨会话持久内存：保留用户事实与偏好

探讨 Claude API 的 Memory Tool 如何实现跨会话持久化，高效检索用户数据以提升个性化，避免 token 限制。提供工程参数和最佳实践。

阅读全文 →

2025年10月23日

工程分布式AI推理管道：Google Earth高分辨率卫星图像分析与低延迟全球访问

探讨Google Earth AI中分布式AI推理管道的设计，用于高分辨率卫星图像分析和交互3D可视化，重点通过边缘缓存实现全球低延迟访问的工程实践。

阅读全文 →

2025年10月23日

使用 Antislop 框架消除 LLM 输出中的重复模式

介绍 Antislop 框架，通过统计检测器识别并干预 LLM 输出中的重复 n-gram 模式，提升生成多样性，无需模型重新训练。

阅读全文 →

2025年10月23日

PyTorch Monarch 中的块对角低秩注意力优化：移动 NPU 高效注意力计算工程实践

深入剖析 PyTorch Monarch 矩阵的块对角近似与低秩因式分解技术，用于工程化融合内核，实现移动 NPU 上注意力机制的低延迟、高吞吐计算。涵盖参数配置、优化策略及潜在风险。

阅读全文 →

2025年10月23日

PyTorch Monarch 中的块对角低秩注意力优化

探讨 PyTorch Monarch 矩阵中块对角近似和低秩因式分解在高效移动 NPU 注意计算中的工程化融合内核实现，提供参数调优和监控要点。

阅读全文 →

2025年10月23日

PyTorch Monarch Mixer 在移动 NPU 上的边缘加速：融合内核与块对角近似工程

针对 Monarch 矩阵操作，介绍融合内核设计与块对角近似方法，实现 PyTorch Mobile 部署中移动 NPU 上的 sub-10ms 推理优化。

阅读全文 →

2025年10月23日

使用 Sherpa-ONNX 构建嵌入式关键词 spotting 系统

利用自适应 VAD、模型量化和 IoT 微控制器集成，实现低延迟唤醒词检测。

阅读全文 →

2025年10月23日

基于 CRDT 的离线同步：Deta Surf 中使用 Yjs 和 ONNX Runtime 实现本地优先 AI 笔记本

探讨 Deta Surf 如何通过 Yjs 的 CRDT 机制实现协作离线同步，并集成 ONNX Runtime 支持无云依赖的 AI 模型原型与实验。

阅读全文 →

2025年10月23日

使用 Sherpa-ONNX 在边缘设备上构建实时说话人分割管道

面向噪声音频的多说话人场景，给出 Sherpa-ONNX 实时说话人 diarization 管道的低延迟 VAD 集成、参数优化与监控要点。

阅读全文 →

2025年10月23日

Monarch 矩阵实现：块对角与低秩分解用于高效线性变换

通过块对角加低秩分解实现 Monarch 矩阵，用于 ML 模型的参数高效线性变换，减少 FLOPs 和内存，支持边缘设备 Transformer 训练。

阅读全文 →

2025年10月23日

使用 ONNX Runtime Web、Yjs 和无锁入同步工程化离线 AI 笔记本

探讨在 AI 笔记本中实现离线推理，使用 ONNX Runtime Web 运行本地模型，Yjs 基于 CRDT 的实时协作，以及无缝本地-云同步策略，避免供应商锁入。

阅读全文 →

2025年10月23日

Sherpa-ONNX 源分离与 VAD 在嵌入式系统中的实时多说话人解纠缠实现

面向实时嵌入式系统，给出 Sherpa-ONNX 源分离、VAD 与低延迟梁形成集成的工程参数、监控要点及实施清单。

阅读全文 →

2025年10月23日

Transformer 中蝴蝶因子分解用于低秩注意力近似

探讨在Transformer中使用蝴蝶结构矩阵近似低秩注意力，实现大模型在消费级GPU上的内存优化训练，提供工程参数与实现要点。

阅读全文 →

2025年10月23日

在 PyTorch 中集成 Monarch 矩阵：Transformer 的结构化低秩近似优化

探讨 Monarch 矩阵在 PyTorch 中的集成，用于 Transformer 的结构化低秩近似，优化大型模型训练的内存和计算效率，同时最小化准确性损失。

阅读全文 →

2025年10月23日

浏览器中集成 Fish Speech 与 SSE 实现实时多语言 TTS 流式输出

将 Fish Speech 扩散模型与 SSE 结合，在浏览器环境中实现低延迟多语言 TTS 流式合成，支持部分音频处理和连接重连。

阅读全文 →

2025年10月23日

构建电子书到有声书管道：零-shot语音克隆与多语言支持

基于ebook2audiobook，介绍零-shot语音克隆、多语言TTS管道的构建，包含语调转移、多说话者混合的参数配置与优化要点。

阅读全文 →

2025年10月23日

Gemini CLI 与 Shell 管道集成：上下文命令生成

通过将 Shell 输出管道输入 Gemini CLI，实现基于上下文的 AI 辅助命令生成，提升终端工作流效率，无需完整 REPL 状态管理。

阅读全文 →

2025年10月23日

Claude Cookbook：基于 Jupyter 的多步推理配方工程

工程化 Jupyter 配方，用于 Claude API 工具调用、状态持久化和代理工作流中的错误处理，实现可重现的多步推理链。

阅读全文 →

2025年10月23日

Fish Speech 中非自回归扩散 Transformer 的工程实现：并行多语言 TTS 生成、VQ-VAE 标记化和边缘低延迟合成

探讨 Fish Speech 中 DiT 架构的工程实践，支持并行多语言 TTS、VQ-VAE 令牌化和 RTF <0.2s 的低延迟合成。

阅读全文 →

2025年10月23日

Ovi 双骨干中令牌级同步：低延迟跨模态生成实现

探讨 Ovi 模型中 token-level 同步机制，通过双 DiT 骨干的跨模态融合实现音频视频对齐，避免帧缓冲开销的工程参数与优化策略。

阅读全文 →

2025年10月23日

在 Parlant 中构建容错 LLM 代理用于边缘实时控制系统

利用 Parlant 框架工程化容错 LLM 代理，聚焦模块化错误恢复、状态同步和边缘部署，实现可靠低延迟的实时控制操作。提供实用参数和监控要点。

阅读全文 →

2025年10月23日

RAG系统中DeepSeek-OCR的混合像素-文本嵌入适应：精确子文档检索与幻觉减少

面向视觉增强LLM的RAG应用，给出DeepSeek-OCR混合嵌入的集成策略、参数配置与监控要点。

阅读全文 →

2025年10月23日

Ovi 双骨干低延迟同步：帧对齐与缓冲管理工程实践

针对 Ovi 双骨干架构，工程化实现低延迟帧对齐和自适应缓冲管理，确保实时交互音视频生成的同步与稳定性。

阅读全文 →

2025年10月23日

Willow 芯片中表面码纠错的实现：阈值解码与逻辑量子比特参数

探讨 Willow 量子芯片中使用表面码和阈值解码创建逻辑量子比特，实现超越经典计算的容错操作的关键参数和监控要点。

阅读全文 →

2025年10月23日

使用 Fish Speech 实现零样本多语言语音克隆管道

基于扩散变换器构建低延迟、多语言 TTS 的零样本语音克隆管道，针对边缘设备优化，保留韵律并支持实时合成。

阅读全文 →

2025年10月23日

Ovi 双骨干低延迟同步工程化：实时跨模态音视频生成的无漂移融合

面向实时跨模态音视频生成，剖析 Ovi 双骨干的低延迟同步机制，包括块级融合与时间对齐参数，确保无漂移融合。

阅读全文 →

2025年10月23日

Open Notebook 中多模态播客生成的 TypeScript 管道工程实践

面向开源 Notebook LM 实现，给出 TypeScript 管道工程从多模态来源笔记到音频播客生成的实践参数与要点。

阅读全文 →

2025年10月23日

Unity 中基于 Webcam 的头跟踪实现无眼镜 3D

本文探讨在 Unity 中使用 Webcam 进行实时头姿势估计，驱动视差屏障渲染，实现低延迟的无眼镜 3D 显示。提供工程化参数和优化建议。

阅读全文 →

2025年10月23日

使用 Jupyter 构建 Claude 多步推理链：工具调用与状态管理

在 Jupyter 中利用 Claude API 构建多步推理链，整合工具调用、状态管理和可视化，支持 AI agent 迭代实验。

阅读全文 →

2025年10月23日

Semantic Art：使用 CLIP 进行自然语言嵌入检索真实艺术品

利用 CLIP 模型嵌入自然语言提示，从未标记艺术图像数据库中通过余弦相似度排名检索匹配作品，提供工程参数与实现要点。

阅读全文 →

2025年10月23日

OVI中双骨干模型音频视频流同步工程实践：低延迟连贯多模态生成管道

面向双骨干多模态生成，工程化音频视频同步机制，实现低延迟连贯输出管道的关键参数与策略。

阅读全文 →

2025年10月23日

Gemini CLI 中实现有状态 REPL：迭代代码执行与实时调试

探讨 Gemini CLI 的有状态 REPL 功能，支持迭代代码执行、工具链集成和实时调试，提升 AI 辅助开发工作流效率。提供配置参数、操作清单和最佳实践。

阅读全文 →

2025年10月23日

通过双骨干跨模态融合实现音频视频同步生成：Ovi 项目

面向实时 AI 头像，探讨 Ovi 的双骨干跨模态融合技术，实现唇同步与手势对齐的工程参数与优化策略。

阅读全文 →

2025年10月23日

VortexNet 中实现涡度守恒的神经算子

在 VortexNet 中，通过神经算子实现涡度传输方程，用于物理信息视频预测模型中守恒角动量，提供工程参数和监控要点。

阅读全文 →

2025年10月23日

VortexNet：将流体力学融入神经网络用于时空视频预测

基于 Navier-Stokes 方程的 VortexNet 架构，提供物理信息 CNN 替代，用于时空视频预测的稳定模拟层与工程参数。

阅读全文 →

2025年10月23日

LLM像素输入 vs 文本提取：DeepSeek-OCR提升文档解析效率的评估

比较像素输入与文本提取在LLM中的OCR功效，提供工程参数以优化文档解析和多模态效率。

阅读全文 →

2025年10月22日

ML 框架中硬件感知优化：边缘设备高效推理

基于 CS249r 课程，探讨在 ML 框架中实现硬件感知优化，平衡量化、稀疏性和自定义加速器，以实现边缘设备高效推理。

阅读全文 →

2025年10月22日

VortexNet：基于流体动力学涡旋传播的神经网络层设计

通过涡旋粒子方法启发神经传播层，支持物理信息学习在模拟中的应用，无需传统PDE求解器。

阅读全文 →

2025年10月22日

VortexNet：基于流体动力学的神经传播模拟时空动态

探讨VortexNet如何将流体动力学方程融入神经网络层，用于视频预测和物理建模中的时空传播模拟，提供工程参数和实现要点。

阅读全文 →

2025年10月22日

使用 Parlant 构建模块化 LLM 代理管道：实时控制系统中的状态管理和工具链

在工业自动化领域，利用 Parlant 框架构建 LLM 代理管道，实现高效的状态管理、工具链集成和容错决策，提升实时控制系统的可靠性。

阅读全文 →

2025年10月22日

实现非自回归扩散 Transformer 多语言 TTS：低延迟推理、语音克隆与边缘部署训练管道

基于 Fish-Speech，介绍非自回归扩散 Transformer 在多语言 TTS 中的工程实现，强调低延迟推理优化、语音克隆机制及边缘设备训练管道的参数配置。

阅读全文 →

2025年10月22日

双骨干跨模态融合架构：Ovi 模型的音频视频同步生成工程实践

Ovi 模型采用双骨干架构，通过潜在空间跨模态融合实现音频与视频的同步生成。文章探讨其工程设计、对齐优化及实时推理参数配置，提供部署清单与监控策略。

阅读全文 →

2025年10月22日

集成 Cuq 实现 Rust GPU 内核的并行安全验证

探讨如何集成 Cuq 框架对 Rust GPU 内核进行形式化验证，重点关注并行安全检查和计算着色器中的错误界限，以提升 AI 加速的可靠性。

阅读全文 →

2025年10月22日

利用 Helion DSL 在 PyTorch 中编写高性能可移植 ML 内核

Helion DSL 提供 PyTorch 风格语法编写 ML kernels，自动优化跨 CPU/GPU backend，无需低级调优。介绍核心特性、autotuning 参数及部署清单。

阅读全文 →

2025年10月22日

使用 Dyad 构建本地 AI 应用的模块化 TypeScript 管道

以 Dyad 为 v0/Bolt 替代，构建模块化 TypeScript 管道，实现本地 AI 应用的模型服务、UI 生成与部署集成，提供工程化参数与监控要点。

阅读全文 →

2025年10月22日

非对角 SSM 在 RNN 中的并行计算：无需稳定化的新型矩阵公式

探讨非对角状态空间模型在 RNN 中的并行计算技术，通过结构化矩阵公式消除稳定化需求，实现高效可扩展的 AI 序列建模。

阅读全文 →

2025年10月22日

本地大模型量化加速与侧信道防御的性能安全权衡

探讨本地LLM量化技术如何提升推理速度，同时引入侧信道攻击风险如模型提取。分析内存加密和时序混淆等防御措施的参数配置与性能开销，提供工程化落地清单。

阅读全文 →

2025年10月22日

Engineering Modular TypeScript Pipelines for Local AI App Scaffolding

探讨使用 Dyad 工程化模块化 TypeScript 管道，实现本地 AI 应用 scaffolding，包括离线模型推理、动态 UI 生成和持久状态管理，支持无云快速原型开发。

阅读全文 →

2025年10月22日

Claude API 代理集成 Jupyter 配方工程：工具链、状态管理和错误恢复

通过 Jupyter notebooks 实现 Claude API 在代理中的工程实践，涵盖工具链构建、状态管理、错误恢复及多轮推理的关键参数与工作流。

阅读全文 →

2025年10月22日

工程化机器学习系统：硬件-软件协同设计实现高效推理与分布式训练

探讨硬件-软件协同设计在机器学习系统中的应用，聚焦高效推理、数据移动优化以及可扩展分布式训练管道的工程实践与参数配置。

阅读全文 →

2025年10月22日

Willow芯片实现可扩展量子优势工程：表面码纠错与RCS基准

Willow的105量子比特处理器通过表面码实现低于阈值纠错，逻辑保真度提升，并在随机电路采样中以5分钟完成超算需10^25年的任务，提供工程化参数与监控要点。

阅读全文 →

2025年10月22日

Transformer解码器中脉冲神经动态优化：事件驱动注意力和阈值适应用于能效边缘推理

针对Transformer解码器的脉冲神经动态优化，介绍事件驱动注意力机制与自适应阈值神经元，实现边缘设备上的低功耗推理。

阅读全文 →

2025年10月22日

Dragon Hatchling：桥接Transformer与大脑模型的脉冲混合架构

Dragon Hatchling (BDH) 融合脉冲神经网络与Transformer，实现离散令牌处理与连续脑-like动态的桥接，支持能量高效的序列建模与推理。

阅读全文 →

2025年10月22日

用脉冲神经动态替换Transformer注意力：面向能效的类脑LLM推理与训练

面向能效优化的类脑LLM，通过脉冲神经替换注意力机制，给出工程参数与落地清单。

阅读全文 →

2025年10月22日

Parlant LLM 代理在控制系统中的模块化管道工程化

利用 Parlant 框架构建可靠、可部署的 LLM 代理模块化管道，聚焦实时决策和容错编排，提供工程参数与监控要点。

阅读全文 →

2025年10月22日

Nvidia Starcloud 中分布式 GPU 调度与容错模型服务的工程实践

面向可扩展 AI 推理集群，探讨 Nvidia Starcloud 的分布式 GPU 调度机制、容错策略及工程化参数配置。

阅读全文 →

2025年10月22日

Fish Speech：非自回归扩散 Transformer 在多语言 TTS 中的工程实践

面向 SOTA 多语言 TTS，分析 Fish Speech 的非自回归扩散模型工程要点，包括低延迟推理参数和高保真合成策略。

阅读全文 →

2025年10月22日

工程化模块化管道：部署 LLM 代理于控制系统

探讨 Parlant 框架如何构建模块化管道，实现 LLM 代理在控制系统中的实时编排、容错机制及零-shot 适应，适用于工业自动化场景，提供工程参数与监控要点。

阅读全文 →

2025年10月22日

构建非自回归扩散Transformer实现SOTA多语言TTS

基于语义token和flow matching，在10万小时数据上构建非自回归扩散Transformer，用于SOTA多语言TTS系统，提供工程化参数和落地指南。

阅读全文 →

2025年10月22日

Kyutai Mimi 神经音频编解码器的低延迟流式优化：自适应缓冲、帧预测与抖动补偿

工程化 Kyutai Mimi 的流式低延迟传输，通过自适应缓冲、帧预测和抖动补偿，实现实时 LLM 音频摄取的无感知延迟。

阅读全文 →

2025年10月22日

Skyvern 中基于 LLM 的浏览器自动化错误检测与恢复

工程化 Skyvern 中的错误恢复机制，使用 VLM 识别 UI 失败，LLM 执行回退动作，并通过验证确保动态 web 工作流鲁棒性。

阅读全文 →

第 46 / 66 页 · 共 5280 篇