ai-systems

机器智能

2025年10月04日

利用 Tunix 的 JAX 原语实现矢量化 RLHF 对齐：DPO 在后训练中的高效偏好优化

面向 LLM 后训练，给出 Tunix 中 JAX 矢量化 DPO 的工程参数与偏好优化要点。

阅读全文 →

2025年10月04日

利用AI图神经网络预测IBD炎症路径中抗生素结合位点

通过图神经网络结合分子动力学模拟，预测抗生素在IBD炎症路径中的结合机制，并给出in silico验证的工程化参数与再利用策略。

阅读全文 →

2025年10月04日

ProofOfThought 的 Z3 混合推理：神经符号程序合成实现鲁棒可解释推理

基于 NeurIPS 2024 论文，介绍 ProofOfThought 的神经符号方法，提升 LLM 推理的可靠性和可解释性。

阅读全文 →

2025年10月04日

Proof-of-Thought：链式 LLM 提示生成逻辑定理并用 Z3 验证

Proof-of-Thought 框架通过链式 LLM 提示生成逻辑定理，利用 Z3 SMT 求解器逐步验证，支持一般推理任务的可靠证明构建。提供高层 API 简化集成，并给出工程参数如迭代阈值和监控策略。

阅读全文 →

2025年10月04日

模块化神经系统桥接统计推理到涌现智能

使用图神经网络设计模块化AI代理系统，实现从统计推断到可扩展推理与规划的跃迁，提供工程参数与落地指南。

阅读全文 →

2025年10月04日

将 Lean 定理证明器策略与 LLM 提示集成：验证代码生成证明的逐步数学推理

通过 LLM 提示生成 Lean tactics 序列，实现对代码生成中数学推理证明的逐步验证，提供提示工程参数和迭代优化策略。

阅读全文 →

2025年10月04日

集成定理证明器验证与修正LLM推理步骤：多跳任务逻辑一致性保障

在LLM多跳推理中集成Z3或Lean定理证明器，提供验证与修正机制的工程参数、阈值设置及监控要点，确保逻辑一致性。

阅读全文 →

2025年10月04日

通过缩放定律分析优化 LLM 预训练数据混合以实现知识注入

基于实证缩放定律分析，探讨知识注入的 LLM 预训练数据混合优化策略，实现性能与效率的平衡提升。

阅读全文 →

2025年10月04日

通过合成结构化数据注入实现知识注入：利用预训练中的幂律缩放提升10倍效率

在LLM预训练中注入合成结构化数据，实现领域适应的10倍效率，利用幂律缩放避免完整重训练，提供参数配置与实施指南。

阅读全文 →

2025年10月04日

使用 Pathway 部署 Docker 友好 RAG 模板：实时多源数据同步与企业搜索

通过 Pathway 的 Docker 友好 RAG 模板，实现从 SharePoint、Google Drive、S3 等多源的实时数据同步，支持企业级 AI 管道和搜索。

阅读全文 →

2025年10月04日

微软代理框架中多代理 AI 工作流的编排：Python 与 .NET 集成及可扩展部署

探讨微软代理框架如何通过 Python 和 .NET 支持多代理工作流的编排，包括状态管理、DevUI 调试和可扩展部署策略。

阅读全文 →

2025年10月04日

将 BitNet 三元查找表集成到自定义 Triton 内核中：GPU 加速 1-bit LLM 推理

面向服务器端 1-bit LLM 推理，给出 BitNet LUT 与 Triton 内核集成的工程参数、优化要点与监控策略。

阅读全文 →

2025年10月04日

低功耗ASIC上1位LLM推理的位串行矩阵乘法内核设计：移位-加法流水线优化

针对1位LLM推理，设计位串行矩阵乘法内核，利用移位-加法流水线优化低功耗ASIC，实现亚1W边缘部署。讨论硬件参数、流水线配置与功耗监控要点。

阅读全文 →

2025年10月04日

利用 JAX vmap/pmap 实现分布式 LLM 蒸馏与量化感知后训练

探讨如何在资源受限硬件上使用 Tunix 库和 JAX 的并行机制优化 LLM 后训练，包括蒸馏和量化策略的参数配置与工程实践。

阅读全文 →

2025年10月04日

BitNet 中使用直通估计器工程化三元权重训练：针对资源受限硬件的 1-bit LLM 优化

面向资源受限硬件的 1-bit LLM，探讨 BitNet 三元权重训练的工程实践，使用 STE 实现高效梯度传播，提供参数配置与监控策略。

阅读全文 →

2025年10月04日

BitNet 在边缘设备部署优化：三元权重的低功耗推理与内核配置

针对电池供电的 IoT 设备，利用 BitNet 的三元权重和 bitnet.cpp 自定义内核，实现内存高效的 1-bit LLM 推理优化。

阅读全文 →

2025年10月04日

BitNet 中使用直通估计器的三元权重量化训练

探讨 BitNet 中三元 {-1,0,1} 权重的量化训练机制，利用 STE 优化梯度流，并提供激活缩放与收敛参数的工程实践。

阅读全文 →

2025年10月04日

使用 BitNet 构建 1-bit LLM 推理管道

面向 1-bit LLM 的边缘部署，给出三元权重量化管道、自定义内核和运行时优化的工程参数与配置要点。

阅读全文 →

2025年10月04日

资源受限边缘设备上部署 1-bit LLM：BitNet 量化感知推理优化

利用 BitNet b1.58 框架，在边缘设备上部署 1-bit 大模型，实现低延迟移动 AI，精度损失最小。

阅读全文 →

2025年10月04日

BitNet 三元权重量化训练工程：直通估计器与梯度裁剪实践

面向 1.58-bit BitNet 模型训练，给出直通估计器实现与梯度裁剪参数的工程化指南。

阅读全文 →

2025年10月04日

Motia：多语言后端统一框架，Step 原语整合 API、工作流与 AI 代理

探讨 Motia 如何以 Step 为核心原语统一多语言后端，整合 API、后台作业、工作流及 AI 代理的工程参数与可观察性要点。

阅读全文 →

2025年10月04日

Agent-S：桌面代理模拟框架的工程实现

面向复杂桌面任务，给出 Agent-S 框架的 UI 自动化、API 集成与状态管理的工程参数与优化要点。

阅读全文 →

2025年10月04日

部署 BitNet 1-bit LLM：三元权重边缘推理优化

针对边缘设备部署 1.58-bit LLM，优化三元权重量化训练与运行时打包，实现 2-4 倍内存节省且无准确性损失，提供工程参数与部署清单。

阅读全文 →

2025年10月04日

Sora 扩散模型中集成因果物理模拟器：实现 20 秒视频的真实对象动态与交互预测

探讨 Sora Update #1 中因果物理模拟器的集成，提升视频生成中的物理真实性和因果交互，提供工程参数与监控要点。

阅读全文 →

2025年10月04日

在 Tunix 中利用 JAX vmap 实现单设备矢量化 LoRA 后训练

利用 JAX vmap 在 Tunix 中实现单设备矢量化 LoRA 微调与量化，优化本地后训练，避免分布式 TPU 需求。

阅读全文 →

2025年10月04日

在 IM2LaTeX-100K 数据集上微调 pix2tex ViT 模型：提升手写数学表达式识别

本文探讨如何在 IM2LaTeX-100K 数据集上微调 pix2tex ViT 模型，以增强对手写数学公式的识别准确率，包括数据集准备、超参数优化及评估策略。

阅读全文 →

2025年10月04日

Integrate Kintex UltraScale FPGA in Alibaba Cloud for Low-Cost ML Accelerators with HBM2 Optimization

利用阿里云FPGA实例构建高效ML加速器，优化HBM2接口实现高带宽数据处理。

阅读全文 →

2025年10月04日

Airweave 中动态 API Schema 推理的实现

在 Airweave 框架中，通过动态 API schema 推理从未知端点提取结构，实现适应性代理查询的工程化方案与参数配置。

阅读全文 →

2025年10月04日

使用 Parlant 实现低延迟控制代理编排

Parlant 框架通过模块化 LLM 代理和高效部署管道，支持工业控制中的亚秒级延迟响应和容错切换。聚焦实时决策与工具集成，提供工程参数和监控要点，确保可靠运行。

阅读全文 →

2025年10月04日

Jules API 中的安全 WebSocket 与 Kubernetes 沙箱实现

Jules API 通过 WebSocket 实现实时远程代码执行，利用 Kubernetes 沙箱隔离 AI 代理任务，防范逃逸风险，提供配置参数与安全最佳实践。

阅读全文 →

2025年10月04日

pix2tex ViT 中符号级注意力的工程化：提升手写数学方程解析准确性

探讨在 pix2tex ViT 模型中工程化符号级注意力，以处理手写数学方程的多样符号和布局，提供参数配置和监控要点。

阅读全文 →

2025年10月04日

构建基于安全 WebSocket 和 Kubernetes 沙箱的远程代码执行：AI 代理隔离代码生成与 PR 自动化

在 AI 代理时代，远程代码执行 API 需要强隔离。本文探讨使用 WebSocket 实时协作和 Kubernetes 沙箱的工程实践，包括参数配置、安全阈值和自动化工作流，实现安全高效的代码生成与 PR 集成。

阅读全文 →

2025年10月04日

Tunix 中使用 JAX vmap 和 pmap 实现分布式蒸馏

在 Tunix 框架下，利用 JAX vmap 进行批处理教师-学生蒸馏，结合 pmap 实现多 TPU 并行化，支持高效的 RLHF 工作流。

阅读全文 →

2025年10月04日

Parlant 中模块化代理部署管道工程

针对 LLM 代理的 Parlant 框架，构建容器化与 Kubernetes 编排的部署管道，实现几分钟内生产级快速扩展与控制。

阅读全文 →

2025年10月04日

Python 与 .NET 混合 AI 代理的编排：跨语言工具调用与工作流组合

基于 Microsoft Agent Framework，探讨 Python 和 .NET 混合代理的跨语言工具调用机制、工作流组合策略，以及企业级部署的参数优化与监控要点。

阅读全文 →

2025年10月04日

Multi-Task Sequential LoRA Merging with Orthogonal Projections

通过 LoRI 方法实现 LoRA 在多任务场景下的高效合并，利用随机投影和稀疏掩码最小化干扰和遗忘，提供工程参数和最佳实践。

阅读全文 →

2025年10月04日

构建AI预测管道：从分子模拟推断抗生素IBD机制并验证药物重定位

利用机器学习从分子模拟推断抗生素在炎症性肠病机制中的作用，并通过湿实验室验证实现药物重定位的工程化实践。

阅读全文 →

2025年10月04日

工程化模块化可部署 LLM 代理用于控制任务

面向真实世界控制任务，给出使用 Parlant 构建模块化 LLM 代理的工程化参数与快速部署清单。

阅读全文 →

2025年10月04日

LoRA 中正交投影最小化训练遗憾：顺序微调的任务隔离

面向顺序微调的多任务 LoRA 适配器，给出正交投影的数学实现与工程化参数配置。

阅读全文 →

2025年10月04日

无遗憾 LoRA 适配器运行时切换：生产部署指南

本文探讨在生产环境中部署无遗憾 LoRA 适配器，用于多任务 LLM 推理。通过正交投影实现低开销适配器切换，无需重新训练。提供工程参数、监控要点和落地清单。

阅读全文 →

2025年10月04日

Implementing Custom JAX Transformations in Tunix for Low-Latency LLM Inference

探讨在 Tunix 框架中使用自定义 JAX 变换实现动态图剪枝和算子融合，以实现边缘设备上 LLM 推理的低延迟优化，提供工程参数和监控要点。

阅读全文 →

2025年10月04日

序贯 LoRA 中的正交投影：任务参数隔离以最小化灾难性遗忘

在多领域微调中，使用正交投影实现序贯 LoRA 来隔离任务特定参数，避免灾难性遗忘，提供工程化实现参数和监控要点。

阅读全文 →

2025年10月03日

Anthropic 上下文工程：RAG 与压缩优化 AI 代理长上下文提示

通过 RAG 动态检索和压缩技术，优化 AI 代理的长上下文提示，确保多步推理任务的连贯性，提供工程参数与监控要点。

阅读全文 →

2025年10月03日

无悔序贯 LoRA 适配器：通过辅助损失最小化灾难性遗忘

在多任务 LLM 适应中，使用辅助损失项实现悔恨最小化的序贯 LoRA 微调，缓解灾难性遗忘，提供工程参数和监控要点。

阅读全文 →

2025年10月03日

工程化无遗憾 LoRA 适配器：防止大语言模型顺序微调中的灾难性遗忘

针对大语言模型顺序微调中的灾难性遗忘问题，设计无遗憾 LoRA 适配器，提供工程参数、监控要点与回滚策略。

阅读全文 →

2025年10月03日

Claude AI 驱动的 Factorio 自主游戏：资源管理和工厂自动化的代码生成集成

利用 Claude AI 的代码生成功能实现 Factorio 的自主代理，聚焦资源分配、工厂扩展和实时决策的工程化参数与监控策略。

阅读全文 →

2025年10月03日

Jules 远程编码代理 API：基于安全 WebSocket 和沙箱运行时的工程实践

探讨 Jules 代理的远程代码生成与执行 API 工程设计，利用安全 WebSocket 连接和沙箱运行时实现协作 IDE 集成，提供参数配置与监控要点。

阅读全文 →

2025年10月03日

构建中文金融交易的多代理 LLM 系统：市场分析、策略执行与风险管理

利用多代理 LLM 框架实现中文金融交易的智能化决策，聚焦市场分析、策略执行和风险管理的专职角色分工与实时数据应用。

阅读全文 →

2025年10月03日

Tunix 中使用 JAX 实现量化感知后训练：边缘设备上部署蒸馏 LLM

针对蒸馏后的 LLM 在边缘设备的部署，利用 Tunix 和 JAX 进行量化感知后训练，提供位宽选择、校准策略及精度损失最小化参数配置。

阅读全文 →

2025年10月03日

Triton内核命名嵌入Cutlass：自动调用FP8 Tensor Core GEMM路径，实现LLM多头注意力100 TFLOPS加速

介绍Triton中通过内核命名trick自动调用CUTLASS优化的FP8 GEMM路径，无需代码修改即可在LLM serving的多头注意力中获得100 TFLOPS加速，提供工程化参数和落地清单。

阅读全文 →

2025年10月03日

在 Tunix 中集成 Flax 构建自定义 LLM 层

利用 Flax 在 Tunix 的 JAX 原生后训练管道中构建自定义 LLM 层，实现模块化模型扩展，提供工程化参数与监控要点。

阅读全文 →

2025年10月03日

在 Airweave 中工程化模块化 LLM Agents：跨应用 API 搜索的动态链式、重试与错误恢复

利用 Airweave 构建模块化 LLM agents，实现跨应用动态 API 链式调用，聚焦自适应重试机制与错误恢复策略，确保生产部署可靠性。

阅读全文 →

2025年10月03日

Airweave 中的动态工具发现与自适应查询

在 Airweave 中利用 MCP 协议构建可扩展 LLM agents，实现动态 API 工具发现和查询适应，支持跨应用的无缝搜索集成。

阅读全文 →

2025年10月03日

工程化可扩展的自托管照片视频管理：Immich ML 自动标签、面部识别与重复检测

基于 Immich 框架，探讨 ML 驱动的媒体组织工程实践，包括自动标签生成、面部聚类与重复检测的可扩展配置。

阅读全文 →

2025年10月03日

使用 ViT 模型实现图像数学公式到 LaTeX 转换

基于 ViT 的公式 OCR 系统，支持手写与印刷公式解析，fine-tuning 于 Im2LaTeX 数据集，实现 80%+ 符号检测准确率。

阅读全文 →

2025年10月03日

使用 Maia ASIC 逐步替换 Azure 中的 AMD/Nvidia GPU：工程策略与优化参数

基于 CTO 愿景，分析 Maia ASIC 在 Azure AI 训练中的替换策略，包括经济模型、 rollout 清单和集成参数。

阅读全文 →

2025年10月03日

为Azure规模LLM训练/推理工程化Maia ASIC

面向Azure规模LLM工作负载，优化Maia ASIC的张量核心、HBM集成与自定义ND fabric，实现100x效率提升的工程参数与监控要点。

阅读全文 →

2025年10月03日

使用 Triton 实现 Cutlass 风格的 FP8 GEMM 内核加速

在 Triton 中实现 FP8 GEMM 内核，借鉴 Cutlass 命名与优化策略，利用 Tensor Cores 实现 100 TFLOPS 加速，提升 LLM 高效推理。

阅读全文 →

2025年10月03日

Tunix JAX-Flax Integration for LLM Post-Training

在 Tunix 中集成 Flax 模型与自定义 JAX 原语，实现可扩展的 LLM 后训练，支持高级损失函数和 TPU 上的分布式优化器，提供工程参数和监控要点。

阅读全文 →

2025年10月03日

多代理 LLM 在中文金融交易中的工程化应用

工程化角色专用 LLM 代理，用于中国股票市场分析、预测和自动化交易，集成本地化数据与多跳推理。

阅读全文 →

2025年10月03日

面向代理式 AI 的图数据库工程：动态模式演化、实时遍历优化与 LLM 推理链集成

探讨如何为代理式 AI 工作流工程化图数据库，涵盖动态 schema 演化、实时遍历优化，以及与 LLM 推理链的集成，支持多跳查询的落地参数与最佳实践。

阅读全文 →

2025年10月03日

使用 Airweave 工程化模块化 AI Agents 接口任意 App API 进行语义搜索

探讨如何利用 Airweave 构建模块化 AI agents，实现对任意应用 API 的语义搜索、数据提取与自动化，结合 LLM 工具调用和编排的最佳实践。

阅读全文 →

2025年10月03日

使用 Parlant 工程化部署 LLM 代理：模块化架构与快速部署

探讨 Parlant 框架在 LLM 控制代理工程中的应用，聚焦模块化设计、分钟级部署及生产集成模式。

阅读全文 →

2025年10月03日

在 Triton 中利用 Cutlass 内核命名解锁 FP8 张量核心加速

借助 Triton 借鉴 Cutlass 内核命名，实现 FP8 GEMM 优化，在 LLM 多头注意力推理中获得约 100 TFLOPS 加速，提供工程参数与监控要点。

阅读全文 →

2025年10月03日

Orchestrating AI Agents with Microsoft Agent Framework: Python and .NET Support

面向多代理工作流，给出 Microsoft Agent Framework 的 Python/.NET 集成、编排参数与工具配置要点。

阅读全文 →

2025年10月03日

Triton 中 Cutlass 命名内核的 FP8 张量操作剖析：通过运行时优化解锁 100 TFLOPS 加速

探讨 Triton 中 FP8 精度下 Cutlass 风格内核的性能剖析与基准测试，提供运行时优化参数和硬件利用分析，实现高 TFLOPS 加速。

阅读全文 →

2025年10月03日

使用 JAX 在 Tunix 中实现量化感知后训练：针对边缘 LLM 的 4/8 位压缩

在 Tunix 框架下，利用 JAX 自动微分构建量化感知的后训练管道，实现 4/8 位 LLM 压缩，聚焦校准数据集、混合精度内核和低延迟推理优化，适用于移动/边缘设备部署。

阅读全文 →

2025年10月03日

Pathway 中构建容错实时 ETL 用于 LLM RAG：数据漂移、模式演进与连接器故障的自动恢复

面向实时 LLM RAG 应用，介绍 Pathway ETL 的容错设计，包括自动恢复机制与工程参数配置。

阅读全文 →

2025年10月03日

Granite 4.0 中 Mamba-Transformer 混合架构：实现 O(1) 序列扩展的工程实践

探讨 IBM Granite 4.0 LLM 的混合 Mamba-Transformer 架构，如何通过状态空间块与注意力机制融合，实现推理时 O(1) 序列长度扩展，同时保持自回归训练稳定性。提供可落地参数、监控要点与集成指南。

阅读全文 →

2025年10月03日

在 Triton 内核中使用 Cutlass 命名实现自定义 FP8 操作的加速

利用 Cutlass 命名在 Triton 内核中解锁自定义 FP8 操作的 100 TFLOPS 加速，聚焦融合注意力等超出 GEMM 的应用。

阅读全文 →

2025年10月03日

通过 CUTLASS 命名约定在 Triton 中实现 FP8 GEMM 内核

面向 AI 推理管道，通过 CUTLASS 命名触发 Triton FP8 GEMM 优化，实现高吞吐量通用线性代数操作的参数与监控要点。

阅读全文 →

2025年10月03日

JAX-Native LLM Distillation with vmap and pmap on TPU

基于 Tunix 库，利用 JAX 的 vmap 进行向量化评估和 pmap 实现多 TPU 并行训练，优化 LLM 后训练效率，提供工程化参数和监控要点。

阅读全文 →

2025年10月03日

Tunix 中 JAX 原生后训练流水线：量化、对齐与 TPU 优化推理服务

利用 Tunix 构建 JAX 原生后训练管道，实现量化、对齐优化，并在 TPU 上通过 vmap/pmap 并行高效推理服务。

阅读全文 →

2025年10月03日

Granite 4 中 Mamba-Transformer 混合架构的集成与优化

在 Granite 4 中融合 Mamba 与 Transformer，实现高效长上下文处理，降低企业部署内存足迹，提供关键参数与清单。

阅读全文 →

2025年10月03日

利用 Cutlass 内核命名惯例在 Triton 中实现 FP8 张量核的多头注意力 100 TFLOPS 加速

在 LLM 推理中，利用 Triton 借鉴 Cutlass 内核命名优化 FP8 张量核，实现多头注意力 100 TFLOPS 加速，提供落地参数和监控策略。

阅读全文 →

2025年10月03日

Claude SDK 中实现有状态多代理工具链编排与持久化

利用 Claude Agent SDK 构建顺序工具链的多代理系统，实现状态持久化以支持复杂 AI 工作流。

阅读全文 →

2025年10月03日

从零实现最小 Transformer LLM

使用 PyTorch 从头构建小型 Transformer 语言模型，包括自定义 BPE 分词器、GPT-2 式架构，并在莎士比亚数据集上训练的核心组件。

阅读全文 →

2025年10月03日

在 Tunix 中使用 vmap/pmap 工程化 JAX 原生蒸馏工作流：多 TPU 并行 LLM 对齐与微调

面向多 TPU 环境，给出 Tunix 中 JAX vmap/pmap 驱动的蒸馏工作流参数与并行策略。

阅读全文 →

2025年10月03日

Claude Agent SDK 中并行工具调用的编排：多API实时数据聚合实践

利用Claude Agent SDK的异步机制，实现并行工具调用，从多个API高效聚合实时数据，支持多步代理工作流中的高效执行。

阅读全文 →

2025年10月03日

使用 TypeScript 编排可扩展 AI 代理工作流：Sim 平台的节点式 UI 与并行执行

Sim 是一个开源平台，支持通过节点式 UI 构建 AI 代理工作流，实现并行执行、状态持久化和灵活部署。文章探讨其 TypeScript 实现、云端与自托管选项，以及工程化参数与监控要点。

阅读全文 →

第 55 / 66 页 · 共 5280 篇