ai-engineering

机器智能

2025年10月14日

用 SIMD 与缓存分片优化前缀和，冲击 20GB/s 吞吐量

本文探讨如何将前缀和（Prefix Sum）操作的性能提升至 20 GB/s。通过结合 SIMD 指令集、多线程并行化以及针对内存带宽瓶颈的缓存分片技术，我们提供了一套可落地的工程实践与参数调优指南。

阅读全文 →

2025年10月13日

构建可扩展的请求日志管道：ClickHouse、Kafka 与 Vector 集成实践

本文探讨如何利用 Vector、Kafka 和 ClickHouse 构建一个高性能、可扩展的请求日志处理管道，实现从日志采集、清洗、传输到近实时分析的全流程落地实践。

阅读全文 →

2025年10月13日

剖析流式 JSON 解析中的状态机与组合式 API 设计

本文深入探讨了在处理大规模或流式 JSON 数据时，如何通过状态机实现精确的增量解析，并设计一套富有表现力的组合式 API，以应对复杂的嵌套数据提取需求。

阅读全文 →

2025年10月13日

精简内存：基于状态机的流式 JSON 解析器设计

深入剖析流式JSON解析的内存效率瓶颈，详解如何通过精巧的状态机设计与最小化缓冲策略，实现对大规模数据流的低内存占用处理，并提供关键实现要点与传统DOM/SAX方法的对比。

阅读全文 →

2025年10月13日

面向弹性数据管道的增量化 JSON 解析

传统 DOM 解析在处理大型 JSON 时面临内存瓶颈。本文探讨了增量（流式）解析的原理与优势，并提供实用代码范例，助您构建低内存、高吞吐的弹性数据处理管道。

阅读全文 →

2025年10月13日

为 Klavis MCP 设计高可用负载均衡与故障转移机制

本文为 Klavis MCP 集成平台设计一套具体的负载均衡与故障转移方案，以确保 AI 代理大规模使用工具时的高可用性与可靠性，并提供关键参数与监控建议。

阅读全文 →

2025年10月11日

将变异测试集成到 CI/CD 流水线中自动化代码审查

使用 Mutant 工具在 Ruby 项目中集成变异测试，实现生成变异体、执行测试和报告存活变异分析，提升代码质量。

阅读全文 →

2025年10月11日

AI 产品工程中的苦涩教训：计算导向的可扩展架构实践

将苦涩教训应用于 AI 产品工程，优先计算杠杆构建可扩展系统，避开迭代与部署陷阱。

阅读全文 →

2025年10月11日

在 RD-Agent 中实现自动化 A/B 测试与超参数优化循环：无干预的 ML 模型评估

利用 RD-Agent 的多代理框架，集成 A/B 测试和超参数优化，实现自动化 ML 模型评估与选择，提供工程化参数和监控策略。

阅读全文 →

2025年10月08日

在 PyTorch 中实现 mini-batch SGD 带动量和学习率调度以实现大规模神经网络训练的高效收敛

面向大规模神经网络训练，给出 PyTorch 中 mini-batch SGD 带动量和学习率调度的工程化实现与参数优化要点。

阅读全文 →

2025年10月07日

使用 Horovod 实现 BitNet 三元权重的分布式数据并行训练

针对 BitNet 1-bit LLM 的分布式训练，提供 Horovod 数据并行框架下的自定义 all-reduce 操作、位串行梯度同步以及自适应损失缩放参数，确保多 GPU 集群收敛。

阅读全文 →

2025年10月07日

使用 Pathway 构建混合批流 ETL：面向 LLM 数据管道的状态化增量更新

在 LLM 数据管道中，利用 Pathway 的状态化计算实现 hybrid batch-stream ETL，支持故障容错增量更新与可扩展训练数据准备。

阅读全文 →

2025年10月07日

使用 pdoc 通过 Python 内省自动生成交互式 API 文档

利用 inspect 模块和类型提示，零配置生成带搜索和交叉引用的 HTML API 文档，适用于 Python 库维护。

阅读全文 →

2025年10月07日

Engineering Fault-Tolerant Stream ETL in Pathway for Real-Time ML Data Ingestion

探讨Pathway框架在MLOps中的应用，聚焦容错流式ETL，支持schema演化、增量joins，并集成训练管道实现模型连续更新。提供工程参数与监控要点。

阅读全文 →

2025年10月07日

Implementing Code-Defined Scalable Workflows in Kestra for Data Pipelines

Kestra 通过 YAML 代码定义支持数据管道和 AI 编排的执行引擎、依赖管理和容错调度，提供高效的工程化实践和参数配置。

阅读全文 →

2025年10月06日

JAX 中使用 Triton 优化 Blackwell GPU 的 FP8 GEMM 内核：TMA 异步加载与 Warp 级原语

在 JAX 框架下，利用 Triton 自定义 GEMM 内核，针对 Blackwell GPU 的 FP8 Tensor Cores 和 TMA 异步加载，实现峰值 TFLOPS 的矩阵乘法优化，适用于 ML 训练与推理。

阅读全文 →

2025年10月06日

Mise 实现单仓库环境隔离的工具版本管理

利用 Mise 在 monorepo 中声明式管理工具版本和环境隔离，支持多语言工作流的可复现构建，无需 Docker。提供配置参数、任务清单和最佳实践。

阅读全文 →

2025年10月06日

使用 Flightcontrol AWS PaaS 构建声明式无服务器基础设施

通过 Flightcontrol 的 AWS PaaS 抽象层，实现服务器less 应用的零停机部署、多区域复制以及成本优化的缩放策略，提供自定义构建管道的工程实践。

阅读全文 →

2025年10月05日

利用 Kestra AI Copilot 自动生成 AI 管道工作流

利用 Kestra 的 AI Copilot 通过自然语言描述快速生成和优化多步 AI 管道的 YAML 工作流，提供数据摄取、模型训练和部署的工程化参数与监控要点。

阅读全文 →

2025年10月05日

Integrating Kestra YAML Workflows with Kafka and PostgreSQL for Real-Time ETL in AI Pipelines

探讨 Kestra 如何通过 YAML 配置实现 Kafka 到 PostgreSQL 的实时 ETL，支持 AI 管道数据处理，利用 AI Copilot 实现动态 scaling 和错误恢复，提供工程化参数和监控策略。

阅读全文 →

2025年10月04日

利用 Grokking 相变工程化训练课程：诱导过参数化模型涌现特征学习

探讨利用 Grokking 现象设计训练策略，在过参数化模型中控制过拟合后实现快速泛化，优化计算资源促进涌现特征学习，提供工程参数与监控要点。

阅读全文 →

2025年10月04日

使用 dbt-core 构建模块化、版本控制的 SQL 数据转换

在 dbt-core 中构建模块化、版本控制的 SQL 转换，实现可扩展数据管道，支持自动化测试和依赖管理。通过软件工程实践提升数据转换效率和可靠性。

阅读全文 →

2025年10月04日

使用 Kestra 构建可扩展混合编排引擎

面向混合数据/AI/基础设施工作流，给出 Kestra Java 后端的容错任务分发、动态缩放与事件驱动执行的工程化参数与监控要点。

阅读全文 →

2025年10月04日

使用 Pathway 构建容错实时 ETL 管道：状态处理与自动恢复机制

在 Pathway 中利用状态ful 处理构建 resilient 实时 ETL 管道，针对 AI 应用实现数据漂移、模式变化和连接器故障的自动恢复。

阅读全文 →

2025年10月04日

使用 Kestra 的 AI 副驾驶工程化声明式工作流编排

借助 Kestra 的 AI 副驾驶，工程师可快速构建 YAML 声明式工作流，用于数据管道、基础设施 provisioning 和 AI 任务，支持 UI 监控与可扩展执行。

阅读全文 →

2025年10月03日

使用 Kestra AI Copilot 工程化声明式 YAML 工作流编排

面向数据/AI/基础设施任务，利用 AI Copilot 自动化设计 YAML 管道、错误处理和可扩展执行。

阅读全文 →

2025年10月03日

基于 AI Engineering 书籍的可扩展 LLM 服务管道实现：Redis 队列、动态模型加载与 Prometheus 监控

借鉴 Chip Huyen 的 AI Engineering 书籍，介绍可扩展 LLM 服务管道的工程实践，包括 Redis 请求队列管理、动态模型加载以及 Prometheus 实时延迟监控的关键参数。

阅读全文 →

2025年10月03日

利用 OCI 注册表管理私有 Python 包

面向私有 Python 包的分发，给出基于 OCI 镜像的发布、安装工程化参数与空气隔离环境支持要点。

阅读全文 →

2025年10月03日

使用 JAX pmap 在 Tunix 中构建分布式 RLHF 流水线：多 TPU 奖励建模与 PPO 优化

在 Tunix 框架下，利用 JAX pmap 实现多 TPU 上的分布式 RLHF 流水线，包括奖励建模、PPO 优化和偏好数据分片，提升 LLM 对齐效率。

阅读全文 →

2025年10月03日

Distributed LLM Distillation in Tunix Using JAX vmap and pmap

探讨在 Tunix 框架下，利用 JAX 的 vmap 进行批处理矢量化与 pmap 实现多 TPU 并行，从而优化 LLM 知识蒸馏过程的对齐和微调效率，提供工程化参数与最佳实践。

阅读全文 →

2025年10月03日

使用 Tunix 构建分布式 LLM 对齐管道：基于 JAX pmap 的多 TPU 编排

探讨在 Tunix 中利用 JAX pmap 实现分布式 LLM 对齐管道，包括奖励建模、PPO 更新及梯度检查点以提升内存效率。

阅读全文 →

2025年10月03日

工程化多平台 Docker 镜像：GitHub Actions Runner 的预装工具链、依赖缓存与安全加固

针对 GitHub Actions CI/CD Runner，探讨多平台 Docker 镜像的构建工程，包括工具链预装策略、缓存优化参数及安全强化实践。

阅读全文 →

2025年10月02日

使用 Pathway 滑动窗口实现 LLM 实时监控

利用 Pathway 的 SQL 流处理构建 LLM 推理指标的实时监控管道，通过滑动窗口进行延迟警报和质量聚合，避免全量重新处理。

阅读全文 →

2025年10月02日

在Tunix中使用JAX vmap/pmap构建LLM知识蒸馏工作流：多GPU同步与KL散度优化

面向LLM压缩，给出Tunix中JAX并行原语驱动的知识蒸馏工程实践，包括KL优化与层冻结参数。

阅读全文 →

2025年10月02日

AI工程资源精选：Colab笔记本用于模型微调、RAG实现与代理系统部署

基于Chip Huyen的AI Engineering书籍，精选实用Colab笔记本和资源，支持AI工程工作流中的模型微调、RAG与代理系统实践。

阅读全文 →

2025年10月02日

LLM MLOps 实用 Colab 笔记本：量化、A/B 测试与评估管道

精选 Colab 笔记本实践 LLM MLOps，覆盖量化优化、A/B 测试部署和自动化评估，确保模型生产可靠性。

阅读全文 →

2025年10月02日

使用 Kestra 工程化声明式 YAML 管道：集成 AI Copilot 实现提示生成与实时调试

通过 Kestra 的 YAML 声明式管道编排 AI、数据和基础设施工作流，集成 AI Copilot 支持基于提示的流生成和实时调试，提供工程化参数与监控要点。

阅读全文 →

2025年10月02日

实现内存打包与动态张量重塑以实现全GPU利用率

通过内存打包和动态张量重塑优化大型模型预训练，消除闲置GPU周期，实现>95%利用率，无需硬件修改。聚焦Stanford低级分配技术，提供工程参数和监控要点。

阅读全文 →

2025年10月02日

使用 Pathway 构建实时 ETL 管道支持 LLM 数据摄取和 RAG 更新

面向 LLM 管道，给出 Pathway 的流式 ETL 实现、RAG 实时更新参数与监控要点。

阅读全文 →

2025年10月02日

使用 Tunix 构建 JAX 原生 LLM 后训练管道：TPU 优化与 RLHF 实践

Tunix 作为 JAX 原生 LLM 后训练库，支持 RLHF 对齐和知识蒸馏，利用 TPU 实现高效优化。本文提供构建管道的实用指南，包括参数配置和监控策略，避免 PyTorch 开销。

阅读全文 →

2025年10月01日

FOSSA bot 依赖图遍历与 breaking changes 影响量化算法

面向 Dependabot/Renovate PR，解析 FOSSA bot 依赖图遍历算法与 breaking changes 影响量化工程参数，提供自动化修复建议与风险评分。

阅读全文 →

2025年10月01日

将 Fossabot 集成到 Dependabot 工作流中实现 AI 驱动的依赖更新审查

通过 Fossabot 的 AI 分析，在 Dependabot/Renovate 工作流中检测 breaking changes、安全影响，并生成针对性 PR 评论。

阅读全文 →

2025年10月01日

构建Imgur GDPR合规数据删除流水线：工程实现与技术挑战

深入分析图片分享平台GDPR数据删除的技术架构，探讨异步处理、批量删除和合规验证的工程实践，为大规模数据处理平台提供可落地的合规解决方案。

阅读全文 →

2025年09月30日

200美元以内微调7B Llama模型用于结构化文档提取

利用PEFT和领域特定数据集，以低于200美元成本微调7B模型如Llama，在结构化文档提取任务上超越OpenAI o1，提供高效适配器训练指南。

阅读全文 →

2025年09月30日

JAX 中向量化组合系数计算：动态缓存与并行 Map-Reduce 处理大 n 值

利用 JAX 的向量化能力计算大 n 二项式系数，引入动态缓存和并行 map-reduce，适用于组合优化管道，支持 n 至 10^6。

阅读全文 →

2025年09月29日

在 Qlib 中集成 RL 代理模拟市场动态：自适应交易策略与实时回测

利用 Qlib 的 RL 框架模拟市场动态，开发自适应交易策略，并通过回测优化风险调整性能。

阅读全文 →

2025年09月27日

采用 OpenTelemetry 作为 LLM 可观测性标准：语义约定与跨管道一致监控

通过定义 traces、metrics 和 logs 的语义约定，推动 OpenTelemetry 成为 LLM 可观测性的标准，实现一致监控与生产问题如延迟和幻觉的调试。

阅读全文 →

2025年09月27日

使用 Unsloth 工程化低内存 OSS RL 管道加速 GPT 微调

面向开源 GPT 模型的对齐训练，给出低内存 RL 管道的 Unsloth 实现、量化 LoRA 参数与分布式配置要点。

阅读全文 →

2025年09月27日

在 GRAPE 中实现 off-policy 评估指标用于安全 RLHF 部署

通过反事实估计在 GRAPE 中实现 off-policy 评估指标，用于生产 LLM 管道中安全评估策略变化，而无需完整重训。

阅读全文 →

2025年09月26日

DeepFabric 中工程化可扩展管道用于生成多样高保真合成数据集

在 DeepFabric 框架下，构建可扩展管道生成具有可控属性的合成数据集，并通过验证指标确保其适用于 ML 训练增强。

阅读全文 →

2025年09月25日

使用 GDPVal 工程化 LLM 真实世界任务基准：编码与推理评估

面向真实世界任务，给出 GDPVal 基准工程化参数与多样数据集整合要点。

阅读全文 →

2025年09月25日

使用 Rust DataFrame 实现 SedonaDB 中的高效地理空间分析

SedonaDB 利用 Rust 和 Apache Arrow 构建高性能地理空间 DataFrame，支持高效 joins、空间索引和大规模数据集分析。本文探讨实现细节、可落地参数及监控要点。

阅读全文 →

2025年09月22日

通过 nvmath-python 的 cuBLASLt 绑定，在 PyTorch 中实现偏差融合以提升推理性能

利用 nvmath-python 的高级 Matmul API，将偏差加法融合进 cuBLASLt 矩阵乘法内核，减少内存往返与内核启动开销，实测推理性能提升显著。

阅读全文 →

2025年09月21日

用 aipyapp 自动化 CI/CD：配置参数与沙箱监控清单

剖析 aipyapp 如何通过无代理架构与本地化执行，自动化 Python 项目的构建、测试与部署流程，提供关键配置参数与安全监控清单。

阅读全文 →

2025年09月21日

CUDA并行化RNN训练：从O(T)到O(log T)的工程实践与参数调优

详解SRU与并行扫描算法如何借助CUDA实现RNN训练复杂度从O(T)降至O(log T)，并提供可落地的参数配置与性能监控清单。

阅读全文 →

2025年09月21日

构建实用LLM评估框架：超越基准，聚焦真实用户场景与模型可用性

如何利用Hugging Face生态（Leaderboard、Evaluate库）构建超越简单基准的实用评估框架，聚焦真实用户场景与模型可用性。

阅读全文 →

2025年09月21日

微软AI入门课程如何用模块化Jupyter构建12周教学流水线

解析微软AI-For-Beginners课程如何通过模块化Jupyter Notebook与渐进式Lab设计，实现零基础到多模态AI的12周工程化教学流水线。

阅读全文 →

2025年09月20日

使用 markitdown 构建 Office 文档批量转 Markdown 流水线：参数、集成与监控

详解如何基于微软开源工具 markitdown，搭建高效、可扩展的 Office 文档批量转换流水线，涵盖环境配置、命令行批量脚本、LLM/Azure 集成及风险监控要点。

阅读全文 →

2025年09月20日

基于微软AI课程：构建模块化Jupyter教学流水线

详解如何利用微软AI入门课程的预设Jupyter Notebook结构，构建可复用、可追踪的模块化教学流水线，提升AI教学效率。

阅读全文 →

2025年09月19日

使用 R 构建 Ising 模型相变蒙特卡洛模拟管道

介绍在 R 中实现二维 Ising 模型的蒙特卡洛模拟管道，包括采样优化和临界指数分析，帮助理解相变行为。

阅读全文 →

2025年09月19日

使用 LLaMA-Factory 构建 100+ 开源 LLM 的统一高效微调管道

利用 LLaMA-Factory 的 PEFT、QLoRA 和多 GPU 编排，快速实现资源高效的模型适应与部署。

阅读全文 →

2025年09月19日

使用 Unsloth 工程化 4-bit QLoRA 微调 Llama 3：在消费级 GPU 上实现 2 倍加速无精度损失

指导构建 Unsloth 4-bit QLoRA 管道，集成梯度检查点和低 RAM 优化，实现 Llama 3 高效微调。

阅读全文 →

2025年09月19日

使用 Unsloth 工程化 RLHF/DPO 管道：Llama3 的低 VRAM 对齐

在消费级 GPU 上利用 Unsloth 实现 Llama3 的 RLHF/DPO 微调，结合 4-bit QLORA、梯度检查点和奖励模型集成。

阅读全文 →

2025年09月19日

LLaMA-Factory 中使用 QLoRA 工程化 SFT 和 DPO 管道：低资源指令调优

在 LLaMA-Factory 框架下，利用 QLoRA 技术构建 SFT 和 DPO 管道，实现低资源环境下的开源 LLM 指令调优，提供数据 curation、参数配置和评估策略。

阅读全文 →

2025年09月19日

集成 NVIDIA Python 绑定 cuBLAS/cuSOLVER 加速 ML 管道线性代数

利用 nvmath-python 集成 cuBLAS 和 cuSOLVER，实现 GPU 优化的张量操作和稀疏求解器，提升模型训练的可扩展性。

阅读全文 →

2025年09月18日

使用 RunRL 工程化分布式强化学习训练：actor 协调、策略梯度优化与多 GPU 容错 rollout

在 RunRL 平台上实现分布式 RL 训练的工程实践，聚焦 actor 管理、优化策略和容错机制，提供可落地参数和监控要点。

阅读全文 →

2025年09月18日

使用 Unsloth 优化 LLM 微调：2x 速度与 70% VRAM 节省

通过 Unsloth 的自定义内核，在消费级 GPU 上实现 LLM 微调和 RLHF 的 2x 加速与 70% VRAM 节省，支持 Llama 4、Qwen3 等模型的本地高效训练。

阅读全文 →

2025年09月18日

使用 Unsloth 实现低 VRAM LLM 微调：量化与内核优化

通过 Unsloth 的自定义 CUDA 内核和量化技术，实现 Llama/Qwen 模型高效微调，节省 70% VRAM 并加速 2 倍。

阅读全文 →

2025年09月17日

使用 markitdown 构建 Python ETL 管道：解析 Word/PDF 为结构化 Markdown，支持 RAG 和 LLM 微调

介绍如何利用 markitdown 在 Python ETL 中转换 Office 文档和 PDF，保留表格和图像结构，便于 RAG 数据摄取和 LLM 训练，提供实现参数与最佳实践。

阅读全文 →

2025年09月16日

使用 MarkItDown 构建 Office 到 Markdown 的 Python 转换管道

工程化 Python 管道，将 Word、Excel 和 PPT 转换为结构化 Markdown，保留表格、图像和布局，支持高效 LLM 数据准备与 RAG 摄取。

阅读全文 →

2025年09月14日

基于Happy-LLM从零构建PyTorch大模型：分词、Transformer架构、DDP分布式训练与领域适应微调

利用Happy-LLM教程，从零实现PyTorch LLM，包括分词训练、Transformer搭建、DDP分布式策略及LoRA领域微调参数。

阅读全文 →

2025年09月13日

使用 Azure SDK for Python 构建可扩展异步云集成应用

利用 Azure SDK for Python 的异步客户端、AAD 认证和批量操作，集成存储、计算和 AI 服务，实现高效云原生开发，提供代码示例与最佳实践。

阅读全文 →

2025年09月13日

使用 PyTorch DDP 工程化可扩展分布式机器学习训练：数据并行、环形全归约优化、容错弹性扩展与多节点同步

基于 EPFL 机器学习课程，探讨 PyTorch DDP 在大规模模型训练中的工程实践，包括数据并行机制、优化策略、容错扩展及同步要点。

阅读全文 →

2025年09月13日

使用 PyTorch DDP 实现可扩展分布式 ML 训练：EPFL 课程实验洞见

基于 EPFL 机器学习课程实验，探讨 PyTorch DDP 的数据并行、多 GPU 同步和容错梯度聚合的最佳实践与工程参数。

阅读全文 →

2025年09月12日

工程化Git历史泄露检测管道：清洗SWE-bench数据集以确保LLM基准公平性

使用Gitleaks构建自动化Git泄露检测管道，清洗SWE-bench数据集，提高LLM代码生成基准的公平性和可重现性。

阅读全文 →

2025年09月11日

使用 DeepCodeBench 构建代码库理解评估管道

基于 DeepCodeBench 数据集，构建针对真实代码库的 Q&A 评估管道，集成检索机制提升 LLM 上下文感知准确率，提供落地参数与监控要点。

阅读全文 →

2025年09月11日

PyTorch 中工程化可移植 CUDA 绑定以实现 ARM/x86 一致性

针对跨平台 ML 管道中的 CUDA/CUDNN 绑定，提供 ARM/x86 一致性的工程化修复方案，包括编译错误解决和运行时匹配参数。

阅读全文 →

2025年09月11日

工程化跨平台PyTorch可重现构建：CMake工具链与vcpkg依赖隔离

面向Windows/Linux/macOS/ARM/x86，提供使用自定义CMake工具链、vcpkg隔离和CUDA/ROCm变体处理的PyTorch构建指南，确保ML部署无缝。

阅读全文 →

2025年09月11日

在高速度单体仓库中实现合并队列以序列化 PR 合并

通过合并队列序列化 PR 合并，实现安全并行测试和零宕机部署，并在冲突时使用 rebase 解决。

阅读全文 →

2025年09月11日

Mergify 合并队列的起源：早期设计与大规模 CI/CD 挑战

回顾 Mergify 合并队列的起源与动机，分析早期设计挑战，并给出大规模 CI/CD 下的配置参数与监控要点。

阅读全文 →

第 4 / 5 页 · 共 329 篇