ai-engineering

机器智能

2025年11月15日

在 VERL 分布式 RLHF 管道中使用 RDMA 实现低延迟奖励聚合

探讨 VERL 框架中利用 RDMA 优化分布式 RLHF 奖励聚合的技术细节，包括集成步骤、参数配置与性能监控要点。

阅读全文 →

2025年11月14日

本田 AI：提示工程 vs 微调的延迟-准确性-成本权衡

基于本田 2 年 ML 开发与 1 个月提示工程经验，探讨生产汽车 AI 中提示 vs 微调的工程化权衡与决策框架。

阅读全文 →

2025年11月14日

本田汽车生产中可扩展ML管道 vs 高效LLM提示：训练成本、推理延迟与准确性分析

针对汽车生产环境，比较工程化可扩展ML管道与高效LLM提示的优劣，聚焦2年部署 vs 1个月设置下的成本、延迟和准确性，提供落地参数与监控策略。

阅读全文 →

2025年11月14日

Honda：传统 ML 管道 vs 提示工程在汽车 AI 生产部署中的经验

分析传统 ML 与提示工程在汽车领域的可靠性权衡、快速迭代及遗留系统集成要点。

阅读全文 →

2025年11月14日

VERL HybridFlow 中的多 GPU 分片策略与基于 RDMA 的聚合：容错离线 RLHF 的工程实践

探讨 VERL HybridFlow 在多 GPU 环境下的分片策略、RDMA 聚合机制，以及针对离线 RLHF 的容错优化，实现万亿参数 LLM 对齐的低延迟 all-reduce。

阅读全文 →

2025年11月14日

Daft 在 S3 Delta Lake 上的内存查询执行优化

利用 Daft 的 Rust 基础多线程引擎，在 S3 存储的 650GB Delta Lake 数据集上实现高效内存查询执行，超越 Spark 分布式开销的轻量级替代方案。

阅读全文 →

2025年11月14日

VERL中基于阈值的奖励建模与模型分片策略：多GPU集群的可扩展离线RLHF工程实践

探讨VERL框架中模型分片策略与阈值奖励建模，实现万亿token对齐的无全量重计算工程参数与监控要点。

阅读全文 →

2025年11月13日

Polars 在 S3 Delta Lake 上的基准测试：单节点性能洞察

在 650GB S3 Delta Lake 数据集上评估 Polars、DuckDB、Daft 和 Spark 的查询速度与内存效率。单节点工具在 32GB RAM 上表现出色，Polars 最快仅 12 分钟，适用于可扩展分析管道。

阅读全文 →

2025年11月13日

工程化 VERL 的 HybridFlow 用于多 GPU 分布式 RLHF 管道

利用 VERL 的 HybridFlow 框架构建多 GPU 分布式 RLHF 训练管道，优化策略更新和奖励建模，实现 LLM 对齐的生产级扩展。

阅读全文 →

2025年11月13日

工程化可复用 n8n 工作流：AI 代理多步自动化编排与故障容错

面向 AI 代理编排，提供 n8n 工作流的故障容错链式、外部 API 集成与可扩展部署的工程化参数与监控要点。

阅读全文 →

2025年11月13日

Helm 4.0 原生 OCI 图表存储与生产环境管理优化

Helm 4.0 引入 OCI-native 图表存储、改进依赖解析和原子升级，简化 Kubernetes 生产应用生命周期管理，提供工程参数与监控要点。

阅读全文 →

2025年11月13日

Volcengine Verl强化学习框架生产部署优化实战

深入探讨火山引擎Verl强化学习框架在大规模生产环境中的部署优化策略，包括资源调度、性能调优、架构设计的工程实践。

阅读全文 →

2025年11月12日

火山引擎verl框架深度解析：LLM强化学习的工程化实践

深入探讨volcengine/verl如何通过HybridFlow编程模型和3D-HybridEngine优化技术，实现大规模LLM强化学习训练的高效性与生产就绪性

阅读全文 →

2025年11月12日

基于开源社区协作的知识图谱构建与智能匹配系统

分析 Tech Interview Handbook 的成功模式，提出基于结构化数据建模、社区投票体系与个性化推荐算法的可扩展技术面试准备平台架构设计。

阅读全文 →

2025年11月10日

n8n工作流中的AI安全审计Python编排策略与标准化工程

探索基于Python实现的n8n工作流在AI安全审计编排中的创新应用，分析工作流层面的自动化执行策略，区别于传统安全框架的差异化实现路径。

阅读全文 →

2025年11月10日

Prisma的expand-contract模式：零停机数据库schema演进策略

深入解析Prisma的expand-contract模式，提供零停机数据库schema演进策略与具体实施细节，包括向前兼容设计、版本过渡与回滚机制。

阅读全文 →

2025年11月10日

Tinker Cookbook后训练优化管线工程实践：从数据清洗到量化部署的全流程实现

深度解析Tinker Cookbook在后训练优化中的工程实现细节，包括数据清洗流程、量化策略选择、分布式训练调优等关键技术点，以及LoRA与PTQ结合的最佳实践。

阅读全文 →

2025年11月09日

基于Tinker Cookbook的后训练优化技术实践：从LoRA到强化学习的工程化路径

深度解析Thinking Machines Lab的Tinker Cookbook，探讨开源后训练优化技术的工程实践，包括LoRA、强化学习等高效微调方法在实际场景中的应用效果。

阅读全文 →

2025年11月09日

构建自动化ArXiv论文分类流水线：数据抓取、智能分类、模型部署与流水线编排的工程实践

基于ArXiv论文处理的完整MLOps流水线工程实践，涵盖数据抓取、智能分类、模型部署与流水线编排等核心技术栈的生产级架构设计。

阅读全文 →

2025年11月09日

Tinker后训练管道工程实战：从监督学习到RLHF的完整优化流程

深入分析Tinker框架在post-training阶段的技术架构，涵盖LoRA微调、监督学习、强化学习等关键流程，提供工程部署最佳实践和性能优化策略。

阅读全文 →

2025年11月08日

Tinker后训练管道cookbook：模型优化与数据工程实践指南

基于Tinker框架的后训练特定技术栈实践，涵盖post-training优化流程、评估指标、任务特定调优策略和工程部署要点。

阅读全文 →

2025年11月07日

面向3B数据的Goodreads推荐系统：从0构建的分布式架构与ETL实践

面向30亿Goodreads评论数据，从0构建推荐系统的完整工程化实现方案。涵盖分布式爬虫架构、实时ETL管道、特征工程流水线的端到端技术实践。

阅读全文 →

2025年11月07日

PyTorch Helion架构设计与ML框架工程实现优化分析

深度分析PyTorch Helion新架构设计，探讨其作为高级DSL如何通过自动化调优和抽象提升，在保持易用性的同时实现高性能ML内核开发

阅读全文 →

2025年11月07日

用Spark+Flink打造3B Goodreads评论推荐系统：超大规模数据流水线的工程化实践

从数据湖到实时推理：详解如何工程化构建处理30亿Goodreads评论的推荐系统流水线，包括数据采集、清洗、特征工程、模型训练和部署的完整架构设计。

阅读全文 →

2025年11月07日

基于30亿Goodreads书评数据的推荐系统数据工程架构实践

面向千万级图书数据和大规模书评的推荐系统工程实践，详述分布式爬虫、实时ETL管道、特征工程和模型训练流水线的完整架构方案。

阅读全文 →

2025年11月05日

PostgreSQL与Apache Iceberg的湖仓一体化架构深度解析

深入解析pg_lake项目的事务一致性保障机制、双进程架构设计与生产环境部署实践，构建可靠的湖仓一体解决方案。

阅读全文 →

2025年11月05日

生产级ML模型管道工程实践：Plexe AI的多智能体自动化架构深度解析

深度剖析Y Combinator孵化项目Plexe AI如何通过多智能体系统实现从自然语言到生产级ML模型的端到端自动化，探索其工程架构、监控机制与与传统AutoML平台的差异化优势。

阅读全文 →

2025年11月04日

AI代理生产部署的7大工程实践：来自真实生产环境的经验教训

从MMC等顶级风投公司投资的AI代理项目中总结关键工程实践，涵盖测试、可扩展性、监控、CI/CD、安全、更新和性能优化的完整部署指南。

阅读全文 →

2025年11月03日

Agent-o-rama：企业级LLM代理的JVM生态工程化实践

深入分析Agent-o-rama在Java/Clojure生态中实现LLM代理的工程化架构，对比Python生态框架的技术差异与企业级部署考量。

阅读全文 →

2025年10月30日

Microsoft Agent-Lightning分布式训练编排深度解析：从架构设计到工程实践

深入分析Agent Lightning的Training-Agent解耦架构、三层异步通信机制和实际性能表现，揭示分布式智能体训练编排的核心技术要点。

阅读全文 →

2025年10月30日

Agent Lightning：分布式AI代理训练架构的工程化革新

深度解析Microsoft Agent Lightning的零代码改动代理优化机制、LightningStore中央化架构与多算法融合的创新实践

阅读全文 →

2025年10月29日

NVIDIA CUDA 生产环境连续性能监控：基于 CUPTI 的工程架构与实现

深入探讨在生产环境中实现 NVIDIA CUDA 连续性能监控的工程架构，包括基于 CUPTI 的低开销监控方案、关键指标体系和自动化告警策略。

阅读全文 →

2025年10月29日

基于Handy项目的隐私优先离线语音识别架构设计

深入分析Handy项目在隐私保护与边缘计算方面的技术创新，构建完全离线的语音识别系统架构。

阅读全文 →

2025年10月29日

Butter行为缓存在LLM推理中的工程实现：缓存策略、命中率优化与一致性保证

深入探讨Butter行为缓存的核心特性、工程架构设计、缓存策略优化以及一致性保证机制，为LLM推理性能优化提供实践指南。

阅读全文 →

2025年10月28日

Agent Lightning分布式训练编排引擎：多智能体训练的调度优化与资源管理实践

深度分析Agent Lightning的核心架构，探讨其在分布式训练编排中的调度算法、资源管理优化和容错机制，为多智能体训练系统提供工程实践指导。

阅读全文 →

2025年10月26日

Agent Lightning实战：零代码优化多框架AI代理训练管道

通过轻量级框架实现跨LangChain/AutoGen等平台的AI代理训练优化，详解关键参数配置与资源监控策略。

阅读全文 →

2025年10月26日

无需修改代码的AI智能体强化学习训练：微软Agent Lightning实战指南

使用微软Agent Lightning框架，无需修改代码即可对任意AI智能体进行强化学习训练，详解集成参数与避坑指南。

阅读全文 →

2025年10月26日

无需修改代码的RL训练：Agent Lightning运行时注入工程指南

详解Agent Lightning如何通过运行时注入实现RL训练解耦，包含关键参数配置与监控指标实操方案。

阅读全文 →

2025年10月26日

无需修改代码训练强化学习Agent：微软Agent Lightning框架实战指南

详解如何通过Microsoft Agent Lightning实现零代码侵入的强化学习训练，提供可落地的信用分配参数与监控清单。

阅读全文 →

2025年10月24日

使用 scikit-opt 中的模拟退火优化 ML 超参数调优的约束非凸问题

面向 ML 超参数调优，给出 scikit-opt 模拟退火的温度衰减与 Metropolis-Hastings 准则的工程化参数与监控要点。

阅读全文 →

2025年10月24日

TorchForge 中分布式后训练量化的多 GPU 集群扩展：协调校准、容错合并与 INT8 部署优化

探讨在 TorchForge 框架下，如何通过协调校准和容错机制实现 RL 模型的后训练量化扩展，提供 INT8 部署的关键参数和最佳实践。

阅读全文 →

2025年10月24日

TorchForge 量化校准：后训练优化中的自动化位宽选择

面向 RL 模型的后训练量化优化，使用 TorchForge 集成 PyTorch 工具实现自动化校准与混合精度位宽选择。

阅读全文 →

2025年10月24日

AI发现的MoE负载均衡在生产环境中的集成：Ray编排与异构GPU处理

在分布式服务中部署AI发现的token-choice路由，实现MoE模型专家利用均衡，推理速度提升5倍，支持动态缩放和故障转移。

阅读全文 →

2025年10月24日

异构硬件集群中分布式ML训练的自适应检查点与恢复策略实现

面向异构硬件集群的分布式ML训练，给出自适应检查点与恢复策略的工程实现要点与参数配置。

阅读全文 →

2025年10月24日

scikit-opt 中差分进化算法用于连续空间全局优化：自适应缩放因子与交叉率在多模态景观中的应用

利用 scikit-opt 的差分进化算法进行连续空间全局优化，重点介绍自适应缩放因子和交叉率处理多模态景观，用于机器学习超参数搜索。

阅读全文 →

2025年10月23日

通过分叉 Snowplow 构建 OpenSnowcat：实现 GDPR 合规的事件跟踪

利用 OpenSnowcat 分叉 Snowplow，实现模块化数据保留策略和审计日志，确保事件跟踪符合 GDPR 要求，提供工程化参数与监控要点。

阅读全文 →

2025年10月23日

在 scikit-opt 中利用 ACO 进行 TSP 的信息素路径优化与收敛加速

利用蚁群优化算法在 scikit-opt 中解决 TSP 问题，强调信息素路径选择与收敛加速参数。

阅读全文 →

2025年10月23日

利用 scikit-opt 的 GA 和 PSO 在分布式 ML 中进行超参数调优和特征选择

在分布式机器学习工作流中，利用 scikit-opt 的遗传算法和粒子群优化算法实现高效超参数调优和特征选择，关注收敛速度与解多样性，提供工程化参数和集成策略。

阅读全文 →

2025年10月23日

使用 TorchForge 构建 PyTorch 原生后训练优化流水线：量化、校准与分布式部署

利用 TorchForge 在分布式环境中构建 PyTorch 原生后训练量化、校准和部署优化流水线，给出关键参数与实践指南。

阅读全文 →

2025年10月23日

异构硬件上多节点ML训练的数据并行与管道并行策略设计：带故障容错检查点

针对异构硬件的多节点ML训练，设计数据并行与管道并行策略，并集成故障容错检查点机制，提供工程化参数与监控要点。

阅读全文 →

2025年10月23日

CS249R 硬件软件协同设计构建高效 ML 推理引擎

应用 CS249R 硬件-软件协同设计技术，构建高效 ML 推理引擎，优化张量操作与分布式训练设置。

阅读全文 →

2025年10月21日

使用 Sherpa-ONNX 和 ONNX Runtime 工程化离线语音转文本管道

面向实时嵌入式部署的离线语音识别管道工程化，支持 100+ 语言，通过 VAD、增强和分离实现无互联网连接。

阅读全文 →

2025年10月21日

阿里巴巴 GPU 池化系统中动态调度算法的实现

在 GPU 池化系统中引入动态调度算法，通过细粒度资源分配和负载均衡，实现 AI 训练中 H100 GPU 使用量减少 82% 的工程实践指南。

阅读全文 →

2025年10月20日

Alibaba Cloud GPU Pooling: Reducing H100 Usage by 82%

阿里云的动态 GPU 池化系统通过弹性分配、任务队列和空闲资源共享，在多租户 AI 云环境中将 Nvidia H100 GPU 使用量降低 82%，提升训练工作负载效率。

阅读全文 →

2025年10月20日

MiniMind 从零训练 26M GPT 管道：自定义 BPE、分词与 SGD 循环

基于 MiniMind 项目，构建从零训练小型 GPT 的 PyTorch 管道，包括自定义 BPE 分词、因果自注意力机制和基本 SGD 优化循环，实现消费级 GPU 上 2 小时内完成训练。

阅读全文 →

2025年10月20日

在 CI 管道中用圈复杂度和 Halstead 度量替换 LoC 评估函数可维护性

通过圈复杂度和 Halstead 度量替换 LoC，在 CI 中实现函数级复杂性分析，指导重构和维护。

阅读全文 →

2025年10月20日

MiniMind 26M GPT 中 AdamW 与 FP16 混合精度训练：损失缩放与梯度裁剪调优

针对 MiniMind 小型 GPT 模型，在 PyTorch 中集成 AdamW 优化器与 FP16 混合精度，实现消费级 GPU 高效训练，重点讨论损失缩放参数和梯度裁剪策略以确保 2 小时内稳定收敛。

阅读全文 →

2025年10月19日

使用 LoRA 等 PEFT 方法实现 LLM 领域适配的高效微调工作流

介绍 PEFT 工作流如 LoRA 用于 LLM 领域特定任务的微调，优化计算资源并支持设备端部署，而无需完整重训。

阅读全文 →

2025年10月19日

MiniMind 中自定义 BPE 分词器与异步批量数据加载优化

MiniMind 项目中自定义 BPE 分词器训练及 PyTorch 异步批量数据加载机制，实现单 GPU 预训练吞吐量翻倍的关键工程实践与参数配置。

阅读全文 →

2025年10月19日

微调复兴：优于 RLHF 在 LLM 领域适应的战略优势

探讨微调在生产 LLM 部署中高效领域适应的战略优势，相比 RLHF 的资源密集型对齐，提供可落地参数和最佳实践。

阅读全文 →

2025年10月19日

PEFT 方法复兴微调效率：LoRA 在生产环境中的成本效益定制

分析 PEFT 方法如 LoRA 如何复兴 LLM 微调实践，提供成本效益定制的生产策略、参数配置与风险管理要点。

阅读全文 →

2025年10月19日

MiniMind 26M GPT 多GPU DDP 扩展训练

基于PyTorch DDP扩展MiniMind 26M模型多GPU训练，优化all-reduce操作与故障容错，实现高效分布式微调。

阅读全文 →

2025年10月19日

在MiniMind中集成梯度检查点优化内存：单GPU训练26M+ GPT模型

针对MiniMind的PyTorch训练管道，集成梯度检查点技术以交换计算换取内存节省，实现单消费级GPU上26M+参数GPT模型训练，避免OOM错误。

阅读全文 →

2025年10月18日

MiniMind 中梯度累积与动态批处理优化：有限硬件下高效训练 26M GPT

在 PyTorch 中实现梯度累积和动态批处理，用于有限硬件上训练 26M 参数 GPT 模型，降低内存开销并保持收敛速度，提供工程参数和监控要点。

阅读全文 →

2025年10月18日

Pathway 在流式 ETL 中的实时 Schema 验证：为 LLM RAG 系统提供动态错误恢复

利用 Pathway 的增量计算框架，实现 streaming ETL 管道中的动态 schema 验证和错误恢复，确保数据馈入 LLM RAG 系统时的完整性和实时性。

阅读全文 →

2025年10月18日

使用 Pathway 构建实时 ETL 管道实现可扩展 RAG 系统

探讨如何利用 Pathway 框架融合流数据与 LLM 推理，构建处理增量更新和低延迟查询的 RAG 系统，提供工程参数和最佳实践。

阅读全文 →

2025年10月18日

基于凸松弛的最优优化器在PyTorch中的实现：加速LLM收敛

利用凸松弛构建的最优优化器在PyTorch中实现，提供理论收敛保证，并优化多GPU环境下的自适应步长，提升LLM训练效率。

阅读全文 →

2025年10月18日

分布式凸松弛技术优化SGD：多GPU LLM微调加速30%

将单纯形优化的凸松弛技术适应到分布式SGD变体中，通过优化all-reduce模式和分片策略，实现多GPU LLM微调中30%更快的收敛。聚焦工程化实现，避免通信瓶颈，提供可落地参数和监控要点。

阅读全文 →

2025年10月18日

PyTorch 中基于凸松弛的最优优化器实现

基于最近数学突破，利用凸松弛优化 simplex 方法思想，设计 PyTorch 优化器，加速非凸神经网络训练，在 CIFAR-10 上实现 20-50% 收敛加速。

阅读全文 →

2025年10月18日

Nesterov 动量优化：自适应步长加速深度学习收敛

探讨 Nesterov 加速梯度下降结合自适应步长在深度学习训练中的应用，提供工程参数和最佳实践，以超越标准 SGD 的收敛速度。

阅读全文 →

2025年10月17日

使用梯度累积和动态批处理优化 MiniMind 的 PyTorch 训练循环

在单消费级 GPU 上，通过梯度累积和动态批处理优化，实现 26M 参数 GPT 模型 2 小时训练。详解参数设置、内存管理与监控要点。

阅读全文 →

2025年10月17日

MiniMind 中实现自定义 AdamW 优化器与梯度裁剪：单 GPU 稳定训练 26M GPT

在 MiniMind 项目中，使用自定义 AdamW 优化器结合梯度裁剪，实现单 GPU 上 26M 参数 GPT 模型的稳定训练，避免长序列梯度导致的 NaN 溢出。提供参数配置、实现代码与监控要点。

阅读全文 →

2025年10月17日

MiniMind 单GPU训练优化：梯度累积与动态批大小处理长序列

针对MiniMind 26M GPT单GPU训练，给出梯度累积与动态批大小的PyTorch实现参数，避免OOM并处理长序列。

阅读全文 →

2025年10月17日

从零构建 MiniMind 26M GPT 的 PyTorch 训练循环：梯度累积与混合精度优化

面向消费级 GPU，介绍高效自定义训练循环，支持 2 小时内完成 26M 参数 GPT 模型训练，重点优化梯度累积、混合精度和数据加载。

阅读全文 →

2025年10月16日

Testcontainers 与 JUnit 集成：Docker 容器在测试中的应用

面向 JUnit 测试，使用 Testcontainers 集成临时 Docker 容器模拟数据库、消息代理和 Web 服务，提供工程化参数与 CI 最佳实践。

阅读全文 →

2025年10月16日

将 marimo check 集成到 CI/CD 中验证响应式 Python 笔记本

面向生产部署前的响应式 Python 笔记本验证，给出 marimo check 在 CI/CD 中的集成参数、阈值设置与监控策略。

阅读全文 →

2025年10月15日

从液态到固态：解密“液体玻璃”的溶胶-凝胶制造工艺

深入解析溶胶-凝胶（Sol-Gel）技术如何将化学溶液转变为高性能玻璃界面，聚焦于从前驱体到固态成型过程中的关键化学与热力学挑战，以及规避开裂的工程控制要点。

阅读全文 →

2025年10月15日

超越人工审查：为 Copilot 代码构建半自动化验证流水线

GitHub Copilot 正在重塑开发流程，但也带来了代码质量和一致性的新挑战。本文探讨了如何超越低效的人工“橡皮图章”模式，通过集成静态分析、自动化测试和语义检查，构建一个强大的、半自动化的验证流水线，确保 AI 生成代码的正确性、安全性和可维护性。

阅读全文 →

2025年10月15日

通过合成程序降速验证性能分析器的准确性

性能分析器是优化的关键，但其准确性如何衡量？本文探讨一种通过在机器码级别引入可预测降速来创建近似“真值”的新颖验证方法，从而实现对分析器可靠性的严格评估。

阅读全文 →

2025年10月14日

为 AI 智能体构建专用 Linter：防范“AI 糟粕”与提升代码质量

AI 编程智能体虽能提效，却常引入难以维护的“AI 糟粕”代码。本文探讨构建专用 Linter 的必要性，分析其如何结合确定性规则与 LLM 来检测反模式，并给出在 MLOps 流程中实施的最佳实践。

阅读全文 →

第 3 / 5 页 · 共 329 篇