# 分类：ai-engineering

> 该分类下的文章按时间倒序排列，便于按主题继续深挖。

## 页面摘要
- 路径: /categories/ai-engineering/page/4/
- 当前页: 4 / 5
- 文章总数: 329
- 当前页文章数: 80

## 快速导航
- [首页](/)
- [分类索引](/categories/)
- [归档索引](/archive/)

## 本页文章
### [用 SIMD 与缓存分片优化前缀和，冲击 20GB/s 吞吐量](/posts/2025/10/15/Optimizing-Prefix-Sum-to-20GBs-with-SIMD-and-Cache-Partitioning/)
- 日期: 2025-10-15T01:47:45+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 本文探讨如何将前缀和（Prefix Sum）操作的性能提升至 20 GB/s。通过结合 SIMD 指令集、多线程并行化以及针对内存带宽瓶颈的缓存分片技术，我们提供了一套可落地的工程实践与参数调优指南。

### [构建可扩展的请求日志管道：ClickHouse、Kafka 与 Vector 集成实践](/posts/2025/10/14/scalable-request-logging-pipeline-clickhouse-kafka-vector/)
- 日期: 2025-10-14T04:33:35+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 本文探讨如何利用 Vector、Kafka 和 ClickHouse 构建一个高性能、可扩展的请求日志处理管道，实现从日志采集、清洗、传输到近实时分析的全流程落地实践。

### [剖析流式 JSON 解析中的状态机与组合式 API 设计](/posts/2025/10/14/dissecting-state-machines-and-composable-apis-in-streaming-json-parsing/)
- 日期: 2025-10-14T03:56:44+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 本文深入探讨了在处理大规模或流式 JSON 数据时，如何通过状态机实现精确的增量解析，并设计一套富有表现力的组合式 API，以应对复杂的嵌套数据提取需求。

### [精简内存：基于状态机的流式 JSON 解析器设计](/posts/2025/10/14/memory-efficient-json-streaming-parser-with-a-state-machine/)
- 日期: 2025-10-14T01:47:57+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 深入剖析流式JSON解析的内存效率瓶颈，详解如何通过精巧的状态机设计与最小化缓冲策略，实现对大规模数据流的低内存占用处理，并提供关键实现要点与传统DOM/SAX方法的对比。

### [面向弹性数据管道的增量化 JSON 解析](/posts/2025/10/14/incremental-json-parsing-for-resilient-data-pipelines/)
- 日期: 2025-10-14T00:49:15+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 传统 DOM 解析在处理大型 JSON 时面临内存瓶颈。本文探讨了增量（流式）解析的原理与优势，并提供实用代码范例，助您构建低内存、高吞吐的弹性数据处理管道。

### [为 Klavis MCP 设计高可用负载均衡与故障转移机制](/posts/2025/10/13/klavis-mcp-load-balancing-and-failover-design/)
- 日期: 2025-10-13T20:18:53+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 本文为 Klavis MCP 集成平台设计一套具体的负载均衡与故障转移方案，以确保 AI 代理大规模使用工具时的高可用性与可靠性，并提供关键参数与监控建议。

### [将变异测试集成到 CI/CD 流水线中自动化代码审查](/posts/2025/10/11/integrate-mutation-testing-into-ci-cd-for-automated-code-reviews/)
- 日期: 2025-10-11T19:19:55+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 使用 Mutant 工具在 Ruby 项目中集成变异测试，实现生成变异体、执行测试和报告存活变异分析，提升代码质量。

### [AI 产品工程中的苦涩教训：计算导向的可扩展架构实践](/posts/2025/10/11/applying-bitter-lessons-to-ai-product-engineering/)
- 日期: 2025-10-11T12:18:12+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 将苦涩教训应用于 AI 产品工程，优先计算杠杆构建可扩展系统，避开迭代与部署陷阱。

### [在 RD-Agent 中实现自动化 A/B 测试与超参数优化循环：无干预的 ML 模型评估](/posts/2025/10/11/automated-ab-testing-hyperparameter-optimization-rd-agent/)
- 日期: 2025-10-11T12:07:11+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用 RD-Agent 的多代理框架，集成 A/B 测试和超参数优化，实现自动化 ML 模型评估与选择，提供工程化参数和监控策略。

### [在 PyTorch 中实现 mini-batch SGD 带动量和学习率调度以实现大规模神经网络训练的高效收敛](/posts/2025/10/08/implementing-mini-batch-sgd-with-momentum-and-learning-rate-scheduling-in-pytorch-for-efficient-convergence-in-large-scale-neural-network-training/)
- 日期: 2025-10-08T11:03:19+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 面向大规模神经网络训练，给出 PyTorch 中 mini-batch SGD 带动量和学习率调度的工程化实现与参数优化要点。

### [使用 Horovod 实现 BitNet 三元权重的分布式数据并行训练](/posts/2025/10/07/implementing-distributed-ternary-training-for-bitnet-with-horovod/)
- 日期: 2025-10-07T20:16:22+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 针对 BitNet 1-bit LLM 的分布式训练，提供 Horovod 数据并行框架下的自定义 all-reduce 操作、位串行梯度同步以及自适应损失缩放参数，确保多 GPU 集群收敛。

### [使用 Pathway 构建混合批流 ETL：面向 LLM 数据管道的状态化增量更新](/posts/2025/10/07/hybrid-batch-etl-in-pathway-for-llm-pipelines/)
- 日期: 2025-10-07T14:46:33+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 在 LLM 数据管道中，利用 Pathway 的状态化计算实现 hybrid batch-stream ETL，支持故障容错增量更新与可扩展训练数据准备。

### [使用 pdoc 通过 Python 内省自动生成交互式 API 文档](/posts/2025/10/07/using-pdoc-for-python-introspection-api-doc-generation/)
- 日期: 2025-10-07T13:31:13+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用 inspect 模块和类型提示，零配置生成带搜索和交叉引用的 HTML API 文档，适用于 Python 库维护。

### [Engineering Fault-Tolerant Stream ETL in Pathway for Real-Time ML Data Ingestion](/posts/2025/10/07/engineering-fault-tolerant-stream-etl-in-pathway-for-real-time-ml-data-ingestion/)
- 日期: 2025-10-07T11:16:33+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 探讨Pathway框架在MLOps中的应用，聚焦容错流式ETL，支持schema演化、增量joins，并集成训练管道实现模型连续更新。提供工程参数与监控要点。

### [Implementing Code-Defined Scalable Workflows in Kestra for Data Pipelines](/posts/2025/10/07/implementing-code-defined-scalable-workflows-in-kestra-for-data-pipelines/)
- 日期: 2025-10-07T08:31:13+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: Kestra 通过 YAML 代码定义支持数据管道和 AI 编排的执行引擎、依赖管理和容错调度，提供高效的工程化实践和参数配置。

### [JAX 中使用 Triton 优化 Blackwell GPU 的 FP8 GEMM 内核：TMA 异步加载与 Warp 级原语](/posts/2025/10/07/optimizing-fp8-gemm-kernels-in-jax-with-triton-for-blackwell-gpus-tma-async-loads-and-warp-level-primitives/)
- 日期: 2025-10-07T04:46:21+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 在 JAX 框架下，利用 Triton 自定义 GEMM 内核，针对 Blackwell GPU 的 FP8 Tensor Cores 和 TMA 异步加载，实现峰值 TFLOPS 的矩阵乘法优化，适用于 ML 训练与推理。

### [Mise 实现单仓库环境隔离的工具版本管理](/posts/2025/10/07/env-isolated-tool-versioning-in-monorepos-with-mise/)
- 日期: 2025-10-07T00:06:33+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用 Mise 在 monorepo 中声明式管理工具版本和环境隔离，支持多语言工作流的可复现构建，无需 Docker。提供配置参数、任务清单和最佳实践。

### [使用 Flightcontrol AWS PaaS 构建声明式无服务器基础设施](/posts/2025/10/06/building-declarative-serverless-infrastructure-with-flightcontrol-aws-paas/)
- 日期: 2025-10-06T22:46:20+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 通过 Flightcontrol 的 AWS PaaS 抽象层，实现服务器less 应用的零停机部署、多区域复制以及成本优化的缩放策略，提供自定义构建管道的工程实践。

### [利用 Kestra AI Copilot 自动生成 AI 管道工作流](/posts/2025/10/06/leveraging-kestras-ai-copilot-for-ai-pipeline-workflows/)
- 日期: 2025-10-06T02:01:28+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用 Kestra 的 AI Copilot 通过自然语言描述快速生成和优化多步 AI 管道的 YAML 工作流，提供数据摄取、模型训练和部署的工程化参数与监控要点。

### [Integrating Kestra YAML Workflows with Kafka and PostgreSQL for Real-Time ETL in AI Pipelines](/posts/2025/10/05/integrating-kestra-yaml-workflows-with-kafka-and-postgresql-for-real-time-etl-in-ai-pipelines/)
- 日期: 2025-10-05T18:06:16+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 探讨 Kestra 如何通过 YAML 配置实现 Kafka 到 PostgreSQL 的实时 ETL，支持 AI 管道数据处理，利用 AI Copilot 实现动态 scaling 和错误恢复，提供工程化参数和监控策略。

### [利用 Grokking 相变工程化训练课程：诱导过参数化模型涌现特征学习](/posts/2025/10/05/grokking-feature-emergence-scaling/)
- 日期: 2025-10-05T05:16:06+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 探讨利用 Grokking 现象设计训练策略，在过参数化模型中控制过拟合后实现快速泛化，优化计算资源促进涌现特征学习，提供工程参数与监控要点。

### [使用 dbt-core 构建模块化、版本控制的 SQL 数据转换](/posts/2025/10/04/building-modular-version-controlled-sql-transformations-in-dbt-core/)
- 日期: 2025-10-04T19:46:09+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 在 dbt-core 中构建模块化、版本控制的 SQL 转换，实现可扩展数据管道，支持自动化测试和依赖管理。通过软件工程实践提升数据转换效率和可靠性。

### [使用 Kestra 构建可扩展混合编排引擎](/posts/2025/10/04/scalable-hybrid-orchestration-with-kestra/)
- 日期: 2025-10-04T16:06:30+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 面向混合数据/AI/基础设施工作流，给出 Kestra Java 后端的容错任务分发、动态缩放与事件驱动执行的工程化参数与监控要点。

### [使用 Pathway 构建容错实时 ETL 管道：状态处理与自动恢复机制](/posts/2025/10/04/build-resilient-real-time-etl-pipelines-in-pathway-for-ai-apps/)
- 日期: 2025-10-04T13:46:28+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 在 Pathway 中利用状态ful 处理构建 resilient 实时 ETL 管道，针对 AI 应用实现数据漂移、模式变化和连接器故障的自动恢复。

### [使用 Kestra 的 AI 副驾驶工程化声明式工作流编排](/posts/2025/10/04/engineering-declarative-workflows-with-kestras-ai-copilot/)
- 日期: 2025-10-04T11:01:30+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 借助 Kestra 的 AI 副驾驶，工程师可快速构建 YAML 声明式工作流，用于数据管道、基础设施 provisioning 和 AI 任务，支持 UI 监控与可扩展执行。

### [使用 Kestra AI Copilot 工程化声明式 YAML 工作流编排](/posts/2025/10/03/engineering-declarative-yaml-pipelines-with-kestra-ai-copilot/)
- 日期: 2025-10-03T20:17:34+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 面向数据/AI/基础设施任务，利用 AI Copilot 自动化设计 YAML 管道、错误处理和可扩展执行。

### [基于 AI Engineering 书籍的可扩展 LLM 服务管道实现：Redis 队列、动态模型加载与 Prometheus 监控](/posts/2025/10/03/scalable-llm-serving-pipelines-ai-engineering-patterns/)
- 日期: 2025-10-03T14:34:01+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 借鉴 Chip Huyen 的 AI Engineering 书籍，介绍可扩展 LLM 服务管道的工程实践，包括 Redis 请求队列管理、动态模型加载以及 Prometheus 实时延迟监控的关键参数。

### [利用 OCI 注册表管理私有 Python 包](/posts/2025/10/03/leveraging-oci-registries-for-private-python-packages/)
- 日期: 2025-10-03T14:03:43+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 面向私有 Python 包的分发，给出基于 OCI 镜像的发布、安装工程化参数与空气隔离环境支持要点。

### [使用 JAX pmap 在 Tunix 中构建分布式 RLHF 流水线：多 TPU 奖励建模与 PPO 优化](/posts/2025/10/03/distributed-rlhf-pipelines-in-tunix-using-jax-pmap-for-multi-tpu-alignment/)
- 日期: 2025-10-03T12:11:06+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 在 Tunix 框架下，利用 JAX pmap 实现多 TPU 上的分布式 RLHF 流水线，包括奖励建模、PPO 优化和偏好数据分片，提升 LLM 对齐效率。

### [Distributed LLM Distillation in Tunix Using JAX vmap and pmap](/posts/2025/10/03/distributed-llm-distillation-in-tunix-using-jax-vmap-and-pmap/)
- 日期: 2025-10-03T12:04:34+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 探讨在 Tunix 框架下，利用 JAX 的 vmap 进行批处理矢量化与 pmap 实现多 TPU 并行，从而优化 LLM 知识蒸馏过程的对齐和微调效率，提供工程化参数与最佳实践。

### [使用 Tunix 构建分布式 LLM 对齐管道：基于 JAX pmap 的多 TPU 编排](/posts/2025/10/03/engineer-distributed-llm-alignment-pipelines-in-tunix/)
- 日期: 2025-10-03T10:08:07+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 探讨在 Tunix 中利用 JAX pmap 实现分布式 LLM 对齐管道，包括奖励建模、PPO 更新及梯度检查点以提升内存效率。

### [工程化多平台 Docker 镜像：GitHub Actions Runner 的预装工具链、依赖缓存与安全加固](/posts/2025/10/03/engineering-multi-platform-docker-images-for-github-actions-runners/)
- 日期: 2025-10-03T08:03:20+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 针对 GitHub Actions CI/CD Runner，探讨多平台 Docker 镜像的构建工程，包括工具链预装策略、缓存优化参数及安全强化实践。

### [使用 Pathway 滑动窗口实现 LLM 实时监控](/posts/2025/10/03/real-time-llm-monitoring-with-pathway-sliding-windows/)
- 日期: 2025-10-03T06:07:34+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用 Pathway 的 SQL 流处理构建 LLM 推理指标的实时监控管道，通过滑动窗口进行延迟警报和质量聚合，避免全量重新处理。

### [在Tunix中使用JAX vmap/pmap构建LLM知识蒸馏工作流：多GPU同步与KL散度优化](/posts/2025/10/03/constructing-llm-distillation-workflows-in-tunix-using-jax-vmap-pmap/)
- 日期: 2025-10-03T05:17:54+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 面向LLM压缩，给出Tunix中JAX并行原语驱动的知识蒸馏工程实践，包括KL优化与层冻结参数。

### [AI工程资源精选：Colab笔记本用于模型微调、RAG实现与代理系统部署](/posts/2025/10/03/curated-ai-engineering-resources-colab-notebooks-for-model-fine-tuning-rag-and-agentic-systems/)
- 日期: 2025-10-03T05:04:07+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 基于Chip Huyen的AI Engineering书籍，精选实用Colab笔记本和资源，支持AI工程工作流中的模型微调、RAG与代理系统实践。

### [LLM MLOps 实用 Colab 笔记本：量化、A/B 测试与评估管道](/posts/2025/10/03/llm-mlops-practical-colab-notebooks/)
- 日期: 2025-10-03T04:47:24+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 精选 Colab 笔记本实践 LLM MLOps，覆盖量化优化、A/B 测试部署和自动化评估，确保模型生产可靠性。

### [使用 Kestra 工程化声明式 YAML 管道：集成 AI Copilot 实现提示生成与实时调试](/posts/2025/10/02/engineering-declarative-yaml-pipelines-with-kestra-ai-copilot/)
- 日期: 2025-10-02T23:32:38+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 通过 Kestra 的 YAML 声明式管道编排 AI、数据和基础设施工作流，集成 AI Copilot 支持基于提示的流生成和实时调试，提供工程化参数与监控要点。

### [实现内存打包与动态张量重塑以实现全GPU利用率](/posts/2025/10/02/implementing-memory-packing-dynamic-tensor-reshaping-for-full-gpu-utilization/)
- 日期: 2025-10-02T21:17:25+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 通过内存打包和动态张量重塑优化大型模型预训练，消除闲置GPU周期，实现>95%利用率，无需硬件修改。聚焦Stanford低级分配技术，提供工程参数和监控要点。

### [使用 Pathway 构建实时 ETL 管道支持 LLM 数据摄取和 RAG 更新](/posts/2025/10/02/building-real-time-etl-pipelines-for-llm-with-pathway/)
- 日期: 2025-10-02T19:02:18+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 面向 LLM 管道，给出 Pathway 的流式 ETL 实现、RAG 实时更新参数与监控要点。

### [使用 Tunix 构建 JAX 原生 LLM 后训练管道：TPU 优化与 RLHF 实践](/posts/2025/10/02/building-jax-native-llm-post-training-pipelines-with-tunix-tpu-optimization/)
- 日期: 2025-10-02T18:46:49+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: Tunix 作为 JAX 原生 LLM 后训练库，支持 RLHF 对齐和知识蒸馏，利用 TPU 实现高效优化。本文提供构建管道的实用指南，包括参数配置和监控策略，避免 PyTorch 开销。

### [FOSSA bot 依赖图遍历与 breaking changes 影响量化算法](/posts/2025/10/02/fossa-bot-dependency-graph-traversal-breaking-changes-impact-quantification/)
- 日期: 2025-10-02T07:48:27+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 面向 Dependabot/Renovate PR，解析 FOSSA bot 依赖图遍历算法与 breaking changes 影响量化工程参数，提供自动化修复建议与风险评分。

### [将 Fossabot 集成到 Dependabot 工作流中实现 AI 驱动的依赖更新审查](/posts/2025/10/02/integrate-fossabot-ai-dependency-review-dependabot-renovate/)
- 日期: 2025-10-02T01:02:03+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 通过 Fossabot 的 AI 分析，在 Dependabot/Renovate 工作流中检测 breaking changes、安全影响，并生成针对性 PR 评论。

### [构建Imgur GDPR合规数据删除流水线：工程实现与技术挑战](/posts/2025/10/01/imgur-gdpr-data-deletion-pipeline-engineering/)
- 日期: 2025-10-01T10:49:05+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 深入分析图片分享平台GDPR数据删除的技术架构，探讨异步处理、批量删除和合规验证的工程实践，为大规模数据处理平台提供可落地的合规解决方案。

### [200美元以内微调7B Llama模型用于结构化文档提取](/posts/2025/10/01/fine-tune-7b-llama-for-document-extraction-under-200/)
- 日期: 2025-10-01T01:33:58+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用PEFT和领域特定数据集，以低于200美元成本微调7B模型如Llama，在结构化文档提取任务上超越OpenAI o1，提供高效适配器训练指南。

### [JAX 中向量化组合系数计算：动态缓存与并行 Map-Reduce 处理大 n 值](/posts/2025/09/30/jax-vectorized-combinations-calculation/)
- 日期: 2025-09-30T09:49:16+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用 JAX 的向量化能力计算大 n 二项式系数，引入动态缓存和并行 map-reduce，适用于组合优化管道，支持 n 至 10^6。

### [在 Qlib 中集成 RL 代理模拟市场动态：自适应交易策略与实时回测](/posts/2025/09/29/integrating-rl-agents-in-qlib-for-market-dynamics-simulation/)
- 日期: 2025-09-29T08:07:42+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用 Qlib 的 RL 框架模拟市场动态，开发自适应交易策略，并通过回测优化风险调整性能。

### [采用 OpenTelemetry 作为 LLM 可观测性标准：语义约定与跨管道一致监控](/posts/2025/09/28/adopting-opentelemetry-as-the-standard-for-llm-observability/)
- 日期: 2025-09-28T04:02:04+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 通过定义 traces、metrics 和 logs 的语义约定，推动 OpenTelemetry 成为 LLM 可观测性的标准，实现一致监控与生产问题如延迟和幻觉的调试。

### [使用 Unsloth 工程化低内存 OSS RL 管道加速 GPT 微调](/posts/2025/09/27/engineering-low-memory-oss-rl-pipelines-gpt-fine-tuning-unsloth/)
- 日期: 2025-09-27T12:16:48+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 面向开源 GPT 模型的对齐训练，给出低内存 RL 管道的 Unsloth 实现、量化 LoRA 参数与分布式配置要点。

### [在 GRAPE 中实现 off-policy 评估指标用于安全 RLHF 部署](/posts/2025/09/27/implementing-off-policy-evaluation-metrics-in-grape-for-safe-rlhf-deployment/)
- 日期: 2025-09-27T08:17:09+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 通过反事实估计在 GRAPE 中实现 off-policy 评估指标，用于生产 LLM 管道中安全评估策略变化，而无需完整重训。

### [DeepFabric 中工程化可扩展管道用于生成多样高保真合成数据集](/posts/2025/09/26/engineering-scalable-pipelines-deepfabric-synthetic-data-generation/)
- 日期: 2025-09-26T22:46:53+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 在 DeepFabric 框架下，构建可扩展管道生成具有可控属性的合成数据集，并通过验证指标确保其适用于 ML 训练增强。

### [使用 GDPVal 工程化 LLM 真实世界任务基准：编码与推理评估](/posts/2025/09/26/gdpval-for-real-world-llm-evaluation/)
- 日期: 2025-09-26T02:06:30+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 面向真实世界任务，给出 GDPVal 基准工程化参数与多样数据集整合要点。

### [使用 Rust DataFrame 实现 SedonaDB 中的高效地理空间分析](/posts/2025/09/25/implementing-rust-dataframes-for-geospatial-analytics-in-sedonadb/)
- 日期: 2025-09-25T21:17:09+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: SedonaDB 利用 Rust 和 Apache Arrow 构建高性能地理空间 DataFrame，支持高效 joins、空间索引和大规模数据集分析。本文探讨实现细节、可落地参数及监控要点。

### [通过 nvmath-python 的 cuBLASLt 绑定，在 PyTorch 中实现偏差融合以提升推理性能](/posts/2025/09/22/nvmath-python-cublaslt-bias-fusion-for-pytorch-inference/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用 nvmath-python 的高级 Matmul API，将偏差加法融合进 cuBLASLt 矩阵乘法内核，减少内存往返与内核启动开销，实测推理性能提升显著。

### [用 aipyapp 自动化 CI/CD：配置参数与沙箱监控清单](/posts/2025/09/21/automate-ci-cd-with-aipyapp/)
- 日期: 2025-09-21T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 剖析 aipyapp 如何通过无代理架构与本地化执行，自动化 Python 项目的构建、测试与部署流程，提供关键配置参数与安全监控清单。

### [CUDA并行化RNN训练：从O(T)到O(log T)的工程实践与参数调优](/posts/2025/09/21/cuda-parallel-rnn-training-logt-complexity/)
- 日期: 2025-09-21T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 详解SRU与并行扫描算法如何借助CUDA实现RNN训练复杂度从O(T)降至O(log T)，并提供可落地的参数配置与性能监控清单。

### [构建实用LLM评估框架：超越基准，聚焦真实用户场景与模型可用性](/posts/2025/09/21/hugging-face-practical-llm-evaluation-framework/)
- 日期: 2025-09-21T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 如何利用Hugging Face生态（Leaderboard、Evaluate库）构建超越简单基准的实用评估框架，聚焦真实用户场景与模型可用性。

### [微软AI入门课程如何用模块化Jupyter构建12周教学流水线](/posts/2025/09/21/microsoft-ai-curriculum-jupyter-pipeline/)
- 日期: 2025-09-21T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 解析微软AI-For-Beginners课程如何通过模块化Jupyter Notebook与渐进式Lab设计，实现零基础到多模态AI的12周工程化教学流水线。

### [使用 markitdown 构建 Office 文档批量转 Markdown 流水线：参数、集成与监控](/posts/2025/09/20/markitdown-batch-office-to-markdown-pipeline/)
- 日期: 2025-09-20T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 详解如何基于微软开源工具 markitdown，搭建高效、可扩展的 Office 文档批量转换流水线，涵盖环境配置、命令行批量脚本、LLM/Azure 集成及风险监控要点。

### [基于微软AI课程：构建模块化Jupyter教学流水线](/posts/2025/09/20/modular-jupyter-pipeline-for-ai-teaching/)
- 日期: 2025-09-20T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 详解如何利用微软AI入门课程的预设Jupyter Notebook结构，构建可复用、可追踪的模块化教学流水线，提升AI教学效率。

### [使用 R 构建 Ising 模型相变蒙特卡洛模拟管道](/posts/2025/09/19/build-monte-carlo-pipelines-in-r-for-2d-ising-model-phase-transitions/)
- 日期: 2025-09-19T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 介绍在 R 中实现二维 Ising 模型的蒙特卡洛模拟管道，包括采样优化和临界指数分析，帮助理解相变行为。

### [使用 LLaMA-Factory 构建 100+ 开源 LLM 的统一高效微调管道](/posts/2025/09/19/build-unified-fine-tuning-pipelines-for-100-open-llms-with-llama-factory/)
- 日期: 2025-09-19T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用 LLaMA-Factory 的 PEFT、QLoRA 和多 GPU 编排，快速实现资源高效的模型适应与部署。

### [使用 Unsloth 工程化 4-bit QLoRA 微调 Llama 3：在消费级 GPU 上实现 2 倍加速无精度损失](/posts/2025/09/19/engineer-4-bit-qlora-fine-tuning-unsloth-llama3-consumer-gpus/)
- 日期: 2025-09-19T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 指导构建 Unsloth 4-bit QLoRA 管道，集成梯度检查点和低 RAM 优化，实现 Llama 3 高效微调。

### [使用 Unsloth 工程化 RLHF/DPO 管道：Llama3 的低 VRAM 对齐](/posts/2025/09/19/engineer-unsloth-for-rlhf-dpo-pipelines-on-llama3-with-low-vram-alignment/)
- 日期: 2025-09-19T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 在消费级 GPU 上利用 Unsloth 实现 Llama3 的 RLHF/DPO 微调，结合 4-bit QLORA、梯度检查点和奖励模型集成。

### [LLaMA-Factory 中使用 QLoRA 工程化 SFT 和 DPO 管道：低资源指令调优](/posts/2025/09/19/engineering-sft-dpo-pipelines-llama-factory-qlora-low-resource/)
- 日期: 2025-09-19T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 在 LLaMA-Factory 框架下，利用 QLoRA 技术构建 SFT 和 DPO 管道，实现低资源环境下的开源 LLM 指令调优，提供数据 curation、参数配置和评估策略。

### [集成 NVIDIA Python 绑定 cuBLAS/cuSOLVER 加速 ML 管道线性代数](/posts/2025/09/19/integrate-nvidia-python-bindings-cublas-cusolver-ml-pipelines/)
- 日期: 2025-09-19T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用 nvmath-python 集成 cuBLAS 和 cuSOLVER，实现 GPU 优化的张量操作和稀疏求解器，提升模型训练的可扩展性。

### [使用 RunRL 工程化分布式强化学习训练：actor 协调、策略梯度优化与多 GPU 容错 rollout](/posts/2025/09/18/distributed-rl-training-runrl-actor-orchestration-policy-optimization-fault-tolerant-rollout/)
- 日期: 2025-09-18T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 在 RunRL 平台上实现分布式 RL 训练的工程实践，聚焦 actor 管理、优化策略和容错机制，提供可落地参数和监控要点。

### [使用 Unsloth 优化 LLM 微调：2x 速度与 70% VRAM 节省](/posts/2025/09/18/unsloth-llm-fine-tuning-optimization/)
- 日期: 2025-09-18T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 通过 Unsloth 的自定义内核，在消费级 GPU 上实现 LLM 微调和 RLHF 的 2x 加速与 70% VRAM 节省，支持 Llama 4、Qwen3 等模型的本地高效训练。

### [使用 Unsloth 实现低 VRAM LLM 微调：量化与内核优化](/posts/2025/09/18/unsloth-low-vram-llm-fine-tuning/)
- 日期: 2025-09-18T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 通过 Unsloth 的自定义 CUDA 内核和量化技术，实现 Llama/Qwen 模型高效微调，节省 70% VRAM 并加速 2 倍。

### [使用 markitdown 构建 Python ETL 管道：解析 Word/PDF 为结构化 Markdown，支持 RAG 和 LLM 微调](/posts/2025/09/17/building-python-etl-pipeline-with-markitdown-parsing-word-pdfs-to-structured-markdown-for-rag-and-llm-fine-tuning/)
- 日期: 2025-09-17T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 介绍如何利用 markitdown 在 Python ETL 中转换 Office 文档和 PDF，保留表格和图像结构，便于 RAG 数据摄取和 LLM 训练，提供实现参数与最佳实践。

### [使用 MarkItDown 构建 Office 到 Markdown 的 Python 转换管道](/posts/2025/09/16/office-to-markdown-pipeline-markitdown/)
- 日期: 2025-09-16T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 工程化 Python 管道，将 Word、Excel 和 PPT 转换为结构化 Markdown，保留表格、图像和布局，支持高效 LLM 数据准备与 RAG 摄取。

### [基于Happy-LLM从零构建PyTorch大模型：分词、Transformer架构、DDP分布式训练与领域适应微调](/posts/2025/09/14/construct-pytorch-based-llm-from-scratch-using-happy-llm-tokenization-transformer-ddp-domain-adaptation/)
- 日期: 2025-09-14T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用Happy-LLM教程，从零实现PyTorch LLM，包括分词训练、Transformer搭建、DDP分布式策略及LoRA领域微调参数。

### [使用 Azure SDK for Python 构建可扩展异步云集成应用](/posts/2025/09/13/building-scalable-python-apps-with-azure-sdk-async-integration/)
- 日期: 2025-09-13T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用 Azure SDK for Python 的异步客户端、AAD 认证和批量操作，集成存储、计算和 AI 服务，实现高效云原生开发，提供代码示例与最佳实践。

### [使用 PyTorch DDP 工程化可扩展分布式机器学习训练：数据并行、环形全归约优化、容错弹性扩展与多节点同步](/posts/2025/09/13/engineering-scalable-distributed-ml-training-pytorch-ddp-epfl-course/)
- 日期: 2025-09-13T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 基于 EPFL 机器学习课程，探讨 PyTorch DDP 在大规模模型训练中的工程实践，包括数据并行机制、优化策略、容错扩展及同步要点。

### [使用 PyTorch DDP 实现可扩展分布式 ML 训练：EPFL 课程实验洞见](/posts/2025/09/13/implementing-scalable-distributed-ml-training-pytorch-ddp-epfl/)
- 日期: 2025-09-13T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 基于 EPFL 机器学习课程实验，探讨 PyTorch DDP 的数据并行、多 GPU 同步和容错梯度聚合的最佳实践与工程参数。

### [工程化Git历史泄露检测管道：清洗SWE-bench数据集以确保LLM基准公平性](/posts/2025/09/12/engineering-git-history-leak-detection-pipeline-for-cleaning-swe-bench-dataset-to-ensure-llm-benchmark-fairness/)
- 日期: 2025-09-12T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 使用Gitleaks构建自动化Git泄露检测管道，清洗SWE-bench数据集，提高LLM代码生成基准的公平性和可重现性。

### [使用 DeepCodeBench 构建代码库理解评估管道](/posts/2025/09/11/building-codebase-qa-evaluation-pipelines-with-deepcodebench/)
- 日期: 2025-09-11T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 基于 DeepCodeBench 数据集，构建针对真实代码库的 Q&A 评估管道，集成检索机制提升 LLM 上下文感知准确率，提供落地参数与监控要点。

### [PyTorch 中工程化可移植 CUDA 绑定以实现 ARM/x86 一致性](/posts/2025/09/11/engineering-portable-cuda-bindings-in-pytorch-for-arm-and-x86-consistency/)
- 日期: 2025-09-11T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 针对跨平台 ML 管道中的 CUDA/CUDNN 绑定，提供 ARM/x86 一致性的工程化修复方案，包括编译错误解决和运行时匹配参数。

### [工程化跨平台PyTorch可重现构建：CMake工具链与vcpkg依赖隔离](/posts/2025/09/11/engineering-reproducible-pytorch-builds-cross-platform/)
- 日期: 2025-09-11T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 面向Windows/Linux/macOS/ARM/x86，提供使用自定义CMake工具链、vcpkg隔离和CUDA/ROCm变体处理的PyTorch构建指南，确保ML部署无缝。

### [在高速度单体仓库中实现合并队列以序列化 PR 合并](/posts/2025/09/11/implement-merge-queues-for-safe-pr-merges-in-monorepos/)
- 日期: 2025-09-11T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 通过合并队列序列化 PR 合并，实现安全并行测试和零宕机部署，并在冲突时使用 rebase 解决。

### [Mergify 合并队列的起源：早期设计与大规模 CI/CD 挑战](/posts/2025/09/11/origins-of-mergify-merge-queues-early-design-and-large-scale-ci-cd-challenges/)
- 日期: 2025-09-11T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 回顾 Mergify 合并队列的起源与动机，分析早期设计挑战，并给出大规模 CI/CD 下的配置参数与监控要点。
