Hotdry.

Category

ai-engineering

共 307 篇文章。

Alibaba Cloud GPU Pooling: Reducing H100 Usage by 82%

阿里云的动态 GPU 池化系统通过弹性分配、任务队列和空闲资源共享,在多租户 AI 云环境中将 Nvidia H100 GPU 使用量降低 82%,提升训练工作负载效率。

2025-10-20ai-engineering2025-10

分布式凸松弛技术优化SGD:多GPU LLM微调加速30%

将单纯形优化的凸松弛技术适应到分布式SGD变体中,通过优化all-reduce模式和分片策略,实现多GPU LLM微调中30%更快的收敛。聚焦工程化实现,避免通信瓶颈,提供可落地参数和监控要点。

2025-10-18ai-engineering2025-10

PyTorch 中基于凸松弛的最优优化器实现

基于最近数学突破,利用凸松弛优化 simplex 方法思想,设计 PyTorch 优化器,加速非凸神经网络训练,在 CIFAR-10 上实现 20-50% 收敛加速。

2025-10-18ai-engineering2025-10

超越人工审查:为 Copilot 代码构建半自动化验证流水线

GitHub Copilot 正在重塑开发流程,但也带来了代码质量和一致性的新挑战。本文探讨了如何超越低效的人工“橡皮图章”模式,通过集成静态分析、自动化测试和语义检查,构建一个强大的、半自动化的验证流水线,确保 AI 生成代码的正确性、安全性和可维护性。

2025-10-15ai-engineering2025-10

通过合成程序降速验证性能分析器的准确性

性能分析器是优化的关键,但其准确性如何衡量?本文探讨一种通过在机器码级别引入可预测降速来创建近似“真值”的新颖验证方法,从而实现对分析器可靠性的严格评估。

2025-10-15ai-engineering2025-10

用 SIMD 与缓存分片优化前缀和,冲击 20GB/s 吞吐量

本文探讨如何将前缀和(Prefix Sum)操作的性能提升至 20 GB/s。通过结合 SIMD 指令集、多线程并行化以及针对内存带宽瓶颈的缓存分片技术,我们提供了一套可落地的工程实践与参数调优指南。

2025-10-14ai-engineering2025-10

精简内存:基于状态机的流式 JSON 解析器设计

深入剖析流式JSON解析的内存效率瓶颈,详解如何通过精巧的状态机设计与最小化缓冲策略,实现对大规模数据流的低内存占用处理,并提供关键实现要点与传统DOM/SAX方法的对比。

2025-10-13ai-engineering2025-10

面向弹性数据管道的增量化 JSON 解析

传统 DOM 解析在处理大型 JSON 时面临内存瓶颈。本文探讨了增量(流式)解析的原理与优势,并提供实用代码范例,助您构建低内存、高吞吐的弹性数据处理管道。

2025-10-13ai-engineering2025-10

Mise 实现单仓库环境隔离的工具版本管理

利用 Mise 在 monorepo 中声明式管理工具版本和环境隔离,支持多语言工作流的可复现构建,无需 Docker。提供配置参数、任务清单和最佳实践。

2025-10-06ai-engineering2025-10
上一页第 3 / 4 页下一页