分类:mlops

214 篇文章

Alibaba Cloud GPU Pooling: Reducing H100 Usage by 82%

阿里云的动态 GPU 池化系统通过弹性分配、任务队列和空闲资源共享,在多租户 AI 云环境中将 Nvidia H100 GPU 使用量降低 82%,提升训练工作负载效率。

分布式凸松弛技术优化SGD:多GPU LLM微调加速30%

将单纯形优化的凸松弛技术适应到分布式SGD变体中,通过优化all-reduce模式和分片策略,实现多GPU LLM微调中30%更快的收敛。聚焦工程化实现,避免通信瓶颈,提供可落地参数和监控要点。

超越人工审查:为 Copilot 代码构建半自动化验证流水线

GitHub Copilot 正在重塑开发流程,但也带来了代码质量和一致性的新挑战。本文探讨了如何超越低效的人工“橡皮图章”模式,通过集成静态分析、自动化测试和语义检查,构建一个强大的、半自动化的验证流水线,确保 AI 生成代码的正确性、安全性和可维护性。

超越人工审查:为 Copilot 代码构建半自动化验证流水线

GitHub Copilot 正在重塑开发流程,但也带来了代码质量和一致性的新挑战。本文探讨了如何超越低效的人工“橡皮图章”模式,通过集成静态分析、自动化测试和语义检查,构建一个强大的、半自动化的验证流水线,确保 AI 生成代码的正确性、安全性和可维护性。