Hotdry.
所有分类

ai-engineering

机器智能

Daft 在 S3 Delta Lake 上的内存查询执行优化

利用 Daft 的 Rust 基础多线程引擎,在 S3 存储的 650GB Delta Lake 数据集上实现高效内存查询执行,超越 Spark 分布式开销的轻量级替代方案。

阅读全文 →

Alibaba Cloud GPU Pooling: Reducing H100 Usage by 82%

阿里云的动态 GPU 池化系统通过弹性分配、任务队列和空闲资源共享,在多租户 AI 云环境中将 Nvidia H100 GPU 使用量降低 82%,提升训练工作负载效率。

阅读全文 →

分布式凸松弛技术优化SGD:多GPU LLM微调加速30%

将单纯形优化的凸松弛技术适应到分布式SGD变体中,通过优化all-reduce模式和分片策略,实现多GPU LLM微调中30%更快的收敛。聚焦工程化实现,避免通信瓶颈,提供可落地参数和监控要点。

阅读全文 →

PyTorch 中基于凸松弛的最优优化器实现

基于最近数学突破,利用凸松弛优化 simplex 方法思想,设计 PyTorch 优化器,加速非凸神经网络训练,在 CIFAR-10 上实现 20-50% 收敛加速。

阅读全文 →

超越人工审查:为 Copilot 代码构建半自动化验证流水线

GitHub Copilot 正在重塑开发流程,但也带来了代码质量和一致性的新挑战。本文探讨了如何超越低效的人工“橡皮图章”模式,通过集成静态分析、自动化测试和语义检查,构建一个强大的、半自动化的验证流水线,确保 AI 生成代码的正确性、安全性和可维护性。

阅读全文 →

通过合成程序降速验证性能分析器的准确性

性能分析器是优化的关键,但其准确性如何衡量?本文探讨一种通过在机器码级别引入可预测降速来创建近似“真值”的新颖验证方法,从而实现对分析器可靠性的严格评估。

阅读全文 →
3 / 5 页 · 共 329