AI 训练集群的资源利用率长期困扰着基础设施团队。一块 A100 GPU 售价约 4 万美元,功耗高达 1000W,却在许多场景下处于半闲置状态。问题的核心不在于算力不足,而在于资源碎片化—— 当多租户共享 GPU 时,静态分区策略导致大量小容量片段无法被有效利用,形成 "有资源却分配不出去" 的困境。
MIG 环境下的碎片化特性
NVIDIA Multi-Instance GPU(MIG)技术通过硬件级分区提供了比 MPS 更强的资源隔离,但引入了独特的碎片化挑战。与传统 GPU 共享不同,MIG 仅支持固定数量的分区配置。以 A100 40GB 为例,有效配置仅限于 1g.5gb、2g.10gb、3g.20gb、4g.20gb 和 7g.40gb,不支持 5g 或 6g 等中间规格。
这种限制导致外部碎片化的新形态:即使单张 GPU 上存在连续的 4 个计算切片空闲,若其起始索引不为 0,仍无法创建 4g 实例。研究表明,两张剩余资源完全相同的 GPU,其可用性可能截然不同 —— 这彻底改变了传统碎片化问题的定义方式。
同时,内部碎片化源于 MIG 实例规格与作业需求的不匹配。当调度器为作业分配大于其实际需求的实例时,多余容量被锁定且无法重新分配,造成隐性浪费。
三管齐下的工程化方案
针对上述问题,学术界提出了一套可落地的在线调度框架,核心由三个机制协同运作:
条件负载均衡(Conditional Load Balancing)
引入阈值参数 t(实验建议设为0.4),将 GPU 动态分类为 "Lazy"(利用率低于 t)和 "Busy"(利用率高于 t)。调度器优先将新作业分配至 Lazy GPU,既缓解 PCIe 带宽和 TLB 等共享资源的争用,又避免过早将作业堆叠至同一设备。该阈值可根据集群负载特征调整:较低的 t 值倾向于尽早分散作业,较高的 t 值则优先最小化碎片化。
动态分区(Dynamic Partitioning)
摒弃静态 MIG 配置,根据实时需求动态创建和销毁实例。当作业请求 2g.10gb 实例时,系统按需划分精确匹配的切片,而非复用预先存在的更大实例。这从根本上消除了内部碎片化。实验表明,相比静态配置,动态分区可使平均等待时间降低至少 30%。
作业迁移(Job Migration)
在作业完成时触发迁移决策,包含两种模式:
- Intra-GPU 迁移:当某 GPU 仍为 Busy 状态时,在设备内部重组作业布局,压缩碎片
- Inter-GPU 迁移:当某 GPU 变为 Lazy 状态时,从其他 Busy GPU 迁入作业以平衡负载
迁移过程采用 "先创建新实例再终止旧实例" 的无缝切换策略,确保服务零中断。实测显示,启用迁移可使作业执行时间降低6%-10%(高负载场景下超过 10%)。
碎片化度量与监控
为实现可观测性,建议部署FragCost指标量化碎片化程度。该函数计算各 MIG 配置在理想情况下可创建的实例数与实际可行实例数的平均差异率,取值范围 0-1,越高表示碎片化越严重。
生产环境应监控以下关键指标:
- 各 GPU 的 FragCost 实时值
- Lazy/Busy GPU 分布比例
- 动态重配置事件频率
- 作业等待时间分布
部署参数建议
基于实验验证,给出以下可直接落地的配置参考:
| 参数 | 建议值 | 说明 |
|---|---|---|
| 负载均衡阈值 t | 0.4 | 确保 GPU 利用率达到 40% 前优先分散作业 |
| MIG 实例规格 | 按需动态创建 | 避免预分配固定配置 |
| 迁移触发时机 | 作业完成时 | 减少运行时开销 |
| 碎片度量周期 | 每 30 秒 | 平衡精度与开销 |
预期收益与局限
综合三种技术的实验结果显示,作业总完成时间(makespan)可改善13%-35%,具体取决于负载特征。低到达率的工作负载因迁移机会更多,收益更为显著。
需要注意的是,MIG 的配置刚性仍是根本性约束 —— 即使采用最优调度,5g 和 6g 等需求仍无法满足。此外,PCIe 带宽和最后一级 TLB 的共享特性意味着,即使计算和内存资源已隔离,性能干扰仍可能发生。
对于运行多租户 AI 推理或训练服务的集群,这套碎片化感知调度方案提供了一条从 "静态分区" 向 "动态优化" 演进的可行路径。通过将负载均衡、动态分区与智能迁移相结合,可在不增加硬件投入的前提下,显著释放存量 GPU 的潜在算力。
资料来源
- Ting et al., "An Online Fragmentation-Aware Scheduler for Managing GPU-Sharing Workloads on Multi-Instance GPUs", arXiv:2512.16099v1
- Weng et al., "Scheduling GPU-Sharing Workloads with Fragmentation Gradient Descent", USENIX ATC 2023
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。