Hotdry.

Article

Expanse 跨租户 GPU 闲置算力聚合:预测式资源优化与细粒度复用

解析 Expanse 如何通过预测式分析层实现 GPU 算力池化,提供资源右置、失败预测与代码级优化的工程化参数。

2026-06-01systems

AI 基础设施的 GPU 利用率危机已成为行业共识。据 Grafana Labs 统计,约 30% 的云支出因过度配置而浪费;Microsoft Research 的实证研究更指出,深度学习作业的实际 GPU 利用率常低于 50%。面对这一问题,业界通常诉诸硬件分区(如 NVIDIA MIG)或虚拟化层(如 vGPU)来强制切分资源,但这些方案往往增加调度复杂度,且难以解决根本问题:用户在提交作业前对资源需求的误判。

Expanse(YC P26)选择了一条不同的路径 —— 不依赖硬件切片,而是通过「智能层」预测作业的实际资源需求,在调度前完成资源右置(right-sizing),从而聚合跨租户的闲置算力。本文解析其技术架构与可落地的工程参数。

问题本质:预测误差导致的资源浪费

传统 HPC 与云原生调度器(SLURM、Kubernetes)要求用户在提交作业时声明所需的 GPU 数量、内存上限和运行时长。这种「先声明后执行」的模式存在三重缺陷:

  1. 过度配置保险:用户倾向于高估资源需求以避免运行时失败,形成系统性浪费
  2. 失败成本高昂:资源估算错误导致的作业中断常在运行数小时后发生,已消耗的 GPU 时间无法回收
  3. 优化门槛高:准确的资源估算需要理解内存模式、批处理策略、GPU 线程与 CPU 向量化等底层细节,普通研究者难以掌握

Expanse 的核心洞察是:通过分析代码结构与历史遥测数据,可以在作业提交前预测其实际资源需求与失败概率,从而将「猜测式配置」转化为「数据驱动式配置」。

技术架构:三层预测模型

Expanse 采用本地部署架构(on-cluster deployment),所有分析在客户网络内完成,代码与遥测数据不出境。其技术栈包含三个核心组件:

1. 多模态资源预测器

基于 EPCC(爱丁堡并行计算中心)的研究成果,Expanse 构建了首个多模态 HPC 资源预测模型。该模型同时摄入:

  • 代码特征:通过静态分析提取模型架构、层数、参数量、数据加载模式
  • 历史遥测:GPU 利用率、内存占用、PCIe 带宽、CPU-GPU 同步开销的时间序列
  • 集群状态:队列深度、节点负载、网络拓扑

预测输出包括:建议的 GPU 数量、内存配置、预估运行时长。据 Y Combinator 披露,该模型在基准测试中超越了所有已发表方案。

2. 失败预测引擎

通过分析历史作业代码与遥测模式,模型可识别出高概率失败的作业特征(如内存泄漏模式、不兼容的 CUDA 版本、数据路径错误)。在作业进入调度队列前拦截潜在失败,避免数小时的无效 GPU 占用。

3. 代码级优化建议

不同于仅提供资源配置建议,Expanse 进一步分析代码实现,输出可执行的优化建议:

  • 批处理大小调整
  • 数据加载器并行度优化
  • GPU 内核融合机会
  • CPU 向量化建议

工程化参数与实施清单

对于希望构建类似能力的平台团队,以下参数可作为实施参考:

资源预测阈值

  • 置信度阈值:当模型置信度低于 85% 时,回退到保守估计(用户声明值的 90%)
  • 误差容忍:预测内存需求时预留 15% 缓冲,预测时长时预留 20% 缓冲
  • 反馈循环:每完成 100 个作业,重新校准模型权重

失败预测策略

  • 高风险阈值:失败概率 > 70% 的作业强制进入人工审核队列
  • 中风险标记:失败概率 40-70% 的作业附加警告标签,允许用户覆盖
  • 特征监控:重点监控 OOM 模式、NCCL 超时、检查点写入失败三类特征

优化建议优先级

  • P0(立即执行):内存优化、数据加载瓶颈
  • P1(建议执行):批处理调整、混合精度配置
  • P2(可选执行):内核融合、通信优化

部署架构

  • 数据本地化:模型推理完全在客户 VPC / 集群内执行
  • 遥测采样:每 30 秒采集一次 GPU 指标,保留 90 天历史数据
  • API 延迟:预测接口响应时间控制在 500ms 以内,避免阻塞提交流程

与硬件分区方案的互补性

Expanse 的预测式优化与 NVIDIA MIG 等硬件分区技术并非竞争关系,而是互补:

  • MIG 解决的是「如何切分」:通过硬件隔离实现多作业并发,但无法解决「该切多少」的问题
  • Expanse 解决的是「该切多少」:通过预测确定最优资源配置,使 MIG 的切片粒度更精准

理想架构是将 Expanse 作为调度前置层:先通过预测确定资源需求,再映射到 MIG 的预定义配置(如 1g.10gb、2g.20gb),避免过度切片导致的碎片化。

局限与风险

  1. 冷启动问题:新类型作业缺乏历史数据时,预测准确率下降,需依赖保守估计
  2. 模型漂移:框架版本升级(如 PyTorch 2.x → 3.x)可能导致历史模式失效,需建立版本感知的特征工程
  3. 隐私边界:虽然 Expanse 承诺数据本地化,但代码静态分析可能触及敏感算法逻辑,需在组织层面建立审查机制

结语

Expanse 代表了一种从「硬件切片」向「智能预测」演进的资源优化范式。在 AI 基础设施支出预计 2026 年达到 2.52 万亿美元的背景下,通过预测式分析回收 30% 的浪费支出,其商业价值与技术价值同样显著。对于运维大规模 GPU 集群的团队,构建或引入类似的预测层,可能是比单纯扩容更具成本效益的选择。


资料来源

  • Y Combinator Launch: Expanse - Unlock wasted GPU capacity (2026)
  • Microsoft Research: An Empirical Study on Low GPU Utilization of Deep Learning Jobs
  • Grafana Labs: How to Optimize Resource Utilization with Kubernetes Monitoring (2023)

systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com