Hotdry.
systems-engineering

AI 数据中心硬盘荒:从 52 周交期看冷数据存储策略

面对 AI 推理需求引发的近线硬盘供应短缺,数据中心如何通过冷热分层、SMR 技术与长约锁定应对史上最长交货周期?

2025 年,全球数据中心正在经历一场前所未有的存储危机。近线硬盘(Nearline HDD)的交货周期从传统的数周骤增至 52 周以上,创下机械硬盘行业历史记录。这不仅仅是简单的供需失衡,而是 AI 推理工作负载爆发式增长与传统存储供应链产能规划周期之间的结构性错配。当西部数据、希捷、东芝三大厂商同时宣布涨价并暂停报价时,云服务商们不得不重新审视存储架构的每一个环节 —— 从冷热数据分层到技术选型,从长约谈判到成本控制,每一个决策都直接影响着 AI 服务的交付能力。

需求激增背后的结构性矛盾

AI 推理应用的扩张彻底改变了数据中心的存储需求结构。2024 年全球 AI 相关存储需求仅占总需求的 15%,到 2025 年这一比例已飙升至 35%。这种非线性增长的根源在于多模态数据的爆炸式增加:一分钟压缩视频的数据量约为普通文本页的 2 万倍以上,而 GPT-5 等千亿参数模型处理的非结构化数据(4K 视频、医疗影像、语音历史记录等)年增长率高达 78%。

更具体的数据揭示了问题的严峻性:单台 AI 训练服务器需要配备 50 至 80 块近线硬盘作为数据湖存储,而微软威斯康星 AI 数据中心的存储系统长度已达 5 个足球场。这种 "算存比" 的急剧失衡,使得冷数据存储需求激增至 3500EB,远超西部数据与希捷合计 2800EB 的年产能。

关键矛盾在于产能扩张的时间错配。新建一座硬盘产能工厂需要 12 个月完成设备采购、人员招聘与产线认证,再经 12 个月生产爬坡才能实现稳定输出,单厂建设成本超 5 亿美元。而 2019 至 2023 年间,机械硬盘需求持续疲软,厂商纷纷将产线转向企业级 SSD,导致当前 HDD 产能无法快速响应 AI 需求的突然爆发。摩根士丹利测算,未来 12 个月 HDD 市场供给缺口约 150EB,占市场需求的 10%,且这一缺口将持续至 2028 年前。

冷热数据分层的工程化实践

在供应链短期无法缓解的背景下,数据中心必须通过存储架构优化来应对硬盘短缺。冷热数据分层是最直接且有效的策略,但其实施需要明确的量化指标与技术选型。

分层边界的量化定义

传统分层往往依赖模糊的 "访问频率" 概念,而在硬盘短缺环境下,必须将边界精确化为可操作参数。建议采用以下阈值:

  • 热数据(Hot Data):7 天内访问次数 ≥ 3 次,或单次访问延迟要求 < 10ms。部署于 NVMe SSD,IOPS ≥ 100K。
  • 温数据(Warm Data):30 天内访问次数 1-2 次,延迟容忍度 50-100ms。部署于 SATA SSD 或高性能 HDD(7200 转),IOPS 10K-50K。
  • 冷数据(Cold Data):90 天内访问次数 <1 次,延迟容忍度> 500ms。部署于近线 HDD(5400 转)或 SMR 硬盘,优先考虑每 TB 成本。

实际部署中,可通过日志分析工具(如 Prometheus + Grafana)实时监控数据访问模式,每周自动评估并迁移 5-10% 的数据集。关键在于设定 "温数据降级触发器":当某数据块连续 14 天未被访问且存储成本超过阈值(如 $0.03/GB/ 月)时,自动从 SSD 迁移至 HDD。

SMR 技术的权衡与适用场景

叠瓦式磁记录(SMR)硬盘因其更高的存储密度(单盘容量可达 20TB+)成为缓解 HDD 短缺的重要选项,但其写入性能限制需要谨慎评估。SMR 硬盘采用瓦片式写入,随机写入速度仅为传统 CMR 硬盘的 30-50%,且需要定期执行 "垃圾回收"(Garbage Collection),可能导致 I/O 抖动。

适用场景包括:

  1. AI 训练数据集归档:一旦完成标注和预处理,数据集主要以顺序读取方式供训练使用,写入操作极少。可采用 SMR 硬盘存储历史版本数据集,释放 CMR 硬盘用于活跃项目。
  2. 日志与审计记录:监管要求保留 3-7 年的系统日志,但实际查询频率极低(年访问次数 < 10)。SMR 硬盘的低成本(约 $0.012/GB)显著降低合规成本。
  3. 备份与灾难恢复:备份数据的典型访问模式为 "一次写入,极少读取",完全契合 SMR 的顺序写入优化特性。

避免使用 SMR 的场景:

  • 数据库事务日志(需要高频随机写入)
  • 实时视频监控(连续写入流与随机查询并存)
  • 虚拟机镜像存储(克隆与快照操作涉及大量元数据更新)

部署 SMR 硬盘时,建议配置独立的写入缓冲区(采用 NVMe SSD 作为缓存层,容量为 SMR 硬盘的 5-10%),将小块随机写入先汇聚至缓存,再批量顺序刷入 SMR 盘,可将整体写入性能提升 3-5 倍。

供应链应对:长约锁定与备选方案

长期采购协议的谈判要点

面对 52 周交期,大型云厂商已与 HDD 厂商签订覆盖至 2027 年上半年的长期协议(LTAs)或采购订单(POs),为行业需求提供 18 个月的可见性。中小型数据中心若缺乏议价能力,可采用联合采购模式:由行业协会或第三方机构牵头,聚合多家企业需求,以批量订单换取优先交付权与价格折扣。

长约谈判的关键条款包括:

  1. 弹性容量条款:约定 ±15% 的订单调整空间,避免需求变化导致的违约风险或库存积压。
  2. 价格锁定机制:锁定基准价格的同时,设定原材料(如氖气、稀土)价格波动的联动公式,避免单方承担供应链风险。
  3. 交付优先级:明确在产能受限时,优先保障核心业务(如 AI 推理服务)的交付,次要业务可延期 30-60 天。

QLC SSD 替代路径的成本控制

TrendForce 集邦咨询预计,大容量 QLC SSD 出货可能于 2026 年出现爆发性增长。虽然 QLC SSD 单价是 HDD 的两倍左右,但其能耗优势(节省约 30% 电力)可在 3-5 年生命周期内部分抵消成本差异。

具体计算模型:假设部署 1PB 存储,采用近线 HDD 初始投入约 $150K(按 $0.015/GB 计),年电费约 $45K(按 0.3 kW/TB、$0.12/kWh 计);采用 QLC SSD 初始投入约 $300K(按 $0.03/GB 计),年电费约 $31.5K。在 5 年周期内,HDD 总成本 = $150K + $225K = $375K,QLC SSD 总成本 = $300K + $157.5K = $457.5K,成本溢价约 22%。

若 AI 推理服务每年产生的额外电力成本超过 $16.5K(即总功耗超过 137.5 MWh),则 QLC SSD 的 TCO(总拥有成本)优势开始显现。建议针对高访问频率的温数据(如模型中间层特征缓存)优先采用 QLC SSD,将近线 HDD 专用于真正的冷数据归档。

监控与回滚策略

在存储架构调整过程中,必须建立实时监控体系以防止性能退化或成本失控:

  1. 存储层迁移延迟监控:设定阈值,当冷数据意外被频繁访问导致平均延迟超过 1000ms 时,自动触发临时提升至温数据层(SSD 缓存)。
  2. 成本异常告警:每周统计各存储层的单位成本($/GB/ 月),若 HDD 层成本因涨价超过 $0.025/GB(基准值的 1.5 倍),立即评估 SSD 替代方案。
  3. 供应链断供预案:维护至少 3 个月的 HDD 库存缓冲,并预先测试 QLC SSD 作为应急替代的兼容性(包括固件版本、RAID 控制器驱动等)。

回滚策略应包含明确的触发条件:若 SMR 硬盘的垃圾回收导致 I/O 抖动超过 5% 的时间窗口,或单次 GC 耗时超过 30 分钟影响业务 SLA,则暂停新数据写入 SMR,回退至 CMR 硬盘或 SSD。


资料来源

  1. TrendForce 集邦咨询《AI 创造的庞大数据量正冲击全球数据中心存储设施》研究报告
  2. 摩根士丹利《IT 硬件行业报告:硬盘驱动器行业长期走强周期分析》
查看归档