Kioxia 与 Dell 联合发布的 10 PB 级全闪存服务器,标志着企业存储密度的实质性跨越。这一成果并非单纯依赖 NAND 裸片堆叠层数的提升,而是在机械设计、控制器架构与网络拓扑三个层面协同优化的系统工程。本 文聚焦 2RU 高度空间内实现近乎 10 PB 容量的关键技术路径,为规划 AI 基础设施或超大规模数据湖的工程师提供可落地的参数参考。
1. 密度实现的机械基础:E3.L EDSFF form factor
这场密度革命的核心载体是 Kioxia LC9 系列 SSD,采用 EDSFF(Enterprise & Data Center SSD Form Factor)标准中的 E3.L 规格。与传统 2.5 英寸 U.2 驱动器相比,E3.L 提供了显著更高的空间利用率:更长的 PCB 面积支持更多 NAND 封装、更宽的散热通道设计,以及双端口 NVMe 直连拓扑。
单块 LC9 盘的标称容量为 245.76 TB—— 这一数字通过 16 通道 QLC NAND 实现,单 die 容量达到 512 Gb 级别。在 Dell PowerEdge R7725xd 中,40 块 LC9 以 NVMemr 协议直连 AMD EPYC 9005 处理器,构成 9.8 PB(约 10 PB 实际可用)物理容量。要在 2 RU 机框内安置 40 颗高功耗 NVMe 盘,散热设计是关键约束:每盘持续功耗约 10–12 W,系统总热负荷超过 400 W,需要从前向后贯穿式强制风冷配合背板温度传感器的动态调控。
工程参数建议:在 2RU 系统部署中,前置进气温度建议控制在 35°C 以下,进风速率为 400–600 LFM(线性英尺 / 分钟),配合智能风扇转速曲线(依据 NVMe 温度阈值动态调节 30%–100% 转速),可有效避免热节流导致的性能降级。若机房热负荷受限,应优先保障靠后位置的 SSD 进风温度 —— 后置 SSD 通常面临更高的环境温度,是整个系统的热瓶颈。
2. FTL 映射层在 256 TB 级别 QLC 的工程挑战
FTL(Flash Translation Layer)负责将主机侧的逻辑块地址(LBA)映射为 NAND 物理页,其设计质量直接决定 SSD 的性能、寿命与可靠性。在 245 TB 级别的 QLC SSD 上,FTL 面临三个核心挑战:
映射粒度与内存开销:传统 SSD 采用 4 KB 粒度的页级映射(Page Mapping),每 GB 容量约需 16 MB 元数据。以 245 TB SSD 为例,仅映射表即需约 4 GB DRAM。现代控制器通常采用两级映射:粗粒度的块映射 + 细粒度的页映射,以降低元数据内存占用。这意味着在高密度 QLC 盘中,大块顺序写入的性能优于随机小 IO,后者的映射更新开销会显著增加写放大。
写放大(Write Amplification Factor, WAF)控制:QLC NAND 的擦写次数(PE Cycle)仅约 1000 次,而高密度盘中每个物理块包含更多 die 并联,垃圾回收(GC)期间的数据迁移量更大。实测数据显示,在混合读写工作负载下,256 TB QLC 盘的 WAF 通常在 1.8–3.5 倍之间,远高于高性能 SLC/MLC 盘的 1.0–1.5 倍。
纠删码布局与可靠性权衡:企业级 256 TB QLC SSD 内部通常采用内联 LDPC 纠错 + 奇偶校验架构。以 Kioxia LC9 为例,其控制器在每个 NAND die 内维护本地奇偶校验页,并在 die 间实现分布式 XOR 校验。这种设计在单 die 故障时可通过重构恢复数据,但在大容量 QLC 盘中,die 重构时间随容量线性增长,重构窗口期间剩余 die 的 PE 消耗加速。
参数调优建议:对于以顺序写入为主的 AI 数据湖场景,建议将文件系统块大小对齐至 1 MB 以上,匹配 QLC NAND 的编程页大小,减少部分写入导致的内部碎片。监控工具应重点跟踪 WAF 与 OCW(Ordered Write Count)指标;若 WAF 持续高于 2.5 倍,应评估是否切换至 ZNS(Zoned Namespace)接口模式,通过主机侧 - zone 语义减少控制器端 GC 开销。
3. NVMe-oF 网络密度:400 Gbps 多端口拓扑
Dell PowerEdge R7725xd 支持最多 5 颗 400 Gbps NIC,这一网络配置直接决定系统的数据出口能力。40 块 245 TB NVMe SSD 的聚合带宽在 PCI Express 5.0 x4 链接下可达约 128 GB/s(理论峰值),但实际网络出口受限于 NIC 总带宽 ——5 × 400 Gbps = 2 Tbps = 250 GB/s,已超过 SSD 聚合带宽上限,意味着网络层不会成为瓶颈。
这一拓扑设计的目标场景是大规模数据并行访问:AI 训练数据集预热、大规模日志流式写入、或超大规模备份恢复。在 NVMe-oF(NVMe over Fabrics)部署中,RDMA(RoCEv2 或 iWARP)是降低延迟的关键技术路径。建议配置如下:
网络参数基线:MTU 设为 4096 字节以减少报文分片开销;启用 NVIDIA DOCA 或 Intel RDMA CORE 的零拷贝路径;QoS 队列优先级建议将元数据流量(映射查询)与 bulk 数据流分离,避免元数据请求在拥塞期间被 bulk 流饿死。
可用容量估算:在 RAID / 纠删码冗余开销后,10 PB 物理容量的可用容量约 7.2–8.0 PB(取决于所选数据保护级别)。若采用双重奇偶校验(RAID 6 等效),可用率约 72%–80%。机架级部署 20 台该规格服务器可提供约 144–160 PB 可用容量,足以支撑中型超算中心的存储需求。
4. 部署场景与 TCO 对比
从成本维度看,256 TB 级 QLC SSD 的单 TB 成本已接近甚至低于同等容量的 HDD 阵列(考虑功耗、散热与空间占用),同时提供 NVMe 级别的低延迟。下表为典型部署参数对比:
| 参数 | 10 PB 全闪 2RU | 传统 4OU PB 级 HDD 方案 |
|---|---|---|
| 机架空间 | 2 RU | 42 RU |
| 功耗 | ~8 kW(满载) | ~15 kW |
| 延迟 | < 100 μs | 3–8 ms |
| 最大网络出口 | 2 Tbps | 400 Gbps |
| 适用场景 | AI 推理、数据湖 | 冷存储、归档 |
在选择数据保护策略时,强烈建议利用分布式存储软件的节点级纠删码(而非依赖 SSD 内部奇偶校验),以获得更优的跨节点恢复灵活性。以 Ceph、MinIO 或 VAST Data FS 为例,建议配置 6+2 或 8+2 纠删码条带,在保持 75%–80% 可用容量的同时,将单节点故障恢复时间控制在 4 小时以内。
5. 实施检查清单
在规划基于 Kioxia LC9 或同类 256 TB QLC SSD 的存储系统时,建议按以下维度进行验证:
- 散热验证:测量进风口温度分布,确保最热路径不超过 35°C;验证风扇转速响应曲线是否覆盖 30%–100% 区间。
- 固件版本:确认 SSD 固件支持 NVMe 1.4b 及以上,启用命名空间优选与灵活数据放置(FDP)扩展。
- 主机端优化:文件系统块大小 ≥ 1 MB;启用块对齐的顺序写入,避免小于 64 KB 的随机写。
- 网络配置:MTU 4096、RDMA 启用、QoS 分离;监控端到端延迟与丢包率(目标:RTT < 200 μs,丢包率 < 0.001%)。
- 容量规划:以 75% 可用率计算有效容量,预留 5% 超额配置用于磨损均衡与重构缓冲。
参考资料
- Kioxia LC9 245.76 TB QLC SSD 技术规格与 E3.L EDSFF 设计文档(Blocks and Files, 2026-05-14)
- 企业级 QLC SSD 写放大控制与 FTL 优化白皮书(Silicon Motion, Future Memory Storage Conference 2024)
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。