挪威2PB华为全闪存阵列支撑主权LLM：大规模AI训练存储架构的工程实践

挪威国家图书馆（Nasjonalbiblioteket）近期披露了其主权 AI 项目的存储基础设施细节：为训练一个理解挪威语的大语言模型，该机构部署了 2PB 华为 OceanStor Dorado 全闪存阵列作为数据管道的核心存储层。这一案例揭示了非英语国家构建本土 LLM 时面临的关键工程问题 —— 当训练数据规模达到数十 PB 级别时，如何从归档存储向计算集群高效输送数据，成为比算力本身更棘手的瓶颈。

主权 AI 的存储需求背景

挪威文化部委托国家图书馆开发本土语言 LLM，原因在于商业模型无法充分理解挪威的历史文献、地方方言与文化语境。该图书馆自 2005 年起 digitizing 全国出版物，积累了 20PB 独特数据（书籍、报纸、网页、音视频等），按 3-2-1 备份策略共占用 60PB 存储。与私营企业不同，图书馆通过与报社的协议获得了在受版权保护内容上进行模型训练的合法权限，正如其 IT 平台负责人 Marius Husnes 所言："没有私人公司拥有这样的数据资产。"

然而，60PB 的 "数字遗产" 大部分存储在面向持久性优化的磁盘 + 磁带归档系统中，这类存储设计目标是长期保存而非高频访问，读取延迟较高。当这些数据需要进入 AI 训练管道时，架构层面的矛盾便显现出来。

三层架构：从归档到超算的数据管道

挪威国家图书馆的 AI 基础设施采用典型的分层架构设计：

第一层：持久化归档层（60PB）—— 存放原始数字化资产，采用 3-2-1 策略确保数据耐久性，但 I/O 性能有限。

第二层：数据管道层（2PB 全闪存）—— 这是华为 OceanStor Dorado 阵列的核心部署区域。该层运行数据摄取、清洗、去重、格式规范化、验证与预处理流程，配备 Nvidia DGX H200 系统和 384 核 CPU 集群。全闪存阵列提供低延迟、高吞吐的并行 I/O 能力，支撑数据在管道各阶段的高速流转。

第三层：训练计算层（5.3PB）—— 挪威国家超算 Sigma2 的 Olivia 系统，采用 HPE Cray Supercomputing EX 架构，配备 448 块 GPU 和 64,512 个 CPU 核心，使用 Cray ClusterStor E1000 并行文件系统存储。预处理后的数据从管道层推送至此进行实际模型训练。

Husnes 在华为 ID Forum 2026 上指出："瓶颈不在算力，而在于数据质量、清洗和管道吞吐。" 这一观察道出了大规模 AI 项目的关键认知 —— 当 GPU 集群等待数据时，存储子系统的带宽与延迟直接决定资源利用率。

PB 级数据迁移的工程挑战

该项目面临的核心技术挑战在于弥合两种截然不同的存储系统特性：归档层优化的是耐久性与成本，AI 管道层追求的是吞吐与低延迟。当需要移动 PB 级数据集时，传统的文件拷贝或备份恢复机制无法满足训练时间窗口的要求。

挪威团队需要自行探索从归档系统向 AI 管道高效注入数据的方案。这涉及多个工程决策：数据筛选策略（并非所有 60PB 数据都参与训练）、增量同步机制、格式转换的并行化处理，以及网络带宽的预留与调度。Husnes 坦言，业界对 "从归档到 AI 数据管道的 PB 级数据迁移" 这一问题的讨论几乎空白，团队只能自行摸索实践。

全闪存阵列在 AI 场景的价值定位

华为 OceanStor Dorado 在该项目中扮演的角色值得关注。2PB 容量在 60PB 总数据量中仅占约 3%，却构成了整个 AI 工作负载的 "热数据层"。这种 "小容量高性能 + 大容量低成本" 的分层策略，正是当前 AI 存储架构的主流设计范式。

全闪存阵列在数据管道阶段的价值体现在：支撑多阶段 ETL 流程的随机 I/O 负载、为数据清洗和去重提供低延迟查询能力、以及作为超算训练前的缓冲层平滑数据供给。对于需要频繁迭代实验的 LLM 训练场景，快速的数据准备周期意味着更短的模型迭代周期。

可落地的架构设计清单

基于挪威国家图书馆的实践，面向大规模 AI 训练的存储架构可遵循以下设计要点：

存储分层策略

按访问频率将数据划分为冷 / 温 / 热三层，热层采用全闪存或 NVMe-oF 架构
归档层与 AI 管道层之间建立专用高速链路，避免与生产业务争抢带宽
评估数据本地化需求：是否需要在 GPU 集群附近部署近线缓存层

数据管道优化

预处理阶段采用并行化框架（如 Ray、Dask）充分利用存储 IOPS
建立数据血缘追踪，确保训练数据的可审计性与合规性
实施增量更新机制，避免全量数据重复传输

多系统协同

统一元数据管理，跨越归档、管道、超算三层维护一致的数据视图
建立跨系统的 SLA 定义，明确数据就绪时间窗口与训练任务调度策略
预留网络带宽与存储 IOPS 的突发缓冲，应对训练任务启动时的数据加载峰值

成本权衡

评估全闪存容量与 GPU 利用率的平衡：闪存不足导致 GPU 空闲的成本往往高于闪存投资
考虑采用 QLC SSD 或分级闪存方案降低每 GB 成本
建立数据生命周期管理，自动将完成训练的中间数据迁移至低成本层

主权 AI 的存储启示

挪威的实践为其他非英语国家提供了可参照的路径。正如 Husnes 所言："挪威是一个小国，正在解决每个非英语国家都将面临的问题 —— 如何构建反映本国语言、文化与历史的 AI。" 在这一过程中，存储架构不仅是技术问题，更是主权数据治理的基础设施。

对于计划部署类似架构的机构，关键认知在于：AI 训练的效率不仅取决于 GPU 数量，更取决于数据能否以足够的速度和可靠性流向计算资源。PB 级全闪存阵列在整体存储中可能只占一小部分，却决定了整个 AI 管道的运转效率。

参考来源

Chris Mellor, "Norway's 2 petabytes of Huawei flash storage and LLM training," Blocks and Files, May 22, 2026
Marius Husnes presentation at Huawei ID Forum 2026, Paris

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。