Internet Archive 作为全球最大的数字图书馆,承载着超过 1500 亿份网页快照、数百万册数字化图书、音频与视频资料。截至 2021 年 12 月,其存储总量已突破 212 PB,拥有 745 个存储节点和约 28000 块运行中的硬盘。面对如此庞大的数据规模,该组织并未选择采购商业存储方案,而是自主研发了名为 PetaBox 的定制化存储系统。这一决策背后蕴含着对成本控制、运维效率和数据持久性的深刻考量。本文将从硬件架构、容错机制、能耗管理和多数据中心部署四个维度,解析这一大规模分布式存储系统的工程实现。
PetaBox 硬件演进与设计哲学
PetaBox 的诞生源于 2004 年 Internet Archive 面临的存储困境。彼时,商业存储系统的价格高昂,难以支撑其指数级增长的数据采集需求。时任技术总监 Brewster Kahle 决定自行设计一套高密度、低成本、易于维护的存储解决方案。该项目由 Internet Archive 工程师与 C. R. Saikley 合作完成,并于 2006 年将生产业务剥离给 Capricorn Technologies 进行商业化推广。
第一代 PetaBox 机架于 2004 年 6 月投入使用,单机架容量为 100 TB,采用 800 台低成本 PC 节点进行分布式计算与存储。这一设计理念强调「本地计算」能力,即每个存储节点不仅承担数据存放职责,还能执行数据校验、转码和索引生成等任务,避免了数据在网络中频繁流动带来的带宽压力。
2010 年发布的第四代 PetaBox 在密度和性能上实现了显著跃升。该代产品采用 4U 机架高度,内部容纳 240 块 2 TB 硬盘,单单元原始容量达到 480 TB。每个节点配备双路 4 核 Xeon 处理器和 12 GB 内存,运行 Ubuntu 操作系统。网络层面采用双端口绑定 1 Gbit 以太网接口,汇聚后提供 2 Gbit 带宽,机架顶部交换机通过 10 Gbit 上行链路接入核心网络。操作系统安装在两块镜像硬盘上,与数据存储完全隔离,并通过 IPMI 接口实现远程带外管理。
随着单盘容量从 2 TB 提升至 22 TB,当代 PetaBox 机架的存储密度已达到 1.4 PB。值得注意的是,这种密度提升主要依赖于更大容量的机械硬盘,而非 SSD—— 这一选择基于冷数据存储场景下每 GB 成本的考量。机械硬盘虽然性能较低,但其单位容量价格优势明显,且在长期静默存储场景下的数据保持能力已得到充分验证。
跨地域双副本镜像与 JBOD 架构
传统企业级存储系统普遍采用 RAID 5 或 RAID 6 等纠删码技术来保障数据安全,但 Internet Archive 选择了截然不同的路径:完全摒弃 RAID,转而采用 JBOD(Just a Bunch Of Disks)配置配合跨节点、跨机架、跨数据中心的双副本镜像策略。
这一设计决策背后有着清晰的工程逻辑。RAID 5 在大规模存储场景下存在「重建时间过长」的致命缺陷 —— 当一块 22 TB 硬盘故障时,理论上需要数天时间才能完成数据重建。在此期间,同一 RAID 组内的其他硬盘若发生故障,将导致整个卷不可恢复。而 JBOD 架构下,单块硬盘的故障仅影响该盘上的数据,集群中的其他节点可继续正常服务。
双副本镜像的策略是:每个数据项被写入两块物理隔离的硬盘,这两块硬盘通常位于不同数据中心的同一槽位。例如,位于数据中心 A 的第 5 台存储节点第 7 槽位的硬盘,会与数据中心 B 的第 5 台存储节点第 7 槽位硬盘保持内容完全一致。这种「槽位对应」的设计极大简化了故障替换流程 —— 运维人员无需关注数据分布逻辑,只需将新硬盘插入对应槽位,系统便会自动触发镜像同步。
根据官方披露的数据,Internet Archive 目前运行着约 20 个数据节点组成的集群,每个节点包含 36 块数据盘和 2 块系统盘。10 台节点组成一个机架,合计 360 块数据盘。集群间通过高速以太网互联,形成一个统一的存储资源池。
旧金山数据中心的零空调设计
Internet Archive 的主数据中心位于加州旧金山 Funston 大街,这座建筑物的存储系统设计堪称能源效率的典范。由于旧金山属于典型的海洋性气候,全年气温温和,该数据中心充分利用这一地理优势,实现了完全依赖自然空气冷却的零空调运行模式。
传统数据中心的 PUE(Power Usage Effectiveness)值通常在 1.5 至 2.0 之间,即 IT 设备每消耗 1 瓦电力,配套设施需要额外消耗 0.5 至 1 瓦电力,其中制冷系统占据主要比例。而 PetaBox 系统被设计为在较高环境温度下稳定运行,配套的废热回收系统将存储设备产生的热量收集起来,在冬季输送至办公区域供暖。这种「热能循环」策略使该数据中心的综合 PUE 大幅降低,制冷能耗趋近于零。
从运维角度看,这种设计还带来了显著的成本优势。无需配置精密空调系统意味着资本支出的大幅削减,同时消除了空调故障这一单点风险。存储设备在较高温度下的长期稳定性已得到充分验证 —— 机械硬盘的额定工作温度上限通常为 55 至 60 摄氏度,旧金山夏季最高气温鲜有超过 25 度,因此系统拥有充足的安全裕量。
多数据中心与 Vault 数字保存服务
212 PB 的存储总量分布在四个物理数据中心内,这种地理分散策略是应对区域性灾难(如地震、火灾或区域性电网故障)的核心防线。每个数据中心承载完整的数据副本,任何单点故障均不会导致数据丢失。
Internet Archive 还将其存储基础设施抽象为 Vault 数字保存服务,对外提供给其他图书馆和文化机构使用。Vault 的基础服务条款要求为每份数据保留至少三份副本,分布在至少两个物理地理位置。对于有合规要求的机构,可额外在美国、加拿大和欧洲指定区域存储副本。
Vault 内置的 Fixity 校验机制定期计算存储对象的哈希值,并与数据库中的历史记录比对,检测潜在的位衰减或存储介质老化问题。一旦发现不一致,系统将自动从副本中恢复正确数据。这种「写一次、读多次、永远校验」的策略确保了数字遗产的长期完整性。
在冷热数据分层方面,Vault 允许机构根据访问频率配置存储策略。高频访问数据可放置于性能优先的存储层,而历史归档数据则迁移至成本更低的容量型存储层。由于 Internet Archive 自身的主要工作负载是网页快照的顺序写入和 infrequent 读取,其存储架构天然适配这种「写入一次、极少读取」的数据生命周期模式。
工程实践的参数启示
从 PetaBox 的工程实践中,可以提炼出若干适用于大规模存储系统设计的经验参数。首先,跨数据中心双副本镜像的最小部署单元应为两个物理隔离的机房,单机房内至少保留一份完整副本。其次,JBOD 架构配合副本重建策略可将单盘故障的恢复窗口从 RAID 的数天压缩至数小时,具体时间取决于集群规模和链路带宽。第三,在气候适宜地区,充分利用自然冷却可将 PUE 压低至 1.1 以下,显著降低运营成本。第四,冷数据存储应优先选择高容量机械硬盘而非 SSD,单位容量成本差异可达 5 至 10 倍。
此外,PetaBox 的运维模型设定了「一位系统管理员管理一 PB 存储」的目标。这一比例的实现依赖于高度自动化的健康监控、故障告警和远程带外管理能力。对于计划构建类似规模存储系统的团队而言,提前投资监控告警平台和远程运维基础设施,将是达成高运维效率的关键前置条件。
参考资料
- DSHR's Blog. (2026). Internet Archive's Storage. https://blog.dshr.org/2026/01/internet-archives-storage.html
- Internet Archive. (2010). The Fourth Generation Petabox. https://blog.archive.org/2010/07/27/the-fourth-generation-petabox
- Wikipedia. (2025). PetaBox. https://en.wikipedia.org/wiki/PetaBox
- Internet Archive Web Services. (2025). Vault. https://webservices.archive.org/pages/vault/