Amazon扁平数据中心网络：从Clos到RNG的架构演进与工程权衡

引言：传统分层网络的瓶颈

数据中心网络架构的演进始终围绕一个核心矛盾展开：如何在保证可扩展性的前提下，降低拓扑复杂度与运维成本。过去二十年，Clos 网络（又称 fat-tree）一直是超大规模数据中心的主流选择。这种分层树状结构通过多级交换机互联，为东西向流量提供了确定性路径，但也带来了固有的效率损失 —— 上层节点容易成为瓶颈，单点故障可能切断整片区域，且冗余的交换层级推高了设备与能耗成本。

AWS 在 2024 年底启动了一项激进的架构转型：以扁平化的 Resilient Network Graphs（RNG）拓扑取代传统的 Clos 设计。这一架构已在都柏林等地的数据中心投入生产，并于 2026 年 4 月成为全球新建数据中心的默认配置。根据 AWS 公布的数据，RNG 网络相比同等规模的 fat-tree 可减少 69% 的路由器数量，吞吐量提升 33%，网络设备功耗预计降低 40%。

核心设计：RNG 架构的三层技术栈

准随机拓扑（Quasi-Random Topology）

数学研究表明，随机拓扑在理论上是最优的路由结构 —— 每个路由器随机连接若干其他节点，可在任意两点间提供大量独立路径，且不存在单点过载。然而，纯随机拓扑在实际部署中面临两大障碍：路由计算需要远超商用路由器硬件能力的内存资源（通常需要 20-80 倍的内存开销），以及跨机房随机布线带来的工程噩梦。

AWS 的解决方案是 "准随机" 拓扑：在保持整体随机性的同时，引入确定性约束。具体而言，网络被划分为若干区域，区域内的连接遵循固定模式，区域间的连接则保持随机。这种折中既保留了随机拓扑的路径多样性优势，又将路由复杂度控制在可实现的范围内。

ShuffleBox：无源光组件的布线革命

扁平网络的最大工程障碍在于物理布线。如果每个路由器都需要与数百米外的其他路由器建立随机连接，线缆管理将迅速失控。

ShuffleBox 是一种无源光设备，外形类似交换机，但内部没有有源电子元件。它在一侧提供连接路由器的端口，另一侧则与其他 ShuffleBox 互联。关键创新在于内部线缆的 "洗牌" 模式：通过预先设计的线缆排列，ShuffleBox 之间的连接在逻辑上呈现准随机拓扑，而在物理上则保持局部化布线。当新服务器机架接入时，技术人员只需将其路由器插入本地 ShuffleBox 的空闲端口，无需改动其他区域的布线。这使得扁平网络的物理部署复杂度与 fat-tree 相当。

Spraypoint 路由算法

在准随机拓扑中，传统基于分层结构的路由算法不再适用。AWS 开发了 Spraypoint 算法，其核心思想是 "喷洒 + 引导"：源路由器首先将流量 "喷洒" 到所有邻居节点，然后利用经典的短路径算法将数据包路由至目标路由器周围的 "航点"（waypoints），最后由航点将流量送达目的地。

航点的设计避免了流量在目标附近拥塞。算法为每个目标路由器创建多层 "环" 结构，流量从外层环逐步向内层环汇聚。相比标准短路径路由，Spraypoint 提供的独立路径数量几乎翻倍，显著提升了网络对拥塞和故障的弹性。

工程权衡：收益与代价的量化分析

可验证的收益

AWS 在生产环境中验证了 RNG 网络的性能承诺。端到端基准测试显示，在多路径传输工作负载和延迟敏感的存储操作中，扁平网络的性能与 fat-tree 持平，且无需修改上层应用。69% 的路由器削减直接转化为 CAPEX 和 OPEX 的降低 —— 更少的设备意味着更少的电力消耗、冷却需求和运维人力。

隐性成本与风险

然而，架构转型并非没有代价。首先，准随机拓扑的故障定位复杂度显著高于分层结构。在 Clos 网络中，故障的层级定位相对直观；而在 RNG 中，任意两个节点间存在大量等价路径，问题根因分析需要更精细的监控和诊断工具。

其次，RNG 架构对 ShuffleBox 硬件存在依赖。这种定制无源光设备成为网络的关键路径组件，其供应链稳定性、故障率和替换流程都需要纳入运维考量。

最后，路由算法的复杂性转移到了软件层。Spraypoint 虽然在内存占用上优于纯随机拓扑的路由方案，但相比基于简单哈希的 fat-tree 路由，仍增加了计算开销和调试难度。

可落地的评估参数

对于考虑网络架构升级的基础设施团队，以下指标可作为评估框架：

拓扑效率指标

每服务器所需路由器数量（AWS RNG：约为 fat-tree 的 31%）
平均路径长度与最坏情况路径长度
单点故障影响范围（理想情况下应与故障节点容量成线性比例）

路由可行性指标

路由表内存需求（ commodity 路由器能否支持）
收敛时间（拓扑变化后路由重新计算的速度）
多路径利用率（实际可用路径数与理论最大值的比率）

运维可操作性指标

新机架接入所需人工工时
跨机房线缆数量与复杂度
故障定位平均时间（MTTR 相关）

成本指标

设备 CAPEX（路由器、光模块、ShuffleBox 等定制组件）
能耗与冷却成本
运维人力成本（监控、故障处理、扩容）

结论与启示

AWS 的 RNG 架构代表了数据中心网络设计的一次范式转移：从分层抽象回归扁平互联，通过数学优化与工程创新的结合，在保持可运维性的前提下逼近理论最优。这一案例揭示了一个更广泛的工程原则 —— 当硬件成本（路由器、交换机）成为主要约束时，投资于算法创新（Spraypoint）和物理层创新（ShuffleBox）可以带来显著的总体拥有成本优化。

对于非超大规模的基础设施团队，直接复制 RNG 架构可能并不现实 ——ShuffleBox 的定制开发和 Spraypoint 算法的调优都需要相当的工程投入。但这一案例提供了重要的决策参考：在评估网络架构时，应将 "可扩展性" 与 "效率" 置于同等优先级，并愿意为突破传统拓扑的约束而探索新的软硬件协同设计。

参考来源

Amazon Science Blog: "How flat is replacing fat in AWS data center networks" (2026)
arXiv 论文: "Resilient Network Graphs: Scalable Flat Datacenter Networks" (2026)

systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。