Hotdry.

Article

Amazon扁平数据中心网络:从Clos到RNG的架构演进与工程权衡

解析AWS Resilient Network Graphs架构如何通过准随机拓扑、ShuffleBox无源光组件和Spraypoint路由算法,实现比传统Clos网络减少69%路由器、提升33%吞吐量的工程突破。

2026-06-10systems

引言:传统分层网络的瓶颈

数据中心网络架构的演进始终围绕一个核心矛盾展开:如何在保证可扩展性的前提下,降低拓扑复杂度与运维成本。过去二十年,Clos 网络(又称 fat-tree)一直是超大规模数据中心的主流选择。这种分层树状结构通过多级交换机互联,为东西向流量提供了确定性路径,但也带来了固有的效率损失 —— 上层节点容易成为瓶颈,单点故障可能切断整片区域,且冗余的交换层级推高了设备与能耗成本。

AWS 在 2024 年底启动了一项激进的架构转型:以扁平化的 Resilient Network Graphs(RNG)拓扑取代传统的 Clos 设计。这一架构已在都柏林等地的数据中心投入生产,并于 2026 年 4 月成为全球新建数据中心的默认配置。根据 AWS 公布的数据,RNG 网络相比同等规模的 fat-tree 可减少 69% 的路由器数量,吞吐量提升 33%,网络设备功耗预计降低 40%。

核心设计:RNG 架构的三层技术栈

准随机拓扑(Quasi-Random Topology)

数学研究表明,随机拓扑在理论上是最优的路由结构 —— 每个路由器随机连接若干其他节点,可在任意两点间提供大量独立路径,且不存在单点过载。然而,纯随机拓扑在实际部署中面临两大障碍:路由计算需要远超商用路由器硬件能力的内存资源(通常需要 20-80 倍的内存开销),以及跨机房随机布线带来的工程噩梦。

AWS 的解决方案是 "准随机" 拓扑:在保持整体随机性的同时,引入确定性约束。具体而言,网络被划分为若干区域,区域内的连接遵循固定模式,区域间的连接则保持随机。这种折中既保留了随机拓扑的路径多样性优势,又将路由复杂度控制在可实现的范围内。

ShuffleBox:无源光组件的布线革命

扁平网络的最大工程障碍在于物理布线。如果每个路由器都需要与数百米外的其他路由器建立随机连接,线缆管理将迅速失控。

ShuffleBox 是一种无源光设备,外形类似交换机,但内部没有有源电子元件。它在一侧提供连接路由器的端口,另一侧则与其他 ShuffleBox 互联。关键创新在于内部线缆的 "洗牌" 模式:通过预先设计的线缆排列,ShuffleBox 之间的连接在逻辑上呈现准随机拓扑,而在物理上则保持局部化布线。当新服务器机架接入时,技术人员只需将其路由器插入本地 ShuffleBox 的空闲端口,无需改动其他区域的布线。这使得扁平网络的物理部署复杂度与 fat-tree 相当。

Spraypoint 路由算法

在准随机拓扑中,传统基于分层结构的路由算法不再适用。AWS 开发了 Spraypoint 算法,其核心思想是 "喷洒 + 引导":源路由器首先将流量 "喷洒" 到所有邻居节点,然后利用经典的短路径算法将数据包路由至目标路由器周围的 "航点"(waypoints),最后由航点将流量送达目的地。

航点的设计避免了流量在目标附近拥塞。算法为每个目标路由器创建多层 "环" 结构,流量从外层环逐步向内层环汇聚。相比标准短路径路由,Spraypoint 提供的独立路径数量几乎翻倍,显著提升了网络对拥塞和故障的弹性。

工程权衡:收益与代价的量化分析

可验证的收益

AWS 在生产环境中验证了 RNG 网络的性能承诺。端到端基准测试显示,在多路径传输工作负载和延迟敏感的存储操作中,扁平网络的性能与 fat-tree 持平,且无需修改上层应用。69% 的路由器削减直接转化为 CAPEX 和 OPEX 的降低 —— 更少的设备意味着更少的电力消耗、冷却需求和运维人力。

隐性成本与风险

然而,架构转型并非没有代价。首先,准随机拓扑的故障定位复杂度显著高于分层结构。在 Clos 网络中,故障的层级定位相对直观;而在 RNG 中,任意两个节点间存在大量等价路径,问题根因分析需要更精细的监控和诊断工具。

其次,RNG 架构对 ShuffleBox 硬件存在依赖。这种定制无源光设备成为网络的关键路径组件,其供应链稳定性、故障率和替换流程都需要纳入运维考量。

最后,路由算法的复杂性转移到了软件层。Spraypoint 虽然在内存占用上优于纯随机拓扑的路由方案,但相比基于简单哈希的 fat-tree 路由,仍增加了计算开销和调试难度。

可落地的评估参数

对于考虑网络架构升级的基础设施团队,以下指标可作为评估框架:

拓扑效率指标

  • 每服务器所需路由器数量(AWS RNG:约为 fat-tree 的 31%)
  • 平均路径长度与最坏情况路径长度
  • 单点故障影响范围(理想情况下应与故障节点容量成线性比例)

路由可行性指标

  • 路由表内存需求( commodity 路由器能否支持)
  • 收敛时间(拓扑变化后路由重新计算的速度)
  • 多路径利用率(实际可用路径数与理论最大值的比率)

运维可操作性指标

  • 新机架接入所需人工工时
  • 跨机房线缆数量与复杂度
  • 故障定位平均时间(MTTR 相关)

成本指标

  • 设备 CAPEX(路由器、光模块、ShuffleBox 等定制组件)
  • 能耗与冷却成本
  • 运维人力成本(监控、故障处理、扩容)

结论与启示

AWS 的 RNG 架构代表了数据中心网络设计的一次范式转移:从分层抽象回归扁平互联,通过数学优化与工程创新的结合,在保持可运维性的前提下逼近理论最优。这一案例揭示了一个更广泛的工程原则 —— 当硬件成本(路由器、交换机)成为主要约束时,投资于算法创新(Spraypoint)和物理层创新(ShuffleBox)可以带来显著的总体拥有成本优化。

对于非超大规模的基础设施团队,直接复制 RNG 架构可能并不现实 ——ShuffleBox 的定制开发和 Spraypoint 算法的调优都需要相当的工程投入。但这一案例提供了重要的决策参考:在评估网络架构时,应将 "可扩展性" 与 "效率" 置于同等优先级,并愿意为突破传统拓扑的约束而探索新的软硬件协同设计。


参考来源

  • Amazon Science Blog: "How flat is replacing fat in AWS data center networks" (2026)
  • arXiv 论文: "Resilient Network Graphs: Scalable Flat Datacenter Networks" (2026)

systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com