Hotdry.
systems

构建25 Gbit/s工作站:SCION协会的硬件优化与AF_XDP性能调优实践

深入解析SCION协会构建25 Gbit/s工作站的硬件选型策略、PCIe通道分配陷阱、散热设计挑战与AF_XDP零拷贝性能调优的工程实践。

SCION 协议背景与性能需求

SCION(Scalability, Control, and Isolation On Next-Generation Networks)作为 BGP 协议的替代方案,正在成为下一代互联网路由架构的重要候选。瑞士国家银行自 2024 年起已将其银行基础设施迁移至基于 SCION 的 SSFN 网络,这标志着关键基础设施对确定性路由和安全性的迫切需求。

然而,开源 SCION 实现(SCION OSS)在数据平面性能上仍面临瓶颈。截至 2026 年初,其边界路由器性能上限约为 400k-500k 包 / 秒,相当于 5-6 Gbit/s 的吞吐量。相比之下,现代互联网交换点的商用路由器如 Juniper MX10008 平台支持高达 76.8 Tbps 的总带宽容量,单个数据流即可达到 400-500 Gbit/s 的线速转发。

这种性能差距源于 Linux 网络栈的传统处理路径。正如 SCION 协会工程师所描述的,数据包穿越网络栈的过程如同旅客通过机场安检:从 NIC 接收队列进入,经过缓冲区分配、包过滤、路由策略检查、队列调度,最终复制到用户空间。每个环节都引入延迟和 CPU 开销,限制了单线程处理的吞吐量。

硬件选型策略:工程化的组件选择

CPU 与 PCIe 通道规划

构建 25 Gbit/s 工作站的核心挑战在于 PCIe 通道的充足供应。每个 25 Gbit/s 端口理论上需要约 4 条 PCIe Gen3 通道或 2 条 PCIe Gen4 通道。考虑到 3 个双端口 NIC(共 6 个 25G 端口)以及未来升级到 100 Gbit/s 的扩展需求,系统需要至少 64 条 PCIe Gen5 通道。

SCION 协会最终选择了 Intel Xeon W5-2455X 处理器,这款 12 核 CPU 提供 64 条 PCIe Gen5 通道,在预算(CHF 1105)与性能需求间取得了平衡。选择 Intel 平台而非 AMD 的主要考量是 Intel Data Direct I/O(DDIO)技术,该技术允许 NIC 通过 DMA 直接将数据包写入 CPU 的 L3 缓存,而非主内存,显著降低了内存访问延迟。

主板选择:扩展性与兼容性

主板选择集中在两款支持 7 个全尺寸 PCIe Gen5 插槽的工作站级产品:Gigabyte MS03-CE0 和 ASUS Pro WS W790E-SAGE SE。最终选择 ASUS SAGE SE 的主要原因是供货及时性,该主板提供了远程管理功能(基于 ASPEED AST2600 BMC)和充足的扩展空间。

网络接口卡:从 DPU 到 NIC 模式的转换

Mellanox NVIDIA BlueField-2 智能 NIC 的选择颇具战略眼光。这些卡片本质上是完整的 DPU(数据处理器单元),配备 8 核 ARM Cortex-A72 处理器和 16GB DDR4 ECC 内存。在 eBay 上以每张 115 欧元(不含增值税)的价格购得 3 张,总成本控制在合理范围内。

BlueField-2 的独特之处在于其双模式操作:DPU 模式和 NIC 模式。在 DPU 模式下,数据包处理通过板载 ARM 核心和嵌入式交换机进行,增加了不必要的复杂性和延迟。通过切换到 NIC 模式,卡片被转换为传统的高性能 NIC,从数据路径中移除 DPU 处理层,为 AF_XDP 零拷贝操作提供了理想的基础。

PCIe 通道分配与系统配置的陷阱

硬件兼容性的隐藏限制

构建过程中最耗时的挑战来自硬件兼容性的细微限制。ASUS W790E-SAGE SE 主板与 Intel Xeon W-2400 系列 CPU 的组合存在多个未在购买前充分研究的限制:

  1. PCIe 插槽禁用:当使用 W-2400 系列 CPU 时,PCIe 插槽 2、4、6 被自动禁用。工程师最初将显卡安装在插槽 2,导致系统无法正常显示输出。

  2. M.2 插槽限制:M.2_1 和 M.2_2 插槽在 W-2400 系列 CPU 下同样被禁用。将 SSD 安装在这些插槽会导致启动时无法识别存储设备。

  3. 内存插槽配置:主板手册明确说明 W-2400 系列 CPU 不支持 DIMM_C1、DIMM_D1、DIMM_G1 和 DIMM_H1 内存插槽,错误的安装会导致系统不稳定。

这些限制突显了工作站级硬件配置中详细阅读技术文档的重要性。每个看似微小的疏忽都可能导致数小时的故障排查时间浪费。

PCIe 通道分配的实际考量

每个 BlueField-2 NIC 需要 8 条 PCIe Gen4 通道(尽管安装在 Gen5 插槽中)。3 张 NIC 共需 24 条通道,而 W5-2455X 提供的 64 条 Gen5 通道为未来升级留下了充足空间。这种前瞻性设计允许系统在未来更换为 100 Gbit/s NIC 时无需更换整个平台。

散热设计:被动散热 NIC 的办公室适应性挑战

热管理难题

BlueField-2 NIC 的设计初衷是服务器机架环境,依赖高转速、高压力的强制气流进行冷却。这些卡片仅配备小型薄型散热片,在典型工作负载下温度可迅速升至危险水平。

在办公室环境中,噪声限制成为硬性约束。系统需要在保持可接受噪声水平(30-50% 风扇转速下几乎无声)的同时,将 NIC 温度维持在 50-60°C 的安全范围内。

定制化散热方案

经过广泛调研,团队选择了 Phanteks Enthoo Pro II 服务器版机箱,该机箱提供特殊的支架系统,允许在 NIC 附近安装高静压风扇。最终散热配置包括:

  • 6 个 Noctua NF-A14 PWM(140mm)风扇用于整体气流
  • 3 个 Noctua NF-A12x25 G2 PWM(120mm)风扇专门针对 NIC 散热
  • 精心设计的气流路径:前部进风,直接吹向 NIC 散热片,后部和顶部出风

这种配置在 30-50% 风扇转速下实现了 NIC 温度 57-62°C 的稳定运行,同时保持了办公室可接受的噪声水平。温度监控显示,即使在最高负载下,NIC 温度也远低于 105°C 的临界阈值。

AF_XDP 性能调优实践

零拷贝模式的关键作用

AF_XDP(Address Family - eXpress Data Path)是 Linux 内核提供的高性能数据包 I/O 机制,通过共享内存环在 NIC 驱动和用户空间之间实现零拷贝数据传输。在XDP_ZEROCOPY模式下,NIC DMA 引擎直接将数据包写入用户空间预分配的 UMEM(用户内存)区域,完全绕过内核网络栈。

SCION 协会的测试代码(github.com/romshark/afxdp-bench-go)展示了这一架构的威力。在 8 分 10 秒的测试中,系统传输了 1.5TB 数据,达到了 24.6 Gbit/s 的吞吐量,接近 25 Gbit/s 的理论线速。关键性能指标包括:

  • 平均发送 / 接收速率:24,607.5 Mbps
  • 数据包处理:2,050,621 包 / 秒
  • 丢包率:0%

系统调优参数

实现这一性能需要多层次的系统调优:

  1. 大页内存配置:AF_XDP UMEM 区域使用 2MB 大页内存,减少 TLB 缺失和内存管理开销。

  2. CPU 亲和性与中断绑定:将 AF_XDP 处理线程绑定到特定 CPU 核心,并将对应的 NIC 队列中断绑定到同一核心,减少缓存失效和上下文切换。

  3. NIC 队列优化:为每个物理端口配置独立的 RX/TX 队列,启用 RSS(接收端缩放)在多核间分发负载。

  4. 缓冲区大小调整:根据 1500 字节 MTU 优化 UMEM 帧大小和环缓冲区深度,平衡延迟与吞吐量。

从 DPU 到 NIC 模式的性能影响

将 BlueField-2 从 DPU 模式切换到 NIC 模式是性能优化的关键步骤。在 DPU 模式下,数据包必须穿越板载 ARM 处理器的网络栈,增加了约 2-3 微秒的延迟。NIC 模式消除了这一开销,使数据包能够直接从 NIC 硬件队列进入主机 CPU 的 AF_XDP 处理路径。

成本分析与性价比评估

整个系统的总成本为 CHF 3,741.34(约 4,700 美元),具体分配如下:

组件 成本(CHF) 占比
CPU(Intel Xeon W5-2455X) 1,106.00 29.6%
主板(ASUS Pro WS W790E-SAGE SE) 962.90 25.7%
内存(64GB DDR5 ECC RDIMM) 536.00 14.3%
NIC(3×BlueField-2) 318.09 8.5%
机箱与散热系统 ~415.00 11.1%
其他组件(PSU、SSD、线缆等) 403.35 10.8%

这一投资相对于商用 25G/100G 测试平台的数十万美元成本具有显著优势。更重要的是,系统提供了完全可控的软件环境,允许深度性能分析和优化,这是云服务或租赁硬件无法提供的。

工程经验与最佳实践

1. 文档深度阅读的重要性

工作站级硬件的兼容性矩阵往往包含关键限制条件。在组件采购前,必须详细研究 CPU、主板、内存和扩展卡的技术文档,特别是关于 PCIe 通道分配、插槽功能和电源要求的章节。

2. 散热设计的系统性方法

被动散热组件在非服务器环境中的热管理需要从机箱选择、风扇布局、气流路径到温度监控的全方位规划。高静压风扇、直接吹拂散热片的气流和充分的进出风平衡是成功的关键。

3. 性能基准的渐进式验证

从单个 NIC 的基本功能测试,到多 NIC 互连的吞吐量验证,再到 AF_XDP 零拷贝的性能调优,采用渐进式的测试策略可以快速定位性能瓶颈和配置错误。

4. 远程管理能力的价值

集成 BMC(基板管理控制器)提供了独立于主机操作系统的远程管理能力,包括电源控制、串口控制台和 KVM over IP。在分布式团队和远程办公场景下,这一功能显著提高了运维效率。

未来发展方向

当前系统已达到 25 Gbit/s 的单线程性能目标,为 SCION OSS 的 AF_XDP 底层开发提供了理想的测试平台。下一步工作包括:

  1. SCION 协议栈集成:将 AF_XDP 零拷贝机制集成到 SCION 边界路由器中,实现协议处理与高速数据平面的深度融合。

  2. 多流扩展性测试:验证系统在多个并发数据流下的性能表现,模拟真实网络环境中的流量模式。

  3. 延迟优化:在达到吞吐量目标的基础上,进一步优化端到端延迟,满足金融交易等低延迟应用的需求。

  4. 100 Gbit/s 升级路径:评估将 NIC 升级到 100 Gbit/s 接口的技术和经济可行性,为下一代性能目标做准备。

结论

构建 25 Gbit/s 工作站的过程展示了现代高性能网络系统开发的复杂性。从硬件选型的战略考量,到 PCIe 通道分配的细微陷阱,再到被动散热组件的热管理挑战,每个环节都需要深入的工程分析和实践经验。

SCION 协会的这一项目不仅为开源 SCION 实现的高性能数据平面开发提供了关键基础设施,也为其他需要构建定制化高性能网络测试平台的组织提供了宝贵的参考案例。通过约 4,700 美元的投资和数周的工程努力,团队获得了完全可控的 25 Gbit/s 测试环境,这一投资在性能研究、协议优化和系统调优方面的回报将远远超过其货币成本。

随着 AF_XDP 零拷贝等 Linux 内核技术的成熟,以及 BlueField-2 等智能 NIC 的普及,构建低成本、高性能的网络测试平台正变得越来越可行。这一趋势将加速网络协议创新和性能优化,为下一代互联网基础设施的发展提供重要动力。


资料来源

  1. SCION Association, "SCION 25 Gbit/s Workstation" - https://github.com/scionassociation/blog-25gbit-workstation
  2. LWN.net, "Add AF_XDP zero copy support" - https://lwn.net/Articles/1046907/
  3. International Journal of Research Publication and Reviews, "High IO Performance User Space Networking with eBPF/XDP and AF_XDP" - Vol 6, Issue 8, 2025
查看归档