在数据中心基础设施的演进中,DPU(Data Processing Unit)正从简单的网络卸载设备演变为完整的计算平台。Xsight Labs 最新发布的 E1 DPU 代表了这一趋势的工程实现典范 —— 它不再仅仅是智能网卡,而是一个集成了 64 核 Arm Neoverse N2 处理器、800Gbps 网络接口和完整 PCIe 生态的 "微型服务器"。本文将深入分析其架构设计的关键工程决策。
架构定位:从智能网卡到基础设施处理器
传统 DPU 设计通常采用 "固定功能 ASIC + 少量控制核心" 的模式,而 E1 DPU 选择了截然不同的路径。正如 ServeTheHome 文章所指出的:"What Xsight Labs is building is not a NIC, or a NIC with a few compute cores attached. Instead, it is more of a miniature server."
这种架构定位带来了几个关键优势:
- 统一编程模型:所有 64 个 Arm Neoverse N2 核心都运行标准 Linux 内核,支持完整的 DPDK/SPDK 和 XDP 编程框架
- 灵活的资源分配:网络处理、存储卸载、安全功能共享相同的计算资源池
- 生态系统兼容性:Arm SystemReady 认证确保可以直接运行 Ubuntu、Debian 等标准 Linux 发行版
64 核 Arm Neoverse N2 的微架构设计
E1 DPU 采用的 Arm Neoverse N2 v9.0-A 核心基于 TSMC 5nm 工艺制造,每个核心都具备完整的乱序执行能力。64 核配置在 DPU 领域是前所未有的规模,这带来了独特的工程挑战和机遇。
内存子系统优化
E1 DPU 的内存架构设计体现了对数据密集型工作负载的深度优化:
- 32MB 内部 RAM:可配置为系统级缓存(SLC)或直接映射内存,为数据平面处理提供低延迟访问
- 4 通道 DDR5-5200:提供 166GB/s 的峰值带宽,支持 AES-XTS 全内存加密
- NUMA 感知设计:支持 Arm 的 MPAM(Memory Partitioning and Monitoring)技术,实现细粒度的内存资源隔离
这种分层内存架构允许高频访问的数据结构(如路由表、连接状态)驻留在内部 RAM 中,而大容量数据则通过 DDR5 通道处理。
一致性互连设计
64 个核心之间的高效通信是性能的关键。E1 采用了高速一致性互连(High Speed coherent-interconnect),确保所有核心能够以统一的视角访问内存和 I/O 资源。这种设计对于需要跨核心共享状态的网络协议处理至关重要。
800Gbps 网络接口的数据路径实现
E1 DPU 支持最高 800Gbps 的网络吞吐量,可通过 2 个 400G 端口、4 个 200G 端口或 8 个 100G 端口灵活配置。其网络数据路径的设计有几个值得关注的工程特点:
纯软件数据平面
与许多 DPU 采用专用网络 ASIC 不同,E1 DPU 的网络处理完全由 Arm 核心承担。这意味着每个数据包都需要经过完整的软件处理栈。这种设计的优势在于:
- 完全可编程性:网络协议栈可以完全定制,支持新兴协议和自定义处理逻辑
- 统一的开发体验:开发者可以使用熟悉的 Linux 网络编程接口
- 资源动态分配:网络处理能力可以根据负载动态调整
性能验证:SONiC-DASH Hero 800G 测试
ServeTheHome 报道指出,E1 DPU 通过了 SONiC-DASH Hero 800G 测试,并在满负载下仍有 19% 的性能余量。这个测试验证了以下关键指标:
- 连接规模:支持 1200 万并发连接
- 新建连接速率:1200 万连接 / 秒
- 零丢包:在 800Gbps 线速下保持数据完整性
测试使用 Keysight CyPerf 工具进行,这是业界标准的网络性能测试方案。19% 的性能余量意味着在实际部署中,CPU 资源可以用于其他任务,如存储卸载或安全处理。
可编程 PCIe Fabric 的工程实现
E1 DPU 集成了 32 条 PCIe Gen5.0 通道,通过 8 个双模式控制器实现灵活的拓扑配置。这一设计有几个创新的工程特点:
软件定义的 PCIe 配置
与传统的硬件固定 PCIe 拓扑不同,E1 DPU 支持:
- PCIe 配置空间仿真:允许软件动态定义 PCIe 设备特性
- MMIO 空间仿真:通过软件实现内存映射 I/O,提高灵活性
- SR-IOV 扩展:支持最多 64K 个 PF/VF(物理功能 / 虚拟功能)
多主机支持与 P2P 交换
E1 DPU 可以同时连接最多 4 个主机设备,并支持 PCIe 对等交换(Peer-to-peer PCIe switching)与地址转换。这使得 E1 可以作为数据中心内部的 PCIe 交换枢纽,连接 GPU、FPGA、存储设备等多种加速器。
编程模型与软件生态
Linux 数据平面架构
E1 DPU 的核心创新之一是 "Linux 数据平面" 概念。所有网络处理都在标准的 Linux 内核环境中进行,支持:
- 原生 XDP(eXpress Data Path):允许在网络驱动层面运行 eBPF 程序,实现高性能包处理
- 完整 DPDK/SPDK 支持:为高性能用户空间网络和存储应用提供优化路径
- VirtIO 设备仿真:可以仿真标准虚拟化设备,简化虚拟机集成
基础设施软件参考实现
Xsight Labs 提供了完整的基础设施软件栈,包括:
- SONiC with DASH 数据平面:针对云数据中心优化的网络操作系统
- 虚拟交换机实现:支持 RoCEv2 等现代网络协议
- NVMe-oF 和 NVMe/TCP 全栈卸载:将存储协议处理完全转移到 DPU
- TLS/kTLS 加速:支持线速的加密通信处理
性能优化策略与工程参数
缓存优化策略
对于网络处理工作负载,缓存命中率是性能的关键。E1 DPU 的 32MB 内部 RAM 可以配置为:
- 直接映射模式:为确定性延迟应用提供固定访问时间
- 系统级缓存模式:为工作集较大的应用提供缓存加速
实际部署中,建议将频繁访问的数据结构(如连接表、路由表)分配到直接映射区域,而将数据缓冲区分配到系统级缓存区域。
核心分配策略
64 个核心可以按功能分区:
- 数据平面核心:专门处理网络数据包,通常分配 16-32 个核心
- 控制平面核心:运行管理协议和配置逻辑,分配 4-8 个核心
- 加速器核心:处理加密、压缩等计算密集型任务,分配剩余核心
功耗管理参数
在 TSMC 5nm 工艺下,64 个 Arm Neoverse N2 核心的功耗管理是关键挑战。E1 DPU 支持:
- 动态电压频率调整(DVFS):根据负载调整核心频率
- 核心电源门控:可以完全关闭未使用的核心
- 内存功耗管理:DDR5 的多种低功耗状态
应用场景与部署架构
AI/ML 存储加速
在 Hammerspace AI 存储方案中,E1 DPU 展示了其作为计算存储节点的能力。一个 1OU 机箱可以容纳 5 个 E1 DPU 模块,提供:
- 320 个 Arm Neoverse N2 核心的总计算能力
- 40 个 NVMe SSD的直接连接
- 4Tbps的总网络带宽
这种架构允许存储协议处理完全在 DPU 上完成,为主机 CPU 释放宝贵资源。
边缘计算平台
E1 DPU 在边缘计算场景中表现出色,相比传统 x86 方案可提供:
- 4 倍性能 / 瓦特提升:对于内存密集型边缘工作负载
- 完全集成的计算存储节点:减少系统复杂性
- 分布式软件负载均衡器:支持 CDN 和 Web 服务器应用
工程挑战与未来展望
当前限制
尽管 E1 DPU 架构先进,但仍面临一些工程挑战:
- 纯软件数据平面的性能极限:在某些极端场景下,专用 ASIC 可能仍有优势
- 生态系统成熟度:相比 NVIDIA BlueField 系列,第三方软件支持仍需时间发展
- 功耗管理复杂性:64 核系统的动态功耗优化需要精细的调度算法
技术演进方向
从工程角度看,DPU 架构的未来发展可能包括:
- 异构计算集成:在 Arm 核心基础上集成专用 AI 加速器
- 更细粒度的资源隔离:支持容器级别的资源保障
- 跨 DPU 集群协调:多个 DPU 之间的负载均衡和故障转移
结语
Xsight Labs E1 DPU 代表了 DPU 架构设计的重要演进 —— 从专用网络卸载设备向通用基础设施处理器的转变。其 64 核 Arm Neoverse N2 架构、800Gbps 网络吞吐能力和完全可编程的数据平面,为云数据中心和边缘计算提供了新的工程范式。
对于系统架构师而言,E1 DPU 的关键价值在于其统一的编程模型和灵活的资源分配。开发者可以使用熟悉的 Linux 工具链和网络编程接口,而不需要学习专用的硬件编程模型。这种设计哲学可能成为未来 DPU 架构的主流方向。
随着 NVIDIA BlueField-4 等竞争产品的推出,DPU 市场的技术竞争将更加激烈。但无论结果如何,E1 DPU 已经证明了一个重要观点:在适当的架构设计下,通用处理器核心完全有能力处理最苛刻的网络工作负载。
资料来源:
- ServeTheHome - "This is the Xsight Labs E1 DPU A 64-core Arm Neoverse N2 800G DPU" (2026-01-03)
- Xsight Labs - "E1-SoC Product Brief" (2025-06)
技术参数参考:
- 工艺:TSMC 5nm
- 核心:最多 64 个 Arm Neoverse N2 v9.0-A
- 网络:800Gbps(2x400G/4x200G/8x100G)
- 内存:32MB 内部 RAM + 4 通道 DDR5-5200
- PCIe:32 条 Gen5.0 通道
- 软件:Linux 数据平面,支持 XDP/DPDK/SPDK