Hotdry.

Article

Thunderbolt-ibverbs:在消费级硬件上实现 RDMA 的实验性方案

通过 thunderbolt-ibverbs 在 USB4/Thunderbolt 端口上模拟 InfiniBand RDMA 设备,实现消费级硬件间的高性能互连,实测双向带宽达 95 Gb/s,延迟低至 7 µs。

2026-06-04systems

在 AI 模型规模持续膨胀的背景下,单卡显存已难以满足大模型推理与训练的需求。传统的分布式方案依赖昂贵的 InfiniBand 或 RoCE 网卡,而 thunderbolt-ibverbs 项目提供了一条截然不同的路径:利用消费级设备上普遍配备的 USB4/Thunderbolt 接口,在内核层面模拟 InfiniBand RDMA 设备,从而绕过专用网卡的成本门槛。

技术架构与核心原理

thunderbolt-ibverbs 由两部分构成:一个 Linux 内核模块负责与 USB4/Thunderbolt DMA 环交互,以及一个用户空间 shim 层向应用层暴露标准的 InfiniBand Verbs API。这种设计使得现有的 AI 运行时 —— 包括 PyTorch、vLLM、NCCL 和 RCCL—— 无需修改即可识别并使用这些虚拟的 RDMA 设备。

项目的核心洞见在于,USB4 规范本身定义了基于 PCIe 隧道的 DMA 能力,而 Thunderbolt 控制器本质上就是 PCIe 设备的封装。通过直接操作 Thunderbolt 主机的 NHI(Native Host Interface)DMA 环,thunderbolt-ibverbs 绕过了传统网络协议栈的层层封装,实现了接近物理层的数据传输效率。

性能基准:与现有方案的量化对比

在基于 AMD Strix Halo 的测试平台上,thunderbolt-ibverbs 展现出了显著的性能优势。单方向持续带宽达到约 48 Gb/s,双向聚合可达 95 Gb/s,这一数据远超消费级以太网方案。作为参照,同平台的 2.5GbE 仅能提供的 2.3 Gb/s 带宽,而基于 thunderbolt-net 的软 RoCE(RXE)也只能达到约 9 Gb/s。

延迟表现更为突出。在 64 字节单 QP 的 ib_write_lat 测试中,thunderbolt-ibverbs 的单向延迟约为 7 µs,相比之下,RXE over 2.5GbE 约为 28 µs,而 RXE over thunderbolt-net 则高达 65 µs。这种数量级的延迟降低对于需要频繁同步的分布式训练场景尤为关键。

部署清单与关键参数

对于希望尝试该方案的开发者,以下是简化的部署路径:

硬件要求:两台配备 USB4/Thunderbolt 4 或 5 端口的 Linux 主机,通过 USB4 线缆直连。项目已在 AMD Strix Halo 平台上验证,理论上支持任何具备 USB4 DMA 能力的硬件。

软件环境:需要 Linux 6.14 或更新版本,以获取上游 Thunderbolt/USB4 子系统的关键更新。可通过 GitHub Releases 获取预编译的 DKMS 包,支持 Debian/Ubuntu、Fedora 和 Arch Linux。

模块加载参数

sudo modprobe thunderbolt_ibverbs \
  profile=linux_perf \
  bind_services=1 allocate_rings=1 start_rings=1 \
  negotiate_native=1 enable_tunnels=1 register_verbs=1

关键可调参数包括 nhi_interrupt_throttle_ns(用于控制中断节流)、zcopy_min_bytes(零拷贝阈值)以及 qp_timeout_ms(队列对超时)。建议根据实际工作负载特征进行微调。

容器化部署:内核模块驻留宿主机,容器内只需安装 libibverbs provider 包即可识别 usb4_rdma 设备。标准 PyTorch 或 vLLM 容器可直接使用,无需重新编译。

实际应用场景与收益

在具体的 AI 工作负载中,thunderbolt-ibverbs 展现出了实质性的加速效果。以 230B 参数的 MiniMax-M2.7 MoE 模型为例,采用 TP=2(张量并行度为 2)的跨机推理配置,在单台 128GB 设备无法容纳完整模型的情况下,通过 thunderbolt-ibverbs 互联的两台设备可达到约 20 tok/s 的生成速度,相比 TCP over Thunderbolt 方案提升约 30%。

更显著的收益体现在训练场景。Gemma 3 12B 模型的全量 FSDP 微调,在 2.5GbE 以太网上单步耗时约 1359 秒,而通过四 HCA(Host Channel Adapter)USB4 RDMA 配置,相同工作负载的单步时间降至 126 秒,实现了约 11 倍的加速。这种级别的性能提升,使得消费级多机集群在特定场景下具备了替代入门级企业设备的潜力。

局限与取舍

需要明确的是,thunderbolt-ibverbs 目前定位为研究性代码。项目作者明确标注了 "实验性、存在安全漏洞、不适合生产环境" 的警告。代码中大量使用了 AI 辅助生成,虽然经过人工审核,但仍可能存在隐含的假设错误和边界情况。

此外,该方案对内核版本有硬性要求(Linux 6.14+),且依赖于上游 Thunderbolt 子系统的持续演进。对于追求稳定性的生产环境,传统的 InfiniBand 或 RoCE 方案仍是更稳妥的选择。

结论

thunderbolt-ibverbs 代表了消费级硬件高性能互连的一个有趣探索方向。它证明了在适当的软件抽象下,通用的 USB4/Thunderbolt 接口可以承担原本需要专用网卡才能实现的 RDMA 功能。对于预算受限的研究者和小型团队,这一方案提供了一个可行的分布式 AI 实验平台。然而,在将其应用于关键业务之前,仍需充分评估稳定性风险,并关注上游内核和社区对该项目的持续维护。


资料来源

systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com