从 2012 年首款 Raspberry Pi 上市至今,Broadcom 为这棵「教育计算机」系列提供的 SoC 方案经历了多次架构级跃迁。单核 ARM11 的 Pi 1 与四核 Cortex-A76 的 Pi 5 之间,横跨的不仅是数字参数的差异,更是 ARM 架构从「嵌入式微控制器」向「高性能应用处理器」演进的完整路径。理解这一演进逻辑,对于嵌入式系统选型、边缘计算部署、以及低功耗服务器设计都具有直接的工程参考价值。
ARM 架构代际划分:从 ARM1176 到 Cortex-A76
Raspberry Pi 系列的核心演进可以划分为三个明确的微架构代际,每个代际都对应着 ARM 架构设计范式的重大转变。
第一代 Pi 使用的是 Broadcom BCM2835 芯片,其 CPU 核心为 ARM1176JZF-S。这一架构源自 ARM11 系列,采用 ARMv6 指令集,是 ARM 在 2002 年推出的经典设计。ARM1176 采用 8 级流水线,支持 VFPv2 浮点单元,但缺乏硬件乘法累加加速和动态分支预测。在 700MHz 时钟下,使用 Sysbench 单核跑分仅为 68 分,这意味着每秒钟仅能完成约 68 次素数计算循环。从现代视角来看,ARM1176 更接近「微控制器增强版」而非「应用处理器」,其设计目标是在极低功耗下提供基本的计算能力。
第二代 Pi(Pi 2)虽然仍使用 VideoCore IV GPU,但 CPU 升级为 Broadcom BCM2836,首次引入 Cortex-A7 核心。Cortex-A7 是 ARM 在 2011 年推出的「效率核心」架构,采用 ARMv7-A 指令集,配备 8 级流水线、硬件分支预测和 NEON SIMD 单元。四核 900MHz 的配置使单核性能翻倍,Sysbench 分数提升至约 140 分。更关键的是,Cortex-A7 引入了「big.LITTLE」技术的基础设计理念 —— 尽管 Pi 2 本身是同构多核,但这为后续 ARM 芯片的能效优化奠定了架构基础。
第三代 Pi(Pi 3)转向 64 位计算,使用 BCM2837 芯片搭载 Cortex-A53 核心。Cortex-A53 是 ARM 首批 64 位核心之一,采用 ARMv8-A 指令集,在保持高能效的同时提供了 64 位寻址和加密扩展支持。实测数据显示,Cortex-A53 在 1.2GHz 下的单核 Sysbench 分数约为 2500 分,是 Pi 2 的 18 倍。这一跃迁并非单纯来自时钟频率提升,而是源于 64 位架构带来的更高效指令编码、更大的寄存器文件,以及 ARMv8 引入的 AArch64 执行路径优化。
第四代 Pi(Pi 4)搭载 BCM2711,使用 Cortex-A72 核心,这是 ARM 2015 年推出的「性能核心」架构。Cortex-A72 采用 15 级超标量流水线,支持乱序执行,配备两级分支预测器和更大的指令缓存。在 1.5GHz 时钟下,单核性能约为 Pi 3 的两倍,多核聚合分数接近 40000 分。值得注意的是,Pi 4 首次在存储子系统中引入了 LPDDR4 支持,内存带宽从 Pi 3 的约 2.5GB/s 提升至超过 20GB/s,这使得 CPU 不再是系统性能的单一瓶颈。
第五代 Pi(Pi 5)搭载 BCM2712,采用 Cortex-A76 核心,这是 ARM 2018 年发布的「笔记本电脑级」架构。Cortex-A76 采用 ARMv8.2-A 指令集,配备 13 级流水线、分支目标缓冲器和 128KB 私有 L2 缓存。在 2.4GHz 时钟下,单核 Sysbench 分数突破 40000 分,是 Pi 4 的约 2.5 倍。综合四核分数,Pi 5 的整体性能约为 Pi 1 的 600 倍以上。
微架构关键差异:为何 Pi 3 和 Pi 5 出现性能跃迁
从性能曲线上看,Pi 1 到 Pi 2 是线性提升,Pi 2 到 Pi 3 出现第一次跃迁,Pi 4 到 Pi 5 则是第二次显著跃迁。理解这两次跃迁的微架构原因,对于评估 ARM 芯片性能边界至关重要。
Pi 3 性能跃迁的核心驱动力来自指令集架构的切换。ARMv8-A 指令集引入了 64 位操作模式,虽然初始阶段许多应用仍以 32 位运行,但 AArch64 架构带来了若干底层优化:更大的通用寄存器组(31 个 64 位通用寄存器 vs 16 个 32 位寄存器)减少了寄存器溢出开销;更高效的指令编码格式使单指令可完成更复杂的操作;加密指令扩展(ARMv8 加密扩展)则为安全计算提供了硬件加速。此外,Cortex-A53 虽然定位为能效核心,但其流水线效率显著高于 Cortex-A7,每周期指令发射能力从 2 条提升至 3 条。
Pi 5 的性能跃迁则源于微架构级别的根本性变革。Cortex-A76 的设计目标是「笔记本级性能与手机级能效的平衡」,这一定位使其与前几代「嵌入式优先」的 ARM 核心有了本质区别。Cortex-A76 引入了以下关键微架构特性:乱序执行能力使其能够跨越数据依赖气泡执行指令,提高了流水线利用率;更大的分支预测器(包含 6000 条目以上的分支目标缓冲器)减少了流水线清空次数;改进的加载 - 存储单元支持更高的内存访问吞吐量。更重要的是,Cortex-A76 采用了「DynamIQ」技术,允许在单一簇内混合不同性能的核心配置,虽然 Pi 5 使用的是四核同构配置,但这一架构为未来的能效异构设计提供了硬件基础。
存储子系统演进:从 25MHz 到 NVMe 生态
CPU 性能的另一关键制约因素是存储子系统的演进。Pi 系列在这一领域的进步虽然不如 CPU 参数那样显眼,但对于实际应用性能的影响同样显著。
Pi 1 使用的 SD 卡接口运行在 25MHz,时序由 SoC 的 SDHOST 控制器管理。在这一配置下,典型顺序读取速度约为 20MB/s,4K 随机读取性能极为有限。Pi 2 和 Pi 3 将这一接口频率提升至 50MHz,但仍受限于 USB 2.0 控制器与以太网共享带宽的问题。Pi 4 首次引入了 USB 3.0 控制器和 PCIe 2.0 通道,虽然 Pi 4 本身未直接支持 NVMe 启动,但外部 USB 3.0 SSD 的顺序读取速度可达到 300MB/s 以上。
Pi 5 的存储子系统变革最为彻底。BCM2712 集成了 PCIe 3.0 控制器,支持 x1 通道的 NVMe SSD 直连。官方数据显示,使用 NVMe 启动时顺序读取速度可超过 500MB/s,是 Pi 4 USB 3.0 SSD 的近两倍。更关键的是,NVMe 协议的低延迟特性(队列深度可达 65000)使得 Pi 5 在高并发 I/O 场景下的响应时间显著改善。对于数据库、容器编排等 I/O 密集型负载,这一改进的实际意义可能超过 CPU 频率的提升。
存储总线频率从 Pi 1 的 25MHz 到 Pi 5 的 100MHz(SD 卡接口),看似仅四倍提升,但结合总线架构从「半双工 shared-bus」向「全双工 dedicated-lane」的转变,实际可用带宽的增长远高于标称数字。Pi 5 的 NVMe 支持更是将存储子系统从「性能瓶颈」转变为「可扩展资源」,这对于边缘计算节点的设计思路产生了深远影响。
能效曲线与工程选型权衡
性能提升与功耗控制之间的平衡,是嵌入式系统设计的永恒议题。Pi 系列的演进轨迹显示,Broadcom 在每一代都做出了不同的能效权衡策略。
从实测数据来看,Pi 1 在满载状态下的功耗约为 3.5W,Pi 2 约为 4W,Pi 3 约为 5.5W,Pi 4 约为 6W,Pi 5 约为 10W。这些数字表明,纯粹的性能提升确实带来了线性或超线性的功耗增长。然而,当我们将 Sysbench 多核分数除以功耗得到「性能每瓦」指标时,情况发生了有趣的变化:Pi 5 的性能每瓦约为 Pi 1 的 200 倍,这意味着在特定性能目标下,Pi 5 实际上更加节能。
这一能效跃迁的根本原因在于半导体工艺进步与微架构优化的叠加效应。Pi 1 和 Pi 2 使用的是较为落后的制程(具体数字未公开,但业界估计在 40nm 以上),而 Pi 5 使用的是 16nm 或更先进的 FinFET 工艺。更先进的制程带来了更低的漏电流和更高的开关速度,使得在更高频率下仍能保持合理的功耗水平。同时,Cortex-A76 的微架构优化(如改进的功耗门控、更高效的指令调度)使得每个时钟周期完成的计算量大幅提升。
对于工程选型而言,这一能效曲线意味着:当性能需求在 Pi 3 能力范围内时,Pi 3 可能是最优解(成熟生态、低功耗、低成本);当需要 Pi 4 以上性能时,升级到 Pi 5 通常是更优选择,因为多出的功耗预算往往能换来不成比例的性能提升。具体而言,在容器化部署场景中,Pi 5 的 NVMe 支持使其能够运行更大规模的容器镜像缓存,减少网络 I/O 瓶颈;在 AI 推理场景中,Cortex-A76 的 NEON 单元和加密扩展为 TensorFlow Lite 或 ONNX Runtime 提供了更高效的执行环境。
面向未来的设计启示
回顾 Pi 系列的 SoC 演进路径,可以提炼出若干对未来嵌入式系统设计具有指导意义的结论。
首先,ARM 架构的「能效优势」正在从「低功耗嵌入式」向「高性能计算」延伸。Cortex-A76 的性能水平在五年前仅能在入门级 x86 处理器上看到,而如今它可以装进一张信用卡大小的电路板中。这意味着边缘计算节点的性能上限正在被重新定义,传统的「云端训练 - 边缘推理」分工模式可能需要重新评估。
其次,存储子系统的变革往往比 CPU 升级更能改变用户体验。Pi 5 的 NVMe 支持不仅仅是「更快」,而是「可以运行以前无法运行的负载」。对于系统架构师而言,在评估边缘计算平台时,I/O 子系统的扩展能力(是否支持 NVMe、是否提供 PCIe 通道)应当与 CPU 性能并列作为核心评估维度。
最后,微架构的选择对实际性能的影响可能超过标称参数。Pi 3 到 Pi 4 的频率提升仅约 25%,但得益于 Cortex-A72 的乱序执行能力,实际性能提升接近 100%。这提醒我们在进行性能基准测试时,应当关注「应用级性能」而非单纯的「时钟频率」或「跑分数字」。
参考资料
- The DIY Life, "Raspberry Pi Drag Race: Pi 1 to Pi 5 – Performance Comparison", 2025 年 1 月