近期,芯片分析网站 Chips and Cheese 对英特尔的x86核心首席架构师 Stephen Robinson 进行了一次深度访谈,揭示了 Panther Lake (Cougar Cove P-Core + Darkmont E-Core) 和 Clearwater Forest 等未来CPU产品背后的微架构设计哲学。这次对话为我们提供了一个宝贵的窗口,去理解在性能、功耗与面积(PPA)的“铁三角”约束下,英特尔如何做出关键决策,特别是在混合架构、同步多线程(SMT)以及不同市场定位上的精妙权衡。
E-Core 的“雄心”:不止于效率,更在于“覆盖”
长期以来,业界对英特尔能效核(E-Core)的普遍认知是处理后台任务、提升多线程吞吐量的“效率工具”。然而,Stephen Robinson 明确指出,Skymont(LNL E-Core)及后续 Darkmont 的一个核心设计目标是“覆盖(Coverage)”——即让 E-Core 能够胜任并高效运行更多类型的真实世界工作负载。
为了实现这一目标,Skymont 相比前代 Crestmont 进行了大刀阔斧的改革,旨在构建一个“更宽、更深”的微架构:
- 前端与乱序执行引擎的扩张:前端从6宽双簇解码演进为9宽三簇,乱序执行窗口的深度增加了约50%。这使得核心在每个时钟周期内能处理更多指令,并拥有更大的指令池来寻找并行机会,从而显著提升了单核指令级并行性(IPC)。
- 执行与内存子系统的增强:向量硬件规模翻倍,浮点/向量乘加单元(FMA)从2个增加到4个,这直接提升了AI推理等向量化计算的性能。同时,内存子系统也得到强化,新增了第三个加载端口。
一个有趣的微架构细节是,Skymont 拥有四个存储地址生成单元,但仅能维持向数据缓存写入两个存储。Robinson 解释说,这种不对称设计的目的是为了“通过增加存储地址生成的带宽,来降低解析未知存储的延迟”。在乱序执行中,加载指令常因无法确定先前存储指令的地址而被阻塞。通过更快地生成存储地址,可以有效减少这种依赖性停顿,进而提升加载性能。这一细节揭示了英特尔为压榨性能而进行的深度优化。
SMT 的取舍:客户端与服务器的不同命运
同步多线程(SMT,即超线程技术)的去留,是本次访谈揭示的最重要的战略权衡之一。在以 Lion Cove 和 Cougar Cove 为代表的新一代客户端P-Core中,英特尔选择了移除SMT。
Robinson 解释道,在拥有P-Core和E-Core的混合计算体系中,SMT的价值已大不如前。操作系统的线程调度器会优先将高负载任务分配给P-Core,然后是E-Core。只有当所有物理核心都被占满后,才会启用P-Core的SMT线程。移除SMT带来了直接的工程收益:
- 更低功耗与更小面积:无需为支持双线程而设计额外的逻辑电路和状态寄存器。
- 更容易达成频率目标:SMT的实现依赖于在关键路径上插入多路选择器(Mux),这会引入微小的延迟。去掉这些逻辑有助于P-Core冲击更高的时钟频率。
然而,在服务器领域,情况则完全不同。服务器CPU目前并未普及混合架构,其工作负载(如大型数据库、网络包处理)往往具有海量的并行线程和较长的内存访问延迟。在没有E-Core分担负载的情况下,SMT成为隐藏长延迟、充分利用核心执行资源的关键技术。因此,尽管客户端处理器在“抛弃”SMT,但它在服务器CPU上的地位依然稳固。
通用优化的普适性:分支预测的共同追求
访谈中另一个深刻的观点是,许多核心微架构的改进具有普适性,能同时惠及客户端和服务器。分支预测器便是一个典型例子。
Robinson 提到一个有趣的观察:从核心微架构的角度看,游戏负载和数据库负载在代码体积、执行路径复杂度等方面惊人地相似。这意味着,为提升复杂游戏性能而做的分支预测器改进,同样能有效提升数据库的处理性能。
虽然服务器工作负载因其巨大的二进制文件和复杂的执行模式,通常需要容量更大、追踪路径更长的分支预测器,但其底层的预测算法和硬件结构的优化,对所有类型的复杂软件都是有益的。这表明,英特ルの微架构研发并非完全割裂,其基础性改进旨在构建一个对各类应用都更强大的通用计算平台。
核心同源,系统分野:服务器与客户端的差异化之道
Darkmont E-Core 将同时应用于客户端的 Panther Lake 和服务器的 Clearwater Forest,但这并不意味着两者体验一致。真正的差异化体现在了核心之外的片上系统(SoC)层面。
服务器CPU对可靠性、可用性和可服务性(RAS)的要求远高于客户端。这意味着,服务器版本的核心即使物理设计相同,也需要启用并验证更多的RAS特性,例如缓存中的ECC(错误修正码)保护。
此外,SoC级别的配套设施决定了核心功能的上限。例如,像SGX或TDX这样的安全计算技术,即使核心内部支持,也必须依赖SoC上相应的安全控制器和固件栈才能工作。同理,不同的电源管理策略、供电网络设计,也使得同一个核心在服务器和客户端环境中的功耗表现和门控机制截然不同。
综上所述,英特尔的x86演进之路展现了一种精细化的平衡艺术。它不再是单纯追求IPC的线性竞赛,而是在混合架构下,通过重新定义E-Core的角色、审慎取舍SMT等技术、并借助通用的微架构创新,为不同市场提供高度定制化的解决方案。这种“核心同源,系统分野”的策略,或许将成为未来高性能处理器设计的主流范式。