英特尔的Emerald Rapids Xeon SP处理器在性能上略有提升，成本

本文引用地址：

随着每一代Intel Xeon SP处理器的推出，我们不禁想到同样的事情：如果这款一年前或两年前就发布了，对于Intel和客户来说都会更好，而且肯定是计划中的。

今天发布的新型“Emerald Rapids”处理器是Xeon SP系列的第五代，确实是Intel迄今为止推出的最优秀的CPU，但它将面临来自AMD的Epyc系列以及一些由超大规模计算和云服务提供商制造的本土ArmCPU的激烈竞争。更不用说Arm服务器CPU新秀Ampere Computing。

过去几年一直如此，Intel将在Emerald Rapids上赢得供应份额，但这将发生在一个除了在人工智能系统上的热衷支出之外，服务器市场已经衰退了两三个季度的市场中，这是个不好的时机。但这不仅仅对Intel来说是不好的时机，正如《可汗的愤怒》中的斯波克先生所说的那样，这也是“给鹅的调味品”，因为机会是平等的。AMD同样遭受着服务器CPU衰退的打击，所有下游服务器制造商也都在经历这一点，再次提醒一下，除了人工智能服务器上的大型GPU引擎，其他地方似乎没有给它们带来太多利润。但如果你仔细看，这使得Nvidia成为地球上商业史上最富有的公司之一。

不同之处在于，AMD在上周推出的“Antares” MI300系列中拥有可信的GPU加速器故事，而Intel对其“Ponte Vecchio” Max Series GPU并未透露太多信息，而是依靠其当前的Gaudi2和未来的Gaudi3人工智能加速器，这些加速器不是通用计算引擎，无法与Nvidia GPU和AMD GPU进行同等对抗。没有传统的高性能计算故事，没有VDI故事（人们似乎并不太关心），没有可视化故事，也没有数据库或分析加速故事，与Gaudi设备相关的故事。

因此，Intel等待在一个称为Intel 7的10纳米工艺的超精细变种上，对“Raptor Cove”核心和Emerald Rapids在今年1月发布的第四代Xeon SP“Sapphire Rapids”共享的“Eagle Stream”服务器平台进行了一些非常出色的工程设计。最终，随着Intel的晶圆厂缩小与台湾积体电路制造公司的工艺和封装差距，将会有更多的调味品为这只鹅提供。最终——因为在半导体业务中总会有一个最终——Intel在核心、工艺和封装方面将与AMD和Nvidia在CPU和GPU领域达到平衡，我们将再次看到计算成本急剧下降。

我们期待着为您而做的这一切。

与此同时，不再拖延，让我们谈谈Emerald Rapids系列，并在进行时牢记这个想法。当公司延长他们在领域中保留服务器的时间时，几乎必然要求他们购买尽可能高性能的机器，以便在向其机群添加一些新设备时，能够淘汰最多数量的老系统足迹。这样，高端CPU能够提供的核心、缓存和I/O，以及中端部分无法提供的东西，将使新设备在领域中的寿命更长。在过去的日子里，购买中端零件是一种常见的策略，但在这种情况下，这并不一定是一个好的做法。

对于Sapphire Rapids，Intel为其高端Extreme Core Count（XCC）变种组成了一个四组成的插座，该变种为HPC客户提供了HBM内存选项。这四个芯片组中，每个芯片组有16个核心，总共有64个核心，仅有60个核心用于良品率。还有一个Medium Core Count（MCC）的单片芯片变种，最多可扩展到32个核心，用于构建Sapphire Rapids SKU堆栈的52芯片中的下半部分。

通过超精细的10纳米工艺，Intel可以制造更大的芯片组，对于相同尺寸的芯片组获得更高的产量，并且对于更小的芯片组获得更好的产量，因此它选择使用三种不同的芯片封装创建Emerald Rapids，正如您在上文中所见。

在最高端，有两个芯片组，每个芯片组似乎有34或35个核心，排列成7×5个核心的网格（一个可能被弹出以腾出内存控制器空间），总共有60或70个核心，其中最多64个核心用于良品率。这是XCC变种，而这一次，对于HPC用户，没有HBM选项。抱歉。

Emerald Rapids的MCC芯片组对外暴露了最多32个核心，并且设计中可能有36个核心，同样是为了提高产量。还有一种能效低的Low Core Count（EE LCC）变种，最多向插座引脚暴露20个核心，并且设计中可能实际有24个核心。

我们已经提出了但目前还不知道这三种变种的晶体管数。

Eagle Stream平台的LGA-4677服务器插座在Sapphire Rapids一代中未被大量使用，但是通过顶级零件，Emerald Rapids填充得相当好：

核心数量有了适度的增加，从Sapphire Rapids芯片的最高配置的60个核心到Emerald Rapids的最高配置的64个核心，但是与Sapphire Rapids的XCC变种相比，Emerald Rapids的XCC变种芯片上的L3缓存最多可达320 MB，而Sapphire Rapids的XCC变种芯片的L3缓存最大只有112.5 MB。

Emerald Rapids插座上的UltraPath Interconnect（UPI）NUMA链接的速度提高到20 GT/秒，比Sapphire Rapids芯片上的UPI链接的16 GT/秒速度提高了25%。与Cascade Lake一样，Emerald Rapids仅设计用于具有一个或两个插槽的机器。因此，如果您需要一个四插槽或八插槽的服务器，您必须使用Sapphire Rapids，直到明年推出我们在九月份详细介绍的第六代“Granite Rapids” Xeon SP。如果您可以等待Granite Rapids用于大型NUMA服务器，那将是更好的选择。

Emerald Rapids芯片还支持CXL 1.1一致性内存协议，允许芯片上的PCI-Express端口支持Type 3 CXL内存，作为内置DDR5主内存的扩展。

至于Raptor Cove核心中每个核心的指令改进，Intel表示，从Sapphire Rapids到Emerald Rapids在High Performance Linpack、STREAM Triad、SPECrate2017_fp_base和SPECrate2017_int_base上的平均性能提升是1.21倍。这不是精确的每个核心时钟标准化的度量。进行1.21倍性能跃升测试的是一对64核Emerald Rapids Xeon SP-8592+芯片，可能以全部核心Turbo速度的2.9 GHz运行，以及一对56核的Sapphire Rapids Xeon SP-8480+芯片。如果将这两个处理器复杂的核心和时钟相乘，仅这两个因素就给您提供了10%的提升，也许更快的UPI 2.0链接也有些帮助。但假设它们没有。那么，实际的IPC增益，在时钟和核心数量相同的情况下标准化，可能更接近11%。这显然只是一个猜测。

因此，不再拖延，以下是32款新的Emerald Rapids Xeon SP处理器：

在SKU堆栈的多样性方面，Emerald Rapids系列有32个官方变种，比Sapphire Rapids系列的52个变种要窄且深得多。第一代的“Skylake” Xeon SP有51个变种，第二代的“Cascade Lake” Xeon SP有45个变种，再加上18个“Cascade Lake R”深度变种和为四插槽和八插槽服务器调整的“Cooper Lake”，这在某种程度上为Cascade Lake的63个正常变种增加了另外11个变种，总共达到74个变种。即使是命途多舛且长时间推迟的第三代“Ice Lake” Xeon SP也有38个变种。

总体而言，Emerald Rapids芯片在各种数据中心工作负载上提供了从1.13X到1.69X的性能提升，并提供了每瓦特平均1.34X更好的性能。在空闲功耗方面，热特性尤为出色，空闲时的功耗约为100瓦特。（我们想说的是：服务器芯片为什么会空闲？给它找点事做吧。）

其中一些性能提升不仅仅来自核心，还来自更高的内存带宽，因为Emerald Rapids CPU支持5.6 GHz的DDR5内存，而Sapphire Rapids使用的是4.8 GHz的DDR5内存，带来了16.7%的内存带宽增加。两款芯片均有八个内存通道，因此通过向计算复杂添加更多内存通道并没有增加带宽，但是它们支持CXL内存扩展，通常称为Type 3 CXL内存，提供了另外四个通道的CXL内存和额外的带宽。您可以以两种方式使用CXL内存：

目前尚不清楚Intel在测试Emerald Rapids系统时是否以及如何使用CXL内存来提升基准性能。我们将尽力澄清这一点。我们还将进行我们通常的体系结构深度剖析、与先前的Xeon和Xeon SP代系列的性价比比较以及与AMD Epyc和Arm服务器CPU的竞争分析。