Arm Neoverse路线图更新：V、E系列产品添新丁

发布时间: Arm,Neoverse,CPU,核心,AWS,架构,基于,性能,V1,N2

来源: 国际电子商情

最近，Arm Neoverse路线图再次迎来更新，其中，V、E系列各增加了一款新品。Arm及其生态合作伙伴，围绕Neoverse的新品及应用做了介绍。

Arm Neoverse路线图发展历程

作为全球芯片IP行业的领导者，Arm自1990 年成立以来，其独特的 IP 技术授权许可模式，打造了一个强劲的Arm生态系统。迄今，Arm 低功耗处理器设计和软件平台已应用于超过 2,300 亿颗芯片的高级计算，覆盖从传感器到智能手机乃至超级计算的多样化应用。Arm Neoverse面向高性能计算、云数据中心、边缘计算、网络等领域，该平台囊括了V、N和E三大系列，回顾该品牌四年来的发展之路，可以看到其成长的全过程。

2018年底，Arm发布Neoverse初步路线图。这是基于Arm指令集的IP产品，主要面向高性能计算市场。当时的平台产品(代号Cosmos)基于16nm工艺，CPU核心为Cortex-A72、Cortex-A75。Arm承诺表示，Neoverse的性能将达到年增长率30%。

2019年2月，Arm Neoverse N1和Neoverse E1发布。N1平台(代号Ares)面向高性能设备，其CPU架构与Cortex-A76同源，制程工艺升级到7nm，性能比Cortex-A72提升了60%。值得注意的是，N1平台和相对应的处理器核心，代表了Arm首款专为服务器和基础设施市场设计的专用IP。

E1采用智能设计，可实现高效的数据吞吐量，与Arm前几代方案相比，吞吐量性能提升超过2.7倍，吞吐效率提升超2.4倍，计算性能提升超2倍。可为从低于35W的基站，到几百GB的路由器等设备提供支持。

2020年9月，Arm更新了Neoverse路线图，增加了Arm Neoverse V1和Arm Neoverse N2两个平台，还把Neoverse分为V、N和E三大系列：V系列主打高性能，核心更大，应用于云、HPC和AI领域；N系列性能、功耗、面积并重，并行能力强大，应用于云、5G、网络和边缘领域；E系列主打能效，功耗、核心面积要优先于性能，应用于5G、网络和基础设施边缘领域。

2021年3月底，Arm发布了Armv9指令集。同年4月底，Arm基于Armv9指令集架构推出了Neoverse N2(代号Perseus)，Arm还在基于Armv8.4-A CPU指令集基础上，发布了Arm Neoverse V1(代号Zeus)。

N2以5nm工艺为主，在与N1相同功率和面积效率的情况下，N2的单线程性能可提升40%、频率提高10%。N2适用于横跨云、智能网卡、企业网络到功耗受限的边缘设备。到2022年9月，已经有近20家合作伙伴正基于N2平台进行设计。

V1是V系列的首个平台，采用7nm/5nm工艺，其单线程性能比N1提升50%以上，支持可伸缩矢量扩展(SVE)，适用于高性能云、高性能计算与机器学习等应用。V1的整体架构、模块组成与N2类似，有全方位的微架构改进，全面提升了基准测试、服务器/高性能计算工作负载，并且强化了电源、功耗、发热管理。

2022年9月，Arm再一次更新了Neoverse路线图，增加了核心和平台IO细节，并宣布新增两个新品——Neoverse V2(代号Demeter)、Neoverse E2。

Neoverse V2平台配备最新V系列核心、产业广泛部署的Arm CMN-700 mesh互连技术，采用Armv9架构，旨在为云端、超大规模和HPC工作负载提供领先的单线程性能，这是新一代基础设施解决方案的基础。V2提供市场领先的整型性能，增加了2MB的专用L2缓存，比V1上的L2大上一倍，且使用延迟的负载不变，显著提升MySQL和Memcached等云应用性能。V2上支持可伸缩矢量扩展完成了SVE2的过渡，可以帮助满足更多非HPC ML类型的工作负载，同时添加了更多加密指令。

E2结合了Arm Cortex-A510 CPU和可扩展的Neoverse CMN-700和N2系统背板，以允许在受限应用程序中使用最好的云端技术，包括可扩展的核心数量范围、Arm SystemReady兼容性以及PCIe、CXL、IO和接口等。

此外，Arm还预告称，新一代Neoverse N系列产品将于2023年推出，其CPU的性能和效率与N2相比均有代际提升。

Arm Neoverse新增产品基于“四项关键性原则”打造

Arm Neoverse路线图中新增产品是基于四项关键原则打造的。

第一，可扩展效率。两年前，Arm推出了V、N和E系列核心设计原则，此后大量基于此类计算基础的解决方案陆续面市。Arm相信凭借V、N和E系列核心组合，其将比友商覆盖更多的市场并更为高效。

第二，技术领先地位。Arm已经创下了多项行业第一：第一个总内存带宽超过每秒1TB的CPU；第一个单块裸片上能配置超过100个核心的CPU，核心数达到128个；第一个将DDR5和PCIe Gen5.0推向市场的CPU；第一个在SPEC CPU 2017基准测试中打破500整型跑分的CPU。

第三，快速的创新步伐。Arm数据中心计算正以前所未有的速度进入市场，比如NXP的Layerscape效率极高，虽然只有8个核心和8MB缓存，但是却拥有每秒100GB的网络带宽，以及安全加密和PCIe扩展等功能；英伟达Grace CPU适用于AI领域，集成了144个Arm Neoverse V2核心，使用低功耗DDR5，内存带宽达每秒1TB；另外，Ampere每年都推出基于Arm架构高核心数服务器CPU，Amazon在短短4年内发布了三代基于Arm架构的Graviton处理器。

第四，独一无二的开发者社区的有力支持。Arm架构已应用在领先的Linux操作系统、云原生软件、CI(持续集成)/CD(持续交互)管道，并得到了领先编程语言和运行库的支持。Arm架构已经过主要编译器的认可和优化，目前是Kubernetes的热门开发目标。Arm 高级副总裁兼基础设施事业部总经理 Chris Bergey说，在排名前50位的Amazon EC2(亚马逊弹性计算云)客户中，有48家在运行基于Arm Neoverse的AWS Graviton处理器，包括了Twitter Feed、Snap和Airbnb等。

在Arm看来，单芯片性能和单线程性能，是云决策者的两大关键指标。单线程性能使其了解，对“扩展”要求最高且性能需求大的工作负载能否迁移到Arm。同时，高单芯片性能则使其可以通过大量运行在平台上的“横向扩展”工作负载，来实现投资价值的最大化。

超大型互联网公司十分关心TCO或TCO支出，TCO支出所能带来的性能是他们盈利的关键。使用Arm Neoverse V1核心的AWS Graviton3可提供最高的单线程性能，Arm预期Graviton3能提供出色的性价比和每瓦性能，在所有CPU中Ampere Altra Max和阿里的倚天710提供最佳单芯片吞吐量。

Arm Neoverse在内的单线程设计，其单核的全部资源被专用于软件执行的每个线程，以提供更高的单线程性能。为此，在打造高端核心时可实现更有效的核心设计。单线程的设计的优势在于，能让Arm的合作伙伴在每个系统中集成更多的完整核心。

Arm Neoverse的一些应用案例

现在，Arm已被用于全球各个主要公有云，包括AWS、微软、谷歌、阿里巴巴、甲骨文等。这意味着，全球的每一位开发者都能体验Arm Neoverse带来的便利。

·基于Arm Neoverse V1核心的AWS Graviton3 CPU

2022年8月，在亚马逊云科技(AWS)芯片创新日上，亚马逊副总裁James Hamilton讲述了AWS如何开始定制芯片之旅。

2013年，James向Andy Jassy(现任亚马逊CEO)和Jeff Bezos(亚马逊创始人)提出两个论点：1.鉴于Arm架构芯片出货量在逐年增加，他确信Arm一定能设计出优异的服务器CPU；2.很多功能正从主板逐渐迁移到SoC上，且该趋势在手机领域已现端倪，他认为服务器领域也会出现类似的发展趋势。

AWS多年来坚持打造定制服务器，随着服务器创新转移到芯片上，James得出结论——AWS需要开始打造CPU。他认为，AWS如果不打造芯片，他们的创新将受到限制。在此基础上，2015年AWS收购了Annapurna Labs，2018年AWS基于Arm Neoverse创建了AWS Graviton系列CPU，2022年基于Neoverse V1核心的AWS Graviton3落地商用。

·基于Arm Neoverse V2核心的英伟达Grace CPU

在今年6月，英伟达发布了面向AI及高性能计算(HPC)的Grace CPU超级芯片和Grace Hopper超级芯片。英伟达正在推行GPU+CPU+DPU“三芯”战略，英伟达超大规模和HPC副总裁兼总经理Ian Buck介绍说，Grace CPU基于Arm Neoverse V2核心打造，提供多达72个核心与GPU结合建立AI。NVLink-C2C互连技术可将CPU与GPU结合起来，用于GPU和CPU之间的高性能和一致性通信。这要求CPU要有优异的表现，Neoverse V2的SPEC FP与SPEC int性能表现突出，它可与GPU本身的数据并行处理并驾齐驱。同时，V2核心本身具备优异的每瓦性能，结合了Grace的LP DDR内存能带来优秀的每瓦性能。

Ian还透露说，英伟达正将所有的AI栈和软件移植到Arm架构。

·基于Arm Neoverse核心的其他应用

Arm正逐步迈入更为传统的 “企业” 领域。VMware和英伟达及生态系统合作伙伴共同合作的Monterey项目，旨在利用包括英伟达BlueField DPU在内的最新网络技术，提高企业数据中心的性能、可管理性和安全性。

另外，RedHat的OpenShift支持Arm架构，SAP HANA正将其云基础设施迁移到AWS Graviton上，HPE新推出的ProLiant第11代平台，搭载了基于Arm Neoverse的Ampere Altra处理器等。

·Arm持续赋能初创企业推动创新步伐

同时，国内也有很多初创公司投入Arm架构开发，其中有三家来自中资初创企业正在开发基于Neoverse N2的产品——遇贤微电子和鸿钧微电子致力于云原生服务器CPU的开发，云豹智能则是针对DPU领域。

Arm表示，与大型企业相比，初创公司确实有其优势，因初创公司致力于产品计划的开发，发展速度非常快，也非常开放。

·大多数DPU基于Arm架构开发

各种“云”都利用DPU来支撑云工作负载，而绝大多数DPU都基于Arm架构开发，Arm提供了功能强大且极其高效的核心，芯片供应商通过使用Arm架构，可围绕Arm核心来进行芯片定制。

Chris Bergey指出：“这些DPU以极高的比特率处理网络数据包，并以每秒千兆字节的速度加密NVMe SDD流量。此外，DPU还要加强客户的工作负载与数据中心的其余部分之间的安全边界，这都能在Arm CPU核心完成，这是建立在Arm高效计算基础之上的专用处理能力。”

如今的基础设施，比如SSD、HDD、DPU、视频加速器，它们都是定制化打造的，服务器CPU算是最后的标准产品，不过它将不会作为通用型产品继续发展。实际上，功耗问题不容小觑，大型互联网公司的电力支出占到总拥有成本(TCO)的30%-40%，仅微次于电信网络运营商的电力支出。由于数据速率发展过于迅猛，计算工作负载正极力增长且愈加复杂，ML和AI正在发挥取代作用。

Chris认为，基础设施需要被重新定义。“云”将继续存在于大型数据中心内，但我们的娱乐体验、交通运输和通信方式，将因边缘的构建而改变。“云”将加速发展——助力AR和VR创作者，实现视觉和触觉上的沉浸式实时体验。同时“云”也将具有高能效，DPU向大家证明了如何达成这一目标。他坚信，基础设施的未来需要基于Arm Neoverse的高性能、高能效的计算基础，还需要Arm生态系统所提供的专用处理和工作负载加速能力。

下一个发展趋势是ML

Arm认为，下一个发展趋势是ML，它正逐渐成为未来的首选工作负载。所以V1核心拥有一组专门用于增强ML应用程序性能的功能：在架构方面添加了Bfloat16(BF16)；调整了V1 、N2以及后续设计的微架构，旨在通过BERT提高BF16的执行；为Arm计算库(ACL)增加BF16支持；将ACL集成到oneDNN ML框架中；oneDNN框架与Tensorflow搭配使用以运行BERT。

“当我们在基于V1核心的AWS EC2 C7g上运行BERT，并将其与使用最新Xeon核心的 C6i进行对比，我们发现在Arm架构上经BF16优化的堆栈性能比英特尔高出80%。我们在V1添加的BF16和Int8 MatMul意味着ML模型可以更紧凑地植入内存，因此它们需要更少的内存带宽，从而使Graviton3的ML性能达到Graviton2的3倍。”