最近,Arm Neoverse路线图再次迎来更新,其中,V、E系列各增加了一款新品。Arm及其生态合作伙伴,围绕Neoverse的新品及应用做了介绍。
Arm Neoverse路线图发展历程
作为全球芯片IP行业的领导者,Arm自1990 年成立以来,其独特的 IP 技术授权许可模式,打造了一个强劲的Arm生态系统。迄今,Arm 低功耗处理器设计和软件平台已应用于超过 2,300 亿颗芯片的高级计算,覆盖从传感器到智能手机乃至超级计算的多样化应用。Arm Neoverse面向高性能计算、云数据中心、边缘计算、网络等领域,该平台囊括了V、N和E三大系列,回顾该品牌四年来的发展之路,可以看到其成长的全过程。
2018年底,Arm发布Neoverse初步路线图。这是基于Arm指令集的IP产品,主要面向高性能计算市场。当时的平台产品(代号Cosmos)基于16nm工艺,CPU核心为Cortex-A72、Cortex-A75。Arm承诺表示,Neoverse的性能将达到年增长率30%。
2019年2月,Arm Neoverse N1和Neoverse E1发布。N1平台(代号Ares)面向高性能设备,其CPU架构与Cortex-A76同源,制程工艺升级到7nm,性能比Cortex-A72提升了60%。值得注意的是,N1平台和相对应的处理器核心,代表了Arm首款专为服务器和基础设施市场设计的专用IP。
E1采用智能设计,可实现高效的数据吞吐量,与Arm前几代方案相比,吞吐量性能提升超过2.7倍,吞吐效率提升超2.4倍,计算性能提升超2倍。可为从低于35W的基站,到几百GB的路由器等设备提供支持。
2020年9月,Arm更新了Neoverse路线图,增加了Arm Neoverse V1和Arm Neoverse N2两个平台,还把Neoverse分为V、N和E三大系列:V系列主打高性能,核心更大,应用于云、HPC和AI领域;N系列性能、功耗、面积并重,并行能力强大,应用于云、5G、网络和边缘领域;E系列主打能效,功耗、核心面积要优先于性能,应用于5G、网络和基础设施边缘领域。
2021年3月底,Arm发布了Armv9指令集。同年4月底,Arm基于Armv9指令集架构推出了Neoverse N2(代号Perseus),Arm还在基于Armv8.4-A CPU指令集基础上,发布了Arm Neoverse V1(代号Zeus)。
N2以5nm工艺为主,在与N1相同功率和面积效率的情况下,N2的单线程性能可提升40%、频率提高10%。N2适用于横跨云、智能网卡、企业网络到功耗受限的边缘设备。到2022年9月,已经有近20家合作伙伴正基于N2平台进行设计。
V1是V系列的首个平台,采用7nm/5nm工艺,其单线程性能比N1提升50%以上,支持可伸缩矢量扩展(SVE),适用于高性能云、高性能计算与机器学习等应用。V1的整体架构、模块组成与N2类似,有全方位的微架构改进,全面提升了基准测试、服务器/高性能计算工作负载,并且强化了电源、功耗、发热管理。
2022年9月,Arm再一次更新了Neoverse路线图,增加了核心和平台IO细节,并宣布新增两个新品——Neoverse V2(代号Demeter)、Neoverse E2。
Neoverse V2平台配备最新V系列核心、产业广泛部署的Arm CMN-700 mesh互连技术,采用Armv9架构,旨在为云端、超大规模和HPC工作负载提供领先的单线程性能,这是新一代基础设施解决方案的基础。V2提供市场领先的整型性能,增加了2MB的专用L2缓存,比V1上的L2大上一倍,且使用延迟的负载不变,显著提升MySQL和Memcached等云应用性能。V2上支持可伸缩矢量扩展完成了SVE2的过渡,可以帮助满足更多非HPC ML类型的工作负载,同时添加了更多加密指令。
E2结合了Arm Cortex-A510 CPU和可扩展的Neoverse CMN-700和N2系统背板,以允许在受限应用程序中使用最好的云端技术,包括可扩展的核心数量范围、Arm SystemReady兼容性以及PCIe、CXL、IO和接口等。
此外,Arm还预告称,新一代Neoverse N系列产品将于2023年推出,其CPU的性能和效率与N2相比均有代际提升。
Arm Neoverse新增产品基于“四项关键性原则”打造
Arm Neoverse路线图中新增产品是基于四项关键原则打造的。
第一,可扩展效率。两年前,Arm推出了V、N和E系列核心设计原则,此后大量基于此类计算基础的解决方案陆续面市。Arm相信凭借V、N和E系列核心组合,其将比友商覆盖更多的市场并更为高效。
第二,技术领先地位。Arm已经创下了多项行业第一:第一个总内存带宽超过每秒1TB的CPU;第一个单块裸片上能配置超过100个核心的CPU,核心数达到128个;第一个将DDR5和PCIe Gen5.0推向市场的CPU;第一个在SPEC CPU 2017基准测试中打破500整型跑分的CPU。
第三,快速的创新步伐。Arm数据中心计算正以前所未有的速度进入市场,比如NXP的Layerscape效率极高,虽然只有8个核心和8MB缓存,但是却拥有每秒100GB的网络带宽,以及安全加密和PCIe扩展等功能;英伟达Grace CPU适用于AI领域,集成了144个Arm Neoverse V2核心,使用低功耗DDR5,内存带宽达每秒1TB;另外,Ampere每年都推出基于Arm架构高核心数服务器CPU,Amazon在短短4年内发布了三代基于Arm架构的Graviton处理器。
第四,独一无二的开发者社区的有力支持。Arm架构已应用在领先的Linux操作系统、云原生软件、CI(持续集成)/CD(持续交互)管道,并得到了领先编程语言和运行库的支持。Arm架构已经过主要编译器的认可和优化,目前是Kubernetes的热门开发目标。Arm 高级副总裁兼基础设施事业部总经理 Chris Bergey说,在排名前50位的Amazon EC2(亚马逊弹性计算云)客户中,有48家在运行基于Arm Neoverse的AWS Graviton处理器,包括了Twitter Feed、Snap和Airbnb等。
在Arm看来,单芯片性能和单线程性能,是云决策者的两大关键指标。单线程性能使其了解,对“扩展”要求最高且性能需求大的工作负载能否迁移到Arm。同时,高单芯片性能则使其可以通过大量运行在平台上的“横向扩展”工作负载,来实现投资价值的最大化。
超大型互联网公司十分关心TCO或TCO支出,TCO支出所能带来的性能是他们盈利的关键。使用Arm Neoverse V1核心的AWS Graviton3可提供最高的单线程性能,Arm预期Graviton3能提供出色的性价比和每瓦性能,在所有CPU中Ampere Altra Max和阿里的倚天710提供最佳单芯片吞吐量。
Arm Neoverse在内的单线程设计,其单核的全部资源被专用于软件执行的每个线程,以提供更高的单线程性能。为此,在打造高端核心时可实现更有效的核心设计。单线程的设计的优势在于,能让Arm的合作伙伴在每个系统中集成更多的完整核心。
Arm Neoverse的一些应用案例
现在,Arm已被用于全球各个主要公有云,包括AWS、微软、谷歌、阿里巴巴、甲骨文等。这意味着,全球的每一位开发者都能体验Arm Neoverse带来的便利。
·基于Arm Neoverse V1核心的AWS Graviton3 CPU
2022年8月,在亚马逊云科技(AWS)芯片创新日上,亚马逊副总裁James Hamilton讲述了AWS如何开始定制芯片之旅。
2013年,James向Andy Jassy(现任亚马逊CEO)和Jeff Bezos(亚马逊创始人)提出两个论点:1.鉴于Arm架构芯片出货量在逐年增加,他确信Arm一定能设计出优异的服务器CPU;2.很多功能正从主板逐渐迁移到SoC上,且该趋势在手机领域已现端倪,他认为服务器领域也会出现类似的发展趋势。
AWS多年来坚持打造定制服务器,随着服务器创新转移到芯片上,James得出结论——AWS需要开始打造CPU。他认为,AWS如果不打造芯片,他们的创新将受到限制。在此基础上,2015年AWS收购了Annapurna Labs,2018年AWS基于Arm Neoverse创建了AWS Graviton系列CPU,2022年基于Neoverse V1核心的AWS Graviton3落地商用。
·基于Arm Neoverse V2核心的英伟达Grace CPU
在今年6月,英伟达发布了面向AI及高性能计算(HPC)的Grace CPU超级芯片和Grace Hopper超级芯片。英伟达正在推行GPU+CPU+DPU“三芯”战略,英伟达超大规模和HPC副总裁兼总经理Ian Buck介绍说,Grace CPU基于Arm Neoverse V2核心打造,提供多达72个核心与GPU结合建立AI。NVLink-C2C互连技术可将CPU与GPU结合起来,用于GPU和CPU之间的高性能和一致性通信。这要求CPU要有优异的表现,Neoverse V2的SPEC FP与SPEC int性能表现突出,它可与GPU本身的数据并行处理并驾齐驱。同时,V2核心本身具备优异的每瓦性能,结合了Grace的LP DDR内存能带来优秀的每瓦性能。
Ian还透露说,英伟达正将所有的AI栈和软件移植到Arm架构。
·基于Arm Neoverse核心的其他应用
Arm正逐步迈入更为传统的 “企业” 领域。VMware和英伟达及生态系统合作伙伴共同合作的Monterey项目,旨在利用包括英伟达BlueField DPU在内的最新网络技术,提高企业数据中心的性能、可管理性和安全性。
另外,RedHat的OpenShift支持Arm架构,SAP HANA正将其云基础设施迁移到AWS Graviton上,HPE新推出的ProLiant第11代平台,搭载了基于Arm Neoverse的Ampere Altra处理器等。
·Arm持续赋能初创企业推动创新步伐
同时,国内也有很多初创公司投入Arm架构开发,其中有三家来自中资初创企业正在开发基于Neoverse N2的产品——遇贤微电子和鸿钧微电子致力于云原生服务器CPU的开发,云豹智能则是针对DPU领域。
Arm表示,与大型企业相比,初创公司确实有其优势,因初创公司致力于产品计划的开发,发展速度非常快,也非常开放。
·大多数DPU基于Arm架构开发
各种“云”都利用DPU来支撑云工作负载,而绝大多数DPU都基于Arm架构开发,Arm提供了功能强大且极其高效的核心,芯片供应商通过使用Arm架构,可围绕Arm核心来进行芯片定制。
Chris Bergey指出:“这些DPU以极高的比特率处理网络数据包,并以每秒千兆字节的速度加密NVMe SDD流量。此外,DPU还要加强客户的工作负载与数据中心的其余部分之间的安全边界,这都能在Arm CPU核心完成,这是建立在Arm高效计算基础之上的专用处理能力。”
如今的基础设施,比如SSD、HDD、DPU、视频加速器,它们都是定制化打造的,服务器CPU算是最后的标准产品,不过它将不会作为通用型产品继续发展。实际上,功耗问题不容小觑,大型互联网公司的电力支出占到总拥有成本(TCO)的30%-40%,仅微次于电信网络运营商的电力支出。由于数据速率发展过于迅猛,计算工作负载正极力增长且愈加复杂,ML和AI正在发挥取代作用。
Chris认为,基础设施需要被重新定义。“云”将继续存在于大型数据中心内,但我们的娱乐体验、交通运输和通信方式,将因边缘的构建而改变。“云”将加速发展——助力AR和VR创作者,实现视觉和触觉上的沉浸式实时体验。同时“云”也将具有高能效,DPU向大家证明了如何达成这一目标。他坚信,基础设施的未来需要基于Arm Neoverse的高性能、高能效的计算基础,还需要Arm生态系统所提供的专用处理和工作负载加速能力。
下一个发展趋势是ML
Arm认为,下一个发展趋势是ML,它正逐渐成为未来的首选工作负载。所以V1核心拥有一组专门用于增强ML应用程序性能的功能:在架构方面添加了Bfloat16(BF16);调整了V1 、N2以及后续设计的微架构,旨在通过BERT提高BF16的执行;为Arm计算库(ACL)增加BF16支持;将ACL集成到oneDNN ML框架中;oneDNN框架与Tensorflow搭配使用以运行BERT。
“当我们在基于V1核心的AWS EC2 C7g上运行BERT,并将其与使用最新Xeon核心的 C6i进行对比,我们发现在Arm架构上经BF16优化的堆栈性能比英特尔高出80%。我们在V1添加的BF16和Int8 MatMul意味着ML模型可以更紧凑地植入内存,因此它们需要更少的内存带宽,从而使Graviton3的ML性能达到Graviton2的3倍。”
相关文章