苹果引领了移动计算芯片的持续突破,而亚马逊云科技则引领了数据中心高性能计算的不断创新。对于用户场景的顶级理解和对用户体验的至高追求,让两者在自研芯片上能够有着比通用芯片商更高的成就。
在今年的re:Invent大会上,亚马逊云科技展示了其最新的云中硬件上的突破,包括新版本的 AmazonNitro虚拟引擎 、基于Arm的定制最新 AmazonGraviton 3E 芯片和一系列最新实例。一切都是为实现更高能效的高性能计算,而亚马逊云科技中极限的客户规模和HPC工作量,让其在硬件上的每一点点特定负载优化,都能够获得极大的整体效益。
“多年前我们意识到,要想突破性能极限,我们必须一直向下推进到硅片的创新层面上。从那时起,我们的定制芯片就成为了亚马逊云科技的一大差异化因素。”亚马逊云科技CEO Adam Selipsk在re:Invent主题演讲中分享到,“其他人已经注意到、甚至宣布了其尚未真正问世的芯片,但没有一个可以与亚马逊云科技今天的水平相提并论。”
A mumbers of years ago, we realized that to push the performance envelope, we had to push all the way down to the silicon. So since then, our custom chip have been a big differentiator for AWS. Others have taken notice and even announced chips that haven't really come out yet, but none are even close to where AWS already is today.
——Adam Selipsk @ AWS re:Invent 2022
Nitro V5:晶体管数量翻倍,每瓦特性能提升了40%
AmazonNitro是亚马逊云科技定制化自研芯片的起点,通过Nitro可以实现网络的虚拟化、计算的虚拟化、存储的虚拟化,保证系统很好的安全性。有了Nitro之后,系统不会占用用户自己购买的CPU资源,从而提升了用户整体计算服务效能。
AmazonNitro采用了一个专业的定制芯片和独立的模块化设计, 包括三大特点。第一,Nitro有一个非常高效的虚拟化引擎,性能损耗不到1%,对用户来说几乎可以忽略不计。第二,Nitro系统提供了网络和存储能力,而且整个网络和存储的实现是完全隔离的,不会互相影响。第三,实现了一个硬件级别的安全机制。
AmazonNitro的整个演进可以追溯到2012年,而在今年的re:Invent大会上发布了其第五代产品——Nitro V5。第一代Nitro的网络性能只能做到万兆级别(10Gbps),到第四代已经可以达到100GB的能力(100Gbps),有了10倍性能提升。而Nitro V5晶体管数量是第四代Nitro的两倍,整个数据包的转发能力提升了60%,延迟减少了30%,每瓦特的性能提升了40%。
此次最新发布的Amazon EC2 Hpc6id实例就是基于Amazon Nitro系统构建,Hpc6id 实例旨在为数据和内存密集型HPC工作负载提供领先的性价比,具有更高的每核内存带宽、更快的本地 SSD 存储以及带有弹性结构适配器的增强网络。Hpc6id实例提供200Gbps 弹性结构适配器网络,用于高吞吐量节点间通信,使客户 HPC 工作负载能够大规模运行。
Graviton3E:浮点和向量运算加强,AI更高能效
AmazonNitro是起点,但亚马逊云科技并不止步于此。在高性能计算中心,CPU其实是更为关键的一类芯片,AmazonGraviton的意义也就在于此。
AmazonGraviton是亚马逊基于Arm架构定制开发的高性能计算芯片,而此次大会上发布的是其第三代——AmazonGraviton3E。据悉,Graviton3E配备了领先的DDR5的内存,浮点性能和加密性能都提升了2倍,机器学习的工作负载能力提高了3倍。
如上图所示,Graviton3E由7个chiplets组成,其中64个Arm计算核心作为主要计算单元放置在芯片中间,Arm核的两侧分别放置着DDR5的芯粒,下方是PCIe 5的芯粒。采用这种chiplet方式可以让计算、内存和接口芯片以不对称的迭代方式分别进行升级,确保Graviton的迭代节奏,并能够在每一代都保持更高的性能。
Graviton3E专门针对浮点和向量指令运算进行了优化,这将大大提升AI和ML这些高性能计算的工作效率。从用户场景来看,在HPC新一代数据测量工具上,Graviton 3E相比于Graviton3有35%的提升,在分子运动分析场景上性能可以提升12%,在金融期权定价方面可以提升30%的性能。
芯片是硬件基础,但并不是目的,实现高性能计算赋能才是最终答案。与Graviton3E一起,亚马逊云科技在此次大会上也同步发布了Amazon EC2 Hpc7g实例。
Amazon EC2 Hpc7g实例采用了新发布的Graviton3E和Nitro V5,它提供了更多的网络功能,拥有更高的内存带宽和200Gbps的EFA弹性结构适配器网络,性能方面与当前一代C6gn实例相比浮点性能提高了2倍,与当前一代Hpc6a实例相比性能提高了20%,为亚马逊云科技上的高性能计算工作负载提供了超高性价比。
机器学习:超级集群训练和大型分布式推理
除了Nitro和Graviton外,亚马逊云科技的第三条自研芯片线是机器学习芯片,包含训练和推理两个系列。
在今年10月份亚马逊云科技就发布了其在训练方面的最新进展,最新的Trn1实例可以实现16颗Trn1的芯片,512个GB高带宽内存和800Gbps的网络带宽。而在此次re:Invent大会上,我们看到了最新的网络加强的Trn1n实例。
据悉Trn1n把网络带宽增加了一倍,从800GB跃升到1.6个TB。通过强大的网络吞吐能力,可以让客户能够对超过1万个Traniumn芯片构建在一个超大规模集群里,对超大集群进行并行训练。
在推理芯片方面,亚马逊云科技发布了最新的自研推理芯片AmazonInferentia2以及基于此的Amazon EC2 Inf2实例。
Amazon EC2 Inf2实例,是唯一一个专门为了大型transformer模型,所做的模型分布式推理建立的实例。和Inf1实例相比,Inf2实例整个吞吐量提升了4倍,延时只有十分之一。每瓦性能提升达到45%,同时也支持类似于GPT-3,Mask R-CNN、VIT等等这样超大型的复杂模型。
结语
亚马逊云科技Amazon EC2副总裁David Brown表示:“从Graviton到Trainium、Inferentia再到Nitro,亚马逊云科技每一代自研芯片都为客户的各种工作负载提供更高的性能、更优化的成本和更高的能效。
高性能的芯片,最终目的是赋能高性能的计算,为客户实现更高效能的云服务。此次发布的7g和6id两个新的实例,也将为客户的特定工作负载提供更高性价比的高性能计算。