现在无疑是AI大爆炸的时代。在这个时代下,除了GPU,不同的负载的也需要不同的算力,以获得最佳的运行状态,这其中便包括了FPGA。
日前,AMD推出第一款大规模市场的加速卡产品Alveo V80,现已量产出货。它不仅使用了Versal FPGA自适应SoC,还包含HBM。
解决内存和网络的瓶颈
事实上,对于大规模数据处理,最佳性能不仅取决于原始计算能力,还取决于高存储器带宽。
传统的处理架构中,无论是存储器还是网络访问都非常容易形成瓶颈,简单理解就是网络接口和DDR内存的带宽跟不上计算CPU或FPGA的带宽。
因此,全新Alveo V80计算加速卡专为具有大型数据集的内存受限型应用而设计:内存采用HBM2e,提供820 GB/s存储器带宽,容量达到32GB;网络访问采用QSFP56光纤模块,支持从10G到800G的带宽,且速率有所提高,支持不同的协议,支持 4X10G/25G/40G/50G/200G等不同工作模式。
通过HBM与各种Versal器件,便可以处理瓶颈问题,不再需要DDR4或其它外部芯片,便可帮助用户实现性能最大化,减少功耗、占板面积以及时延。
众所周知,采用HBM比DDR而言,更为昂贵。但是如果能够正确地配置FPGA资源作为补充的话,最终就能实现高性价比的竞争优势。而AMD从UltraScale+ U55C过渡到AMD Versal V80,在性能提升基础上,现在成本增加最有限,这便是Alveo V80的设计逻辑所在。
AMD自适应和嵌入式计算事业部(AECG)高级产品线经理Shyam Chander解释道,AMD发现用HBM可以应对非常广泛的工作负载,包括内存带宽计算,通过这样的方式可以实现最高的性价比,因此客户也更加有动力去采用Versal来提升相关的性能,也能更好地处理相关的工作负载。
他强调,面对HBM成本或价格方面问题,需要在定义产品时,做好工作负载及计算资源的分配。比如,在做PCB封装尺寸时权衡HBM包装的芯片占板面积大小,同时正确配置FPGA资源作为补充,那么DDR在同等内存情况下,PCB占板面积就会比较大。相比之下Alveo V80无论是成本、性能还是占板面积方面,都会具备很大的优势。
Versal HBM家族最大的器件
Shyam坦言,事实上,在推出Alveo V80方面之前,就已经看到客户对于自适应SoC的兴趣非常强烈。一方面它能够在计算和存储器带宽方面提供非常高的性价比,另一方面Versal系列产品能提供非常高的价值,包括逻辑资源和低时延以及各个节点的可扩展性。为了顺应市场上的这种期待,Alveo V80应运而生。
具体从架构来看,Alveo V80是Versal HBM系列家族最大的一个器件,能够提供260万个LUT的可编程逻辑,支持很多平行工作;包括一个32GB的DDR4 DIMM扩展插槽;带宽达到每秒800GB,可以应对非常大的数据工作量要求,消除很多瓶颈;采用PCle Gen5接口,能够支持64G传输速率,是之前第四代的2倍;支持MCIO的连接,有可扩展的GTY,可以实现存储卡的一系列连接;全高有3/4长,共300W功率,采用被动冷却,可以使用Vivado工具进行开发。
AMD的Versal是一个标量、灵活应变和智能的引擎,因此性能和功能优化主要来自很多硬化功能,因此用户没有必要使用软性IP进行部署。
在Versal的加持下,Alveo V80拥有三个特点:一是具备集成型的高带宽网络核心与加密引擎,因此拥有超高的带宽;二是具备多达10890个DSP计算逻辑片,提供较之前代产品至高2到3倍的DSP性能;三是有硬化与计算基础设施的连接,通过超级通路实现轻松集成。
正因为上述技术加持,与上一代产品Alveo U55C相比,Alveo V80加速卡有了全面的提升:存储器带宽提升了4倍,从200GB/s提高到820GB/s;逻辑密度提升了2倍,从1.3M提升至2.6M;网络带宽提升了4倍,从200GB/s升至800GB/s;PCle带宽提升了2倍,从32GB/s提升至64GB/s。
一般加速卡都要与本地CPU连接,但这会限制加速卡的使用数量。而Alveo V80不需要通过CPU,可以通过MCIO扩展口做连接实现FPGA到FPGA卡对卡的连接。
与传统加速卡相比,Alveo V80能带来以下优势:一是低时延处理传入网络数据;二是能避开CPU至加速器的PCle瓶颈;三是消除自己或分类式网络接口卡;四是能够实现每服务器的卡数和计算密度的最大化。通过上述优势可以实现在线加密、数据包监控、传感器处理等功能。
CPU或GPU的传统架构是固定的缓存层次结构,用于数据读取和输入,在这个过程中不规则的访问模式会引起潜在的低效率。
AMD FPGA的自适应计算架构则是一个非常灵活的架构,通过在计算附近分配内存,实现降低延迟和低功耗,而且可以灵活适应自定义的数据设计和数据建议。
谈及GPU与FPGA,Shyam认为二者擅长领域不同,各有所长。他指出,GPU主要擅长浮点、并联、定点,可以提供大量的HBM;但FPGA更擅长实时处理,具备低时延、灵活应变的特点,有非常丰富的存储器架构资源,就像乐高积木一样,可以自定义进行拼接和拼装。
所以如果要使用Alveo系列产品的话,就一定要拥抱硬件的工作流程,也就是Vivado。如果能做到这一点,在性能自定义的优化方面都能够做到极致。
现在这个时代,几乎所有的工作负载都用上了人工智能,Alveo V80则非常适合高性能计算、数据分析、金融科技、网络安全、存储或AI计算的应用。
在天文领域,联邦科学与工业研究组织CSIRO是澳大利亚国家级研究机构,参与了世界最大射电天文天线阵列的建设,该项目中持续传感器数据传输速度能达到每秒15TB。
该阵列目前包含420张Alveo U55C加速卡,需要21台服务器,每年约消耗520千瓦时的电力。主要通过处理无线电波来研究早期宇宙并探索信息演化。然而,随着项目工作负载的增加,需要快速扩展计算资源,并在有限的机架空间内进行优化,以容纳更多的设备。
因此CSIRO选择了采用140张Alveo V80扩大计算方面的性能,最终,在相近的总拥有成本下,实现了上一代产品3倍的算力,服务器降低到了14台,每年消耗的电力也减少到236千瓦时,同时还照顾到了有限的机架空间。这意味着,整个项目的总拥有成本降低21%,并且这个变化持续了三年以上。
在服务器领域,同样是存储10Pb数据存储,如果没有压缩的话,就需要55台服务器,1303个SSD驱动器,每年约427千瓦时的功耗。
如果进行压缩的话,同样10Pb数据,只需要21台服务器,504个SSD驱动器,每年约233千瓦时。使用42张AMD Alveo V80卡进行压缩,总拥有成本三年以上至高可以达到56%的降低,而且服务器的数量、服务器成本以及功耗也都有非常显著的降低。
在网络安全领域,Alveo V80的HBM可以用于缓冲和流量表的存储,同时数据拥有更好的连接,更好地实现流量管理。究其原因在于Versal芯片能提供硬化的IP包括加密引擎,实现至高800G的内嵌 IPSec;同时HBM可用于缓冲和流量表存储来加强安全性能。
在金融领域,Alveo V80支持密集计算的FPGA架构与DSP,大数据集与历史定价数据由HBM支持;在低时延算法交易方面,Alveo V80可以加速交易策略和期权定价,另以752Mb的RAM用于定价数据、交易记录,HBM则用于数据集与订单信息。
加速开发,快速上市
Alveo V80除了在性能方面极具优势以外,快速上市是Alveo V80的重要价值定位和优势。
Alveo V80经历了严格的热处理检测,保证及时可用,并提供三年质保。相比内部构建PCle卡需要耗费大量时间进行RTL验证和系统集成任务,使用Alveo V80可以避免这种系统集成的任务,实现快速部署。此外,基于Supermicro和AMD EPYC处理器锚服务器可即刻部署。
AMD对产品的全生命周期有重要考虑,提供长达五年的支持。对于想要使用Versal HBM进行布局的客户来说,Alveo V80就是非常好的选择。
在开发方面,Alveo V80也提供了非常熟悉的FPGA开发流程,在AMD的Vivado工具设计框架加持下,都可以帮助客户更快更好地部署自己的项目。