性能翻倍，AMD推出首款大规模数据处理市场的加速卡产品Alveo V80

发布时间: 2024-06-06

来源: 电子工程世界

现在无疑是AI大爆炸的时代。在这个时代下，除了GPU，不同的负载的也需要不同的算力，以获得最佳的运行状态，这其中便包括了FPGA。

日前，AMD推出第一款大规模市场的加速卡产品Alveo V80，现已量产出货。它不仅使用了Versal FPGA自适应SoC，还包含HBM。

解决内存和网络的瓶颈

事实上，对于大规模数据处理，最佳性能不仅取决于原始计算能力，还取决于高存储器带宽。

传统的处理架构中，无论是存储器还是网络访问都非常容易形成瓶颈，简单理解就是网络接口和DDR内存的带宽跟不上计算CPU或FPGA的带宽。

因此，全新Alveo V80计算加速卡专为具有大型数据集的内存受限型应用而设计：内存采用HBM2e，提供820 GB/s存储器带宽，容量达到32GB；网络访问采用QSFP56光纤模块，支持从10G到800G的带宽，且速率有所提高，支持不同的协议，支持 4X10G/25G/40G/50G/200G等不同工作模式。

通过HBM与各种Versal器件，便可以处理瓶颈问题，不再需要DDR4或其它外部芯片，便可帮助用户实现性能最大化，减少功耗、占板面积以及时延。

众所周知，采用HBM比DDR而言，更为昂贵。但是如果能够正确地配置FPGA资源作为补充的话，最终就能实现高性价比的竞争优势。而AMD从UltraScale+ U55C过渡到AMD Versal V80，在性能提升基础上，现在成本增加最有限，这便是Alveo V80的设计逻辑所在。

AMD自适应和嵌入式计算事业部（AECG）高级产品线经理Shyam Chander解释道，AMD发现用HBM可以应对非常广泛的工作负载，包括内存带宽计算，通过这样的方式可以实现最高的性价比，因此客户也更加有动力去采用Versal来提升相关的性能，也能更好地处理相关的工作负载。

他强调，面对HBM成本或价格方面问题，需要在定义产品时，做好工作负载及计算资源的分配。比如，在做PCB封装尺寸时权衡HBM包装的芯片占板面积大小，同时正确配置FPGA资源作为补充，那么DDR在同等内存情况下，PCB占板面积就会比较大。相比之下Alveo V80无论是成本、性能还是占板面积方面，都会具备很大的优势。

Versal HBM家族最大的器件

Shyam坦言，事实上，在推出Alveo V80方面之前，就已经看到客户对于自适应SoC的兴趣非常强烈。一方面它能够在计算和存储器带宽方面提供非常高的性价比，另一方面Versal系列产品能提供非常高的价值，包括逻辑资源和低时延以及各个节点的可扩展性。为了顺应市场上的这种期待，Alveo V80应运而生。

具体从架构来看，Alveo V80是Versal HBM系列家族最大的一个器件，能够提供260万个LUT的可编程逻辑，支持很多平行工作；包括一个32GB的DDR4 DIMM扩展插槽；带宽达到每秒800GB，可以应对非常大的数据工作量要求，消除很多瓶颈；采用PCle Gen5接口，能够支持64G传输速率，是之前第四代的2倍；支持MCIO的连接，有可扩展的GTY，可以实现存储卡的一系列连接；全高有3/4长，共300W功率，采用被动冷却，可以使用Vivado工具进行开发。

AMD的Versal是一个标量、灵活应变和智能的引擎，因此性能和功能优化主要来自很多硬化功能，因此用户没有必要使用软性IP进行部署。

在Versal的加持下，Alveo V80拥有三个特点：一是具备集成型的高带宽网络核心与加密引擎，因此拥有超高的带宽；二是具备多达10890个DSP计算逻辑片，提供较之前代产品至高2到3倍的DSP性能；三是有硬化与计算基础设施的连接，通过超级通路实现轻松集成。

正因为上述技术加持，与上一代产品Alveo U55C相比，Alveo V80加速卡有了全面的提升：存储器带宽提升了4倍，从200GB/s提高到820GB/s；逻辑密度提升了2倍，从1.3M提升至2.6M；网络带宽提升了4倍，从200GB/s升至800GB/s；PCle带宽提升了2倍，从32GB/s提升至64GB/s。

一般加速卡都要与本地CPU连接，但这会限制加速卡的使用数量。而Alveo V80不需要通过CPU，可以通过MCIO扩展口做连接实现FPGA到FPGA卡对卡的连接。

与传统加速卡相比，Alveo V80能带来以下优势：一是低时延处理传入网络数据；二是能避开CPU至加速器的PCle瓶颈；三是消除自己或分类式网络接口卡；四是能够实现每服务器的卡数和计算密度的最大化。通过上述优势可以实现在线加密、数据包监控、传感器处理等功能。

CPU或GPU的传统架构是固定的缓存层次结构，用于数据读取和输入，在这个过程中不规则的访问模式会引起潜在的低效率。

AMD FPGA的自适应计算架构则是一个非常灵活的架构，通过在计算附近分配内存，实现降低延迟和低功耗，而且可以灵活适应自定义的数据设计和数据建议。

谈及GPU与FPGA，Shyam认为二者擅长领域不同，各有所长。他指出，GPU主要擅长浮点、并联、定点，可以提供大量的HBM；但FPGA更擅长实时处理，具备低时延、灵活应变的特点，有非常丰富的存储器架构资源，就像乐高积木一样，可以自定义进行拼接和拼装。

所以如果要使用Alveo系列产品的话，就一定要拥抱硬件的工作流程，也就是Vivado。如果能做到这一点，在性能自定义的优化方面都能够做到极致。

现在这个时代，几乎所有的工作负载都用上了人工智能，Alveo V80则非常适合高性能计算、数据分析、金融科技、网络安全、存储或AI计算的应用。

在天文领域，联邦科学与工业研究组织CSIRO是澳大利亚国家级研究机构，参与了世界最大射电天文天线阵列的建设，该项目中持续传感器数据传输速度能达到每秒15TB。

该阵列目前包含420张Alveo U55C加速卡，需要21台服务器，每年约消耗520千瓦时的电力。主要通过处理无线电波来研究早期宇宙并探索信息演化。然而，随着项目工作负载的增加，需要快速扩展计算资源，并在有限的机架空间内进行优化，以容纳更多的设备。

因此CSIRO选择了采用140张Alveo V80扩大计算方面的性能，最终，在相近的总拥有成本下，实现了上一代产品3倍的算力，服务器降低到了14台，每年消耗的电力也减少到236千瓦时，同时还照顾到了有限的机架空间。这意味着，整个项目的总拥有成本降低21%，并且这个变化持续了三年以上。

在服务器领域，同样是存储10Pb数据存储，如果没有压缩的话，就需要55台服务器，1303个SSD驱动器，每年约427千瓦时的功耗。

如果进行压缩的话，同样10Pb数据，只需要21台服务器，504个SSD驱动器，每年约233千瓦时。使用42张AMD Alveo V80卡进行压缩，总拥有成本三年以上至高可以达到56%的降低，而且服务器的数量、服务器成本以及功耗也都有非常显著的降低。

在网络安全领域，Alveo V80的HBM可以用于缓冲和流量表的存储，同时数据拥有更好的连接，更好地实现流量管理。究其原因在于Versal芯片能提供硬化的IP包括加密引擎，实现至高800G的内嵌 IPSec；同时HBM可用于缓冲和流量表存储来加强安全性能。

在金融领域，Alveo V80支持密集计算的FPGA架构与DSP，大数据集与历史定价数据由HBM支持；在低时延算法交易方面，Alveo V80可以加速交易策略和期权定价，另以752Mb的RAM用于定价数据、交易记录，HBM则用于数据集与订单信息。

加速开发，快速上市

Alveo V80除了在性能方面极具优势以外，快速上市是Alveo V80的重要价值定位和优势。

Alveo V80经历了严格的热处理检测，保证及时可用，并提供三年质保。相比内部构建PCle卡需要耗费大量时间进行RTL验证和系统集成任务，使用Alveo V80可以避免这种系统集成的任务，实现快速部署。此外，基于Supermicro和AMD EPYC处理器锚服务器可即刻部署。

AMD对产品的全生命周期有重要考虑，提供长达五年的支持。对于想要使用Versal HBM进行布局的客户来说，Alveo V80就是非常好的选择。

在开发方面，Alveo V80也提供了非常熟悉的FPGA开发流程，在AMD的Vivado工具设计框架加持下，都可以帮助客户更快更好地部署自己的项目。

文章来源于: 电子工程世界原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。