从数据中心到边缘侧，英特尔全方案助力AI加速落地

2024年7月25日，在由专业电子机构媒体AspenCore与深圳市新一代信息通信产业集群联合主办的联合主办的“2024国际AIoT生态发展大会”上，英特尔中国解决方案架构师杨涛分享了该公司持续的算力创新动态。

他指出，近年来随着生成式AI的火爆，芯片行业有两大趋势日益突显——预计在未来两年内，约有80%的企业会部署生成式AI，对产业而言这是极大的市场机会。另外，约有50%的边缘计算设备具备机器学习功能，芯片企业需为端侧设备增加AI处理算力。

在此背景下，杨涛介绍了英特尔在算力创新方面的一些动态。为了支持对AI的需求，英特尔在最近几年在持续发布并更新AI加速器、支持大模型的软件栈、支持端侧AI需求的分离式显卡、内置GPU、CPU、NPU的处理器，以及面向AI的开源软件等产品。

支持AI训练/推理的加速器和软件生态

英特尔先后发布了两款AI芯片——Gaudi® 2和Gaudi® 3——是面向数据中心主推的AI训练/推理芯片。

Gaudi® 2在2023年发布，采用了台积电7纳米技术，Gaudi® 3在2024年发布，采用了台积电5纳米技术。Gaudi® 3与前一代相比有诸多提升，比如在AI FP8(8位浮点数)算力提升2倍，BF16算力提升了4倍；同时网络带宽提升2倍，内存带宽提升1.5倍。

在杨涛看来，在大芯片上集成AI还存在较大的门槛。“门槛主要体现在软件生态方面，许多公司虽然推出了性能指标非常高的芯片，但是这些芯片如何与大模型公司结合仍存在挑战，而英特尔的AI芯片在软件生态上的适配度非常好。”

在今年4月，Meta发布了Llama 3大模型，紧接着，在7月24日，该公司又发布了升级版的Llama 3.1。在上述大模型发布的当日，英特尔就宣布自己的AI产品组合支持这些大模型，并通过开放生态系统软件实现针对性优化，这涵盖了 PyTorch 及英特尔^®PyTorch 扩展包、DeepSpeed、Hugging Face Optimum库和vLLM等。

杨涛还介绍说，英特尔针对国内的大模型用户也有新动态。例如，上个月，阿里云发布了通义千问Qwen2大模型，英特尔在该模型发布的当天，也发布了支持通义千问Qwen2大模型的软件栈。“我们想强调的是，英特尔不仅有单一的AI指标，同时也有非常好的软件生态，能第一时间支持最新的大模型。”

支持端侧的分离式显卡

除了应用在数据中心训练/推理场景的AI产品之外，英特尔也支持对端侧AIoT领域的AI算力提升。例如，英特尔在显卡领域已经布局很多年，但此前主要面向传统的PC集成显卡(核显)市场，多年来独立显卡市场一直被英伟达和AMD占据。

最近几年，先是全民“挖矿”风潮兴起，紧接着又是生成式AI爆红，显卡的核心功能也从加速图形渲染，扩大到加速HPC高性能计算、DL深度学习、AI人工智能等能力上。一时间，显卡成为这几年红到不能再红的“炸子鸡”。

面对如此庞大的显卡市场，英特尔也开始加强在显卡领域的布局。2022年3月30日，英特尔正式发布最新的独立显卡，该显卡被命名为Intel ARC(中文名为锐炫)。到2024年，Intel ARC系列更新到了第二代，其GPU max系列产品针对数据中心超算部署。

英特尔的独立显卡均采用Xe GPU架构，该架构下的产品细分为主打集成显卡和入门独显的超低功耗Xe LP、针对游戏优化的高性能图形Xe LPG、面向数据中心和AI应用的高性能Xe HP、适合超级计算的高性能计算Xe HPC四种微架构。这些不同架构的显卡为不同应用场景优化，完整覆盖集成显卡、入门级独显、主流独显、旗舰独显、工作站、服务器数据中心、流媒体编解码、AI、HPC和超算等各个细分领域。

端侧设备有大量的AI需求，而如何去满足这些设备的AI算力是芯片企业需要考虑的问题。今年6月，在Computex 2024期间，英特尔CEO帕特·基辛格公布了下一代AI PC旗舰处理器Lunar Lake的架构细节。据介绍，该处理器在图形和AI处理能力上有较大提升，并且着重提高了轻薄本的高能效计算性能。Lunar Lake 将降低最高达40%的SoC功耗和带来超过3倍的AI算力。该处理器于2024年第三季度出货。

具体来看，下一代AI PC旗舰处理器Lunar Lake集成了CPU、GPU、NPU，这些器件总计带来了120TOPS的AI算力——CPU通过添加向量指令支持AI，可以带来5TOPS的算力，内置的GPU算力高达67TOPS，同时还带矩阵计算能力，NPU(神经网络处理器)带来更高的效率，带来了最高48TOPS的算力。

AI开源深度学习工具包

与数据中心领域一样，不仅有算力挑战，还有软件生态的挑战。边缘侧也面临着算力和软件层面的挑战。英特尔为了实现在多种硬件平台上进行优化的神经网络推理，‌加速AI工作负载的处理，‌并缩短开发周期，推出了一个深度学习工具包OpenVINO。

该工具包采用了一种“一次编写，‌随处部署”的方法，‌特别针对英特尔硬件平台进行了优化，‌包括CPU、‌GPU、‌VPU‌和FPGA。‌OpenVINO的支持涵盖了从模型选择、‌优化到部署的整个流程，‌使得开发人员能够更高效地利用英特尔硬件加速AI应用的开发和部署。‌

这是一个开源的软件，不仅支持英特尔的芯片架构，也支持第三方的芯片架构，“这是一个针对端侧、边缘侧的AI推理的软件框架，我们希望能够适用于各种边缘应用、AI PC，及云端CPU。”最后，杨涛指出，OpenVINO的大概的发展方向有三个：第一，模型训练；第二，模型优化；第三，模型部署。