英伟达算力垄断能否被打破？各大厂商下场展开自研AI芯片竞赛

发布时间:

来源: 电子产品世界

据市场研究公司Omdia披露，2023年第二季度，出货了900吨H100 GPU。而一个带有散热器的H100 GPU的平均重量超过3公斤，因此在第二季度出货了30多万块H100。

本文引用地址：

以ChatGPT为首的生成式工具在全球范围内掀起了一股热潮，拉升了对H100、A100、H800和A800等高性能GPU的需求，这使得该公司在全球 GPU市场拿下达90%的市占率。随着英伟达从生成式人工智能热潮中获利，该公司未来一年的出货量将加速增长，预计今年有望销售约3600吨H100 GPU，相当于大约120万块。

对抗英伟达

市面上的大模型越来越多，对的需求量爆炸式增长：对于云厂商来说，只能不断的堆服务器；对于大模型开发者来说，对的需求也在趋紧。自英伟达发布大模型专用GPU并量产供货后，据行业内部消息称，由于市场需求远大于产能供应，2023年英伟达H100的产量早已销售一空，现在交钱订购，至少要到2024年中才能拿到货。

英伟达GPU不光不愁卖，利润率还高得吓人。美国金融机构Raymond James在报告中透露，H100成本约3320美元，但英伟达对其客户的批量价格仍然高达2.5万-3万美元。这一点从季度财报中也能得到充分印证，英伟达Q2财季净利润高达61.8亿美元，同比上升843%。

截屏2023-10-13 23.56.27.png

英伟达井喷式的业绩增长和长期展望表明AI需求并非昙花一现，AI行业涵盖了芯片设计、制造和应用等多个领域。AI芯片的出现让大规模的数据效率大大提升，技术升级带来巨大的生产力飞跃，也正在对各个产业带来革命性改变，甚至产业逻辑也需要被重估。

巨大的市场空间，以及超乎想象的前景，吸引全球众多大型科技公司都在积极投入AI芯片研发与生产，将进一步刺激行业竞争。在此趋势下，AI芯片的战役正愈演愈烈。

不管是为了降低成本，还是减少对英伟达的依赖、提高议价能力，在AI芯片市场要对抗英伟达，其他厂商当前只能抓住英伟达的产能仍较低的窗口期进行布局。

作为英伟达的最大竞争对手，发布了AI处理器MI300系列芯片，包括MI300A、MI300X两个版本。其中MI300X是一款直接对标英伟达H100芯片，专门面向生成式AI推出的加速器，采用了8个GPU Chiplet加4个I/O内存Chiplet的设计，总共12个5nm Chiplet封装在一起，使其集成的晶体管数量达到了1530亿，高于英伟达H100的800亿晶体管。

截屏2023-10-13 23.59.50.png

与英伟达的H100芯片相比，MI300X的HBM密度是前者的2.4倍，带宽则为前者的1.6倍，理论上可以运行比H100更大的模型。此外，还发布了“AMD Instinct Platform”，集合了8个MI300X，可提供总计1.5TB的HBM3内存。

苏姿丰表示，随着模型参数规模越来越大，就需要更多的GPU来运行。而随着AMD芯片内存的增加，开发人员将不再需要那么多数量的GPU，能够为用户节省成本。尽管AMD也在加速布局，但要量产，还要等到本财年第四季度。

英特尔

今年7月，英特尔面向中国市场推出了AI芯片Habana Gaudi 2，直接对标英伟达的A100，是专为训练大语言模型而构建，采用7nm制程，有24个张量处理器核心。数据显示，从计算机视觉模型训练到1760亿参数的BLOOMZ推理，Gaudi 2每瓦性能约A100的2倍，模型训练和部署的功耗降低约一半。

相比A100，Gaudi 2价格更有竞争力，且性能更高，接下来采用FP8软件的Gaudi 2预计能够提供比H100更高的性价比。值得注意的是，去年英特尔就已经在海外发布了Gaudi 2。

而英特尔在旧金山举行的“Intel Innovation”大会上透露，使用5nm工艺打造的下一代Gaudi 3将在性能方面大幅提升。其中，BF16下的性能提升了四倍、计算能力提升了2倍、网络带宽的1.5倍以及HBM容量的提升1.5倍。

在Gaudi 3之后，英特尔还计划推出一个代号为Falcon Shores的继任者。按照其最初规划，Falcon Shores芯片为“XPU”设计，即集成CPU和GPU。但在上个月的财报会上，英特尔调整了Falcon Shores的计划，将其重新定位为独立GPU，并将于2025年发布。

其实在产品路线上，英特尔近年一直强调XPU，即多样化、多组合的异构计算。在AI相关的产品线上，既有集成AI加速器的CPU处理器、有GPU产品，以及Habana Gaudi系列代表的ASIC类型AI芯片。

IBM

IBM最近公布了一款新的模拟AI芯片，这款新芯片旨在解决生成式人工智能的主要问题之一：高能耗。通过集成大量的相变存储单元实现更高效的计算和能效，据称其能效比英伟达H100高出14倍。这对于大型模型的运行来说尤为重要，因为这些大型模型通常需要更多的能量来运行，意味着在相同的能量消耗下，它能够完成更多的计算任务。

IBM声称其14nm模拟AI芯片每个组件可以编码3500万个相变存储设备，可以建模多达1700万个参数。同时，该芯片模仿了人脑的运作方式，微芯片直接在内存中执行计算，适用于节能语音识别和转录。随着技术的不断发展，预计未来模拟芯片有望成为人工智能领域的新趋势。

亚马逊

亚马逊已拥有两款AI专用芯片 —— 训练芯片Trainium和推理芯片Inferentia。2018年底，AWS推出自研AI推理芯片Inferentia，可以以低成本在云端运行图像识别、语音识别、自然语言处理、个性化和欺诈检测等大规模机器学习推理应用程序；2020年底，AWS推出专用于训练机器学习模型的Trainium。

2023年初，专为人工智能打造的Inferentia 2发布，将计算性能提高了三倍，加速器总内存提高了四分之一，吞吐量提高了四分之一，延迟提高了十分之一。Inf2实例（可通过芯片之间的直接超高速连接支持分布式推理）最多可支持1750亿个参数，这使其成为大规模模型推理的有力竞争者。

在亚马逊、微软和谷歌这三家中，亚马逊是唯一一家在服务器中提供两种类型芯片（标准计算芯片和用于训练与运行机器学习模型的专用芯片）的云提供商，其在2015年收购以色列芯片设计公司Annapurna Labs为这些努力奠定了基础。

谷歌

早在2013年，谷歌就已秘密研发一款专注于AI机器学习算法的芯片，并将其用在内部的云计算数据中心中，以取代英伟达的GPU。2016年5月，这款自研芯片公诸于世，即TPU：TPU可以为深度学习模型执行大规模矩阵运算，例如用于自然语言处理、计算机视觉和推荐系统的模型，其最初专为谷歌的超级业务云计算数据中心而生。

实际上2020年，谷歌就在其数据中心部署了人工智能芯片TPU v4。不过直到今年4月4日，谷歌才首次公开了技术细节 —— 相比TPU v3，TPU v4性能提升2.1倍；基于TPU v4的超级计算机拥有4096块芯片，整体速度提高了约10倍。谷歌称，对于类似大小的系统，谷歌能做到比Graphcore IPU Bow快4.3-4.5倍，比英伟达A100快1.2-1.7倍，功耗低1.3-1.9倍。

目前，谷歌已将负责AI芯片的工程团队转移到了谷歌云，旨在提高谷歌云出售AI芯片给租用其服务器的公司的能力，从而与更大的竞争对手微软和亚马逊云科技相抗衡。虽然英伟达提供的GPU优势在前，但AI行业头部的OpenAI、Midjourney的算力系统并没有采购英伟达的GPU，而是选择了谷歌的方案。

微软

据The Information报道，微软计划在下个月的年度开发者大会上推出该公司首款为人工智能设计的芯片。2019年，微软就开始在内部开发代号为“Athena”的芯片，目前芯片已经提供给微软和OpenAI进行测试。Athena是为训练和运行大型语言模型（LLM）的数据中心服务器设计的，同时可支持推理，能为ChatGPT背后的所有AI软件提供动力。

Athena的首个目标是为OpenAI提供算力引擎，以替代昂贵的英伟达A100/H100，如果与英伟达的产品拥有同等竞争力，每个芯片的成本将可以降低三分之一。若明年大规模推出，Athena将允许微软内部和OpenAI的团队同时训练和推理模型。