国产百模大战风头正劲,全世界算力都处于紧缺状态,作为AI算力主要动能的GPU企业,成了大模型之战中第一批“喝汤”的企业,CPU也乘势而起。可以说,布局AI多年,CPU、GPU现在终于能够“躺着把钱赚了”。
所有人都想从AI芯片市场中分羹,微软也有着这样的野心。昨日,酝酿数年,继谷歌、亚马逊之后,微软自己的人工智能(AI)芯片终于来了。那么,它能威胁到“红绿蓝”三厂(英特尔、英伟达、AMD)的地位吗?
微软,奔向AI芯片和CPU
首先,我们先看看微软发布了什么产品。
微软自研芯片分为两款,一款是专门用于云端训练和推理的AI芯片(ASIC)Microsoft Azure Maia 100,另一款是由微软设计的首款CPU(中央处理器)Microsoft Azure Cobalt 100。两者都将优先用于支持微软自己的云服务。
除了芯片,在当天的Microsoft Ignite全球技术大会上,微软还发布了Microsoft 365 Copilot新增功能、Security Copilot演示、Azure最新功能展示等一系列内容。但最引人关注的还是微软的首款AI芯片Maia 100,这将为其Azure云数据中心提供动力,并为其各项人工智能服务奠定基础。
省流总结就是——一个是AI加速器(ASIC),一个CPU。
接着,我们再来看看,微软的两款芯片的技术细节。
Maia 100是微软为微软云中大语言模型训练和推理而设计的首款AI芯片,采用台积电5nm工艺,晶体管数量达到1050亿个,因此,当涉及到晶体管或时钟速度时,它并不属于轻量级。同时,针对AI和生成式AI进行了优化,支持微软首次实现的低于8位数据类型(MX数据类型)。
微软的发言人是这样介绍这款芯片的:
负责Azure芯片部门的副总裁Rani Borkar称,Maia 100已经在Bing和Office人工智能产品上测试了这款芯片,ChatGPT开发商OpenAI也在进行相关测试。微软也正在使用Maia 100加速器构建机架,明年将被允许通过 Azure 云为外部工作负载提供支持。
微软董事长兼CEO萨提亚·纳德拉(Satya Nadella)表示,“我们的目标是确保我们和我们的合作伙伴能够为客户带来最终的效率、性能和规模。Maia 100旨在运行大语言模型、帮助AI系统更快地处理大量数据,将首先为微软自己的AI应用程序提供支持,之后再向合作伙伴和客户开放。”
微软云和人工智能部门执行副总裁Scott Guthrie表示:“我们认为,Maia 100为我们提供了一种方式,可以为客户提供更快、成本更低、质量更高的解决方案。”
总结起来就是,专门为AI设计出一款成本更低廉、能耗比的芯片。
微软董事长兼CEO萨提亚·纳德拉(Satya Nadella)图源:直播截图
Cobalt 100是基于Arm架构的云原生芯片,针对通用工作负载的性能、功率和成本效益进行了优化。它拥有128个核心,被称为“所有云计算供应商中速度最快的CPU”,已经在微软的部分业务中得到了应用并将于明年上市。
这款芯片表现如何?微软称,初步测试表明,Cobalt 100性能比现有商用Arm服务器的数据中心性能提高40%。
目前,微软还没有披露Cobalt 100的详细信息,但有传言表示,Cobalt 100是基于 Arm “Genesis”Neoverse CSS N2 IP设计的。
资料显示,Neoverse CSS N2可从每个芯片24、32和64核心拓展,并具连接DDR5、LPDDR5、PCIe、CXL和其他类型IP的接口。晶粒面积分别是53平方毫米(24核心)、61平方毫米(32核心)、198平方毫米(64核心)。
选用Arm技术是微软可持续发展目标的一个关键因素,其目标是优化整个数据中心的“每瓦性能”,这本质上意味着为每单位消耗的能量获得更多的计算能力。
长期以来,微软一直希望在其机群中拥有X86架构的替代品,早在2017年,微软就曾就表示,其目标是让Arm服务器占其服务器计算能力的50%。
几年前,微软是Cavium/Marvell及其“Vulcan”ThunderX2 Arm服务器CPU的早期客户,当Marvell在2020年底或2021年初决定封存ThunderX3时,微软是有望成为“Triton”ThunderX3后续CPU的大买家。
2022年,微软接受了Ampere Computing的Altra系列Arm CPU ,并开始将其大量的放入其服务器群中,但一直以来都有传言微软称正在开发自己的Arm服务器CPU。 互联网巨头,都爱芯片
到了2023年,互联网巨头造芯片好像不是什么新鲜事儿了,说白了,无论是CPU,还是AI芯片,如果供应全部来源外部,甚至只能从一两家公司获得产品,会是非常可怕的一件事。而Maia 100和Cobalt 100意图也非常明显,便是直面当今世界“红绿蓝”三厂的统治力,面对顶级AI芯片供应不足的挑战,面对x86架构统治云服务的挑战。
值得一提的是,在微软之前,已经拥有谷歌和亚马逊两个先例。那么这两位现在日子过得怎么样?
首先,来看看谷歌。
谷歌从2016年起开始推出自研AI张量处理单元(TPU),到今年9月已经发展到第五代——Cloud TPU v5e,其专为提供大中型训练与推理所需的成本效益和性能而设计。TPU v5e Pods能够平衡性能、灵活性和效率,允许多达256个芯片互连,聚合带宽超过400Tb/s和100petaOps的INT8性能,使对应的平台能够灵活支持一系列推理和训练要求。
目前,谷歌正在大规模使用TPU芯片来支持旗下应用产品,比如聊天机器人巴德以及谷歌云平台。当前,谷歌高达90%以上的人工智能训练工作都在使用这些芯片,TPU芯片体系支撑了包括搜索引擎在内的谷歌主要业务。
谷歌云平台首席执行官Thomas Kurian表示,最新款的TPU芯片正在成为谷歌云的最大卖点之一。除了Anthropic,其他在人工智能领域备受瞩目的初创公司,如Hugging Face和AssemblyAI也在大规模使用谷歌TPU芯片。
从技术层面上来看,与英伟达A100/H100等通用型GPU相比,谷歌TPU设计初衷正是专注于深度学习领域,尤其是全面加速神经网络训练和推理效率。英伟达的A100和H100,它们属于广义上的通用型GPU,而不仅仅局限于深度学习和人工智能领域。这些GPU具有通用计算能力,适用于多种计算工作负载,包括但不限于:高性能计算(HPC)、深度学习以及大规模数据分析。
与英伟达通用型GPU相比,谷歌TPU采用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度,尤其对于中型LLM设计者来说完全够用,因此他们可能不需要依赖高性能的英伟达A100/H100。同时,TPU使用了脉动阵列等设计来优化矩阵乘法与卷积运算。谷歌TPU追求专注于AI训练和推理,因此精简化部分设计架构,这也是TPU功耗、内存带宽和FLOPS都明显低于英伟达H100的部分原因。
其次,再来看看亚马逊。
而亚马逊云科技(AWS)在2020年宣布推出用于训练AI模型的自研芯片Trainium。
此前,亚马逊推出的第一款机器学习芯片叫Amazon Inferentia,顾名思义,是做推理的,实际应用中推理的工作负载量是非常大的,Amazon Inferentia芯片的性能和吞吐量都能满足实际要求,而且,Inf1实例的成本比基于GPU的方案要低很多。
虽然推理的负载多,但一般企业也经常遇到训练任务,机器学习的训练环节经常需要用到昂贵的GPU,所以训练的成本通常会很高。为了降低成本,亚马逊推出了Amazon Trainium芯片,据说采用该芯片的Trn1实例(或者说集群)可以提供云端速度最快,成本最低的训练服务。
Trn1实例,有13.1TB/s的最大内存带宽,3.4 PFLOPS的算力,FP32的TFlops高达840,时钟频率为4GHz,含有550亿个晶体管。
据亚马逊提供的信息显示,在训练深度学习模型时,采用Amazon Trainium芯片的Trn1实例的成本,要比采用英伟达A100的P4d实例最多低出40%,而且速度最多能快50%。
AWS自研的Trainium芯片正逐渐在AI大模型训练领域获得一席之地,在内部外部都有几百个客户,有隐隐超越谷歌 TPU成为第二大玩家的趋势。
最近得益于全球GPU产能短缺,亚马逊吸纳了几个极重要的外部客户,公司CEO称Annapurna labs可能是未来几年AWS的number one team,目标是让未来的AI算力市场不被英伟达一家独大,其团队目前还在大力扩招。
最后,国内也曾掀起过一场跨界造芯的风潮。
百度从2018年百度率先发布昆仑1芯片开始不断发布自研芯片;
阿里、腾讯等老牌互联网大厂相继进军芯片领域;
阿里成立芯片公司平头哥半导体,目前已发布多款产品;
腾讯采用“投资+自研”的形式入局半导体;
快手在2022年8月推出首款自研云端智能视频处理SoC芯片SL200;
小米在2023年推出ISP芯片澎湃C1和充电芯片澎湃P1;
vivo公布自研ISP芯片V1/V2;
-
OPPO推出首款自研影像专用NPU芯片马里亚纳X,马里亚纳MariSilicon Y。
微软们,能竞争过英伟达吗?
互联网大厂为什么这么钟爱芯片,为什么都要掌握自研?EEworld认为,主要有以下几个原因:
1. 谁都不希望被一两家供应商所束缚,其实看全世界所有的巨头都在走多供应链的路线,被一两家公司套牢了,就意味着别人可以随意调价,产能不足时,也只能干着急。一方面,英伟达芯片很贵,也受制于台积电CoWoS产能时常短缺,进一步加剧价格波动。
2. 这些巨头都拥有自己的AI模型和云服务,一个云服务器中存在多种芯片(CPU+GPU+DPU/SmartNIC+各种定制芯片),相互协同工作效率才会更高,自己针对自己的产品做定制芯片,一定能发挥更好的协同效应,效率更高。
3. 现在所有巨头都不会只做单一业务,而是根据自己的业务全流程进行全线布局,这在全世界都非常常见。比如光伏领域硅料巨头会跨界做组件,芯片领域模拟巨头会针对自己产品做数字芯片。对科技巨头来说,布局芯片本身就是自身流程的一环,只是芯片比较难做,所以更引起大家关注。
4. 此次主角微软,也并非第一次跨界造芯,早在此前,微软就曾布局过ToF芯片,2020年,微软又和ADI就3D ToF开发与量产展开合作。只不过,3D ToF芯片不像AI芯片和CPU这般引起人们注意。
EEWorld认为,互联网巨头做芯片与“红蓝绿”厂并不冲突,这些巨头该怎么赚钱,还是会赚钱,自研芯片也会为自己开辟新的道路,具体原因如下:
1. 从AI芯片上来看,科技巨头的芯片一定是先满足自己的需求,才会向外发展。英伟达的GPU芯片属于比较通用的器件,灵活度更高,但整体较贵,所以微软、谷歌和一众国产厂商选择了定制芯片(ASIC),比较类似英特尔Gaudi的做法。
定制芯片的成本主要集中在前期,后期无论是能效比,还是成本都更优,但只是针对一些特定场景,这样来看,这种AI芯片面向的市场更专了,和手握CUDA的英伟达不是非常冲突。用人话解释,就是收窄自己,另辟蹊径。真的能赶超英伟达吗,市场数据会给出答案。
2. 从通用芯片上来看,采用的是Arm架构。Arm架构有哪些芯片?苹果的M系列、各种车载芯片,说白了,这应该是看Arm架构本身的潜力。Arm架构的确能在当今世界上与各种芯片掰手腕,但英伟达其实也在做Arm芯片,所以从这方面来看,通用市场未来会形成一定竞争格局。但x86赢得市场的主要关键点在于生态,进一步来看Arm架构的表现,最终取决于Arm在数据中心领域的生态。当然这又会牵扯出来x86授权、多核设计的问题,非常复杂。
3. 云数据中心可不只是一种芯片,就算做了自己的芯片,也是需要垒砌CPU+GPU+DPU的,所以他们与“红绿蓝”三大厂的生意,还会继续。
4. 芯片不是一家两家人所做的,而是一个产业链条,就算是自研芯片,最终可能还会有其它交叉领域有所合作。
当然,从微软发布自研芯片中,我们依然可以看到,越是这样的大企业,相比其它企业,发布自己的自研芯片越晚。酝酿如此之久,其间考虑更多产品上市问题、实用性问题等。这是否意味着之前早早发布产品的公司,是否有些操之过急?答案我们无从得知,但市场数据,最终会说明一切。 参考文献 [1]MICROSOFT HOLDS CHIP MAKERS’ FEET TO THE FIRE WITH HOMEGROWN CPU AND AI CHIPS https://www.nextplatform.com/2023/11/15/microsoft-holds-chip-makers-feet-to-the-fire-with-homegrown-cpu-and-ai-chips/ [2] 谷歌(GOOGL.US)版图渗入AI芯片领域! “OpenAI劲敌”官宣使用谷歌最新TPU https://news.10jqka.com.cn/20231109/c652033284.shtml [3] 赶超谷歌TPU?传亚马逊自研AI训练芯片已收获重量级客户.https://www.ijiwei.com/n/876338