自ChatGPT商用落地以来,在过去近一年半时间里,生成式AI应用加速落地,供应端力求尽快形成新质生产力。风口首先吹向的是AI算力市场,AI服务器作为算力主要载体,自然也首当其冲吃到第一波红利。
一时间,大家探索“AI大模型+行业”的热情高涨,高科技企业也需要AI服务器来训练AI大模型。现在的AI大模型有数亿至数千亿个参数,数据量远超传统模型的规模。AI模型越复杂其数据集规模就越大,需要更多的算力资源来支撑训练过程,这也催生了大量的AI芯片需求。
对AI芯片供应商来说,由于去年突然增加的需求过多,在短期内来不及跟进产能。一方面是“红到发紫”的市场需求,另一方面是AI芯片供不应求,AI行业遭遇了“甜蜜的负担”。
疯狂2023:英伟达GPU一卡难求
AI芯片可根据其设计和应用特性,分为 GPU、FPGA、ASIC(含NPU、ASSP)。FPGA和ASIC是半定制和全定制芯片,它们可针对AI需求特征定制。GPU是通用型AI芯片,是AI领域的主流芯片,它适合多种计算任务,在AI市场表现突出。
从AI GPU供应商层面来看,英伟达是全球当之无愧的No.1。2023年,市场研究机构TrendForce预计,英伟达GPU在全球AI服务器市场的占有率为60%至70%,而云端厂商自研AISC芯片的占有率超过20%。
当然,即使是英伟达这般体量的供应商,也难以满足突增的AI GPU需求。早在去年上半年,供给端就传出“算力市场供不应求”的消息——英伟达的多款GPU缺货,GPU交货周期拉长,半年累计涨幅近40%。H100 GPU在eBay上的价格,甚至一度被炒到4万美元以上。而中国“特供”版A800/H800 GPU也被炒成高价,从原来的人民币12万元左右“炒”到了25-30万,甚至还有高达50万元一张的价格。一时间,大家都在调侃“显卡已经成为理财产品”。
AI芯片供应紧张的情况,贯穿了2023年全年。去年Q4,英伟达AI GPU的交货周期仍长达8至11个月,供应问题直到今年Q1才得到缓解,目前的交货周期缩至3-4个月。
对此,瑞银(UBS)分析师给出了两种判断:第一种是英伟达正在规划新的方案提高产能,满足未来的订单;而另一种可能是英伟达目前已具备足够的产能,可以处理积压的订单。当然,不排除是这两个因素叠加的效果。
针对英伟达AI GPU交货周期显著缩短,美国AI软件公司Databricks联合创始人兼CEO Ali Ghodsi评价表示,随着明年供需再平衡,英伟达GPU芯片价格将会大幅下降,从而给众多AI科技巨头和初创公司的商业模式带来影响。
是什么在限制AI芯片产能?
一般来说,当某类产品供应紧张时,厂商会争分夺秒进行增产。可能会有人好奇,GPU缺货早在去年上半年就已显现,为何直到2024年Q1才缓解?其实,GPU缺货并非受限于英伟达,而是受限于台积电的CoWoS封装产能。
·CoWoS是AI芯片主流的封装技术
CoWoS(Chip on Wafer on Substrate)是目前主流的AI处理器封装方案,它是台积电开发的一种2.5D芯片封装技术,由CoW和oS两种技术组合而来。先通过Chip on Wafer(CoW)的封装制程,把芯片封装到硅转接板(硅中介层)上,并使用硅转接板上的高密度布线进行互连,然后再安装在封装基板上。
经过了以上封装步骤的芯片,具有封装体积小、功耗低、引脚少的优势。目前,CoWoS封装主要使用在高性能计算、人工智能、云计算等领域。除了AI GPU之外,HBM、Chiplet也采用了CoWoS封装技术。因此,CoWoS的产能是限制AI芯片出货量的关键。
·英伟达、苹果、AMD、博通紧急追单
据Omdia的研究报告统计,仅在2023年Q3这一个季度,英伟达就售出了近50万张AI计算卡,其中包括了H100、A100、H800、A800、L40S等。这些AI计算卡的买家有Meta、微软、谷歌、亚马逊、甲骨文和腾讯,其中Meta和微软分别采购了15万张H100 GPU,谷歌、亚马逊、甲骨文和腾讯均采购了5万张。
即使如此,英伟达供应的AI GPU仍无法满足当前AI大模型训练的需求。早在去年5月,就有消息传出英伟达向台积电增加A100和H100 AI GPU订单,导致台积电的晶圆开工量增加。到去年10月,英伟达确定扩大AI GPU订单量的消息,随后苹果、AMD、博通、Marvell等企业也向台积电追加了CoWoS封装芯片订单。
·AI芯片供货紧张或持续至2025年
实际上,CoWoS的产能并不算高。截至2023年底,台积电CoWoS的月产能不足2万片晶圆。2023年10月,台积电总裁魏哲家在法说会上表示,预计2024年底,将增加一倍以上的CoWoS产能,一直到2025年,台积电将持续扩充CoWoS封装产能。基于对台积电的CoWoS扩充计划,业内分析师估计,今年Q3 CoWoS产能可能迎来明显增长。
为了实现提升CoWoS产能的目标,台积电提前寻找设备供应商追加了30%的设备订单,不过由于新设备交期长达8个月,难以快速满足客户的AI芯片订单需求,为此台积电改造了部分InFO(集成扇出型)设备,以此来支持CoWoS封装芯片的生产。
2024年1月18日,魏哲家在法说会上再次谈及先进封装话题,他指出AI芯片先进封装需求持续强劲,目前产能仍无法满足客户的强劲需求,供不应求状况可能会延续到2025年。
中国AI行业面临新课题
虽然高科技巨头如今都在聚焦AI,为了训练自己的大模型,纷纷布局了AI服务器,但是来自中国的科技企业,在该轮AI竞赛中遭遇了挑战。
2022年10月,美国商务部工业和安全局(BIS)更新了针对中国的“先进计算芯片、半导体制造设备出口管制规则”,而英伟达的A100、H100等高端芯片在对华禁售范围内。英伟达为规避限制规则,在A100、H100基础上推出A800、H800,这两款新品“特供”给中国市场。有业内人士爆料称,H800的数据传输速率只有H100的一半。
到2023年10月,美国商务部再一次收紧了芯片规则,限制了英伟达A800、H800的出货。业内再传出,英伟达还将针对中国市场发布HGX H20、L20 PCle和L2 PCle,但这三款芯片的性能会再次“打折”。
从英伟达的”特供“中国市场的A800、H800,再到计划中再度”阉割“的HGX H20、L20 PCle和L2 PCle。让大家再次意识到,掌握自主核心技术、拥有自己技术体系的重要性。3月29日举办的“GPU/AI芯片于高性能计算应用论坛”,国产GPGPU和AI芯片厂商会带来哪些最新思考?
在此背景下,中国本土AI芯片企业备受关注。业内人士预估,英伟达GPU被禁售事件,将进一步促进中国本土AI芯片企业的发展,同时也有人列举了一些可行的解决方案。比如,有方案指出英伟达凭借自研的CUDA生态,才得以在AI训练市场称霸一方,所以其他厂商想要替代英伟达,就需要先兼容英伟达CUDA生态,通过该方法可减少用户的移植成本。
但今年3月,一则“安装英伟达CUDA 11.6及更高版本时,最终用户许可协议中明确表示:禁止在其他硬件平台上通过翻译层运行基于CUDA的软件!”的新闻受到大家的关注。虽然也有人认为这种封闭的做法,不利于整个行业的发展和创新,但是这也让人们对GPU生态有了更深刻的认知。中国本土GPU企业都强调——要加快自主软件生态的建设,降低对外部技术的依赖。