人工智能()拥有超越上个世纪所有颠覆性创新的潜力,在医疗保健、生产力、教育等许多领域为社会带来的帮助,将超乎我们的想象。为了让这些复杂的工作负载得以运作,全球所需的运算量也将急速成长。然而,这永无止尽的运算需求反映了一大挑战:需要无比庞大的电力,才能推动这项突破性技术。
当前的用电量已经十分惊人:全球每年需要460太瓦/时(TWh)的电力,相当于德国全国的用电量。预计在2030年前,的崛起将让这个数值成长3倍,超过印度这个全球人口最多国家的总用电量。
未来的AI模型将持续扩大且更加聪明,进而刺激对更多运算的需求,对电力的需求也将随之增加,形成互相推升的循环。如何找到降低大型数据中心用电量的方法,对于如何突破社会发展与实践AI承诺来说相当关键。
换句话说,没有电力就没有AI。
企业必须重新审视全局以因应能源效率问题。
重新构想AI未来:由Arm驱动的未来
追求能源效率是Arm的DNA。Arm最早推出的产品即是运用电池供电,并启动了手机革命。这让业界重新思考如何打造芯片,以满足对AI日益成长的需求。
在一个传统的服务器机柜中,光是运算芯片就可消耗超过50%的电力预算。工程师们正在设法减少这个数值,每一瓦电力都很重要。
在探寻解方的过程中,全球最大的AI超大规模运算业者纷纷改采Arm解决方案来降低用电量,这并不令人意外。相较于市场上的其他方案,Arm最新的Neoverse CPU是效能最高、能源效率最佳的云端数据中心处理器。Neoverse提供超大规模运算业者客制化芯片的弹性,将要求严苛的工作负载优化,同时提供先进的效能和能源效率,省下的每一度电都可以投入更多的运算。这就是现在Amazon、Microsoft、Google 和Oracle都采用Arm Neoverse技术,来处理通用型运算,与进行基于 CPU 的 AI 推论和训练的原因。Arm Neoverse正成为各云端数据中心的实质标准。
请参考近期发表讯息中的数据:
‧ AWS基于Arm架构的Graviton:相较于市场竞品,Amazon Sagemaker的AI推论效能高出25%,Web应用程序效能高出0%,数据库效能高出40%,能源效率则提升60%。
‧ Google Cloud基于Arm架构的Axion:支持基于CPU的AI推论和训练、YouTube、Google Earth等服务,相较于竞品的传统式架构,效能高出50%,能源效率提升60%。
‧ Microsoft Azure基于Arm架构的Cobalt:效能比市场竞品高出40%,支持 Microsoft Teams等服务,并与Maia加速芯片结合,推动Azure的端对端AI架构。
‧ Oracle Cloud基于Arm架构的Ampere Altra Max:相较于传统的竞争者,每机柜服务器的效能高出2.5倍,用电量降低2.8倍,并已用于生成式AI推论模型:LLM 训练的数据汇整、标记,以及批次推论使用场景。
显然Arm Neoverse已大幅提高云端通用型运算的效能和能源效率。然而,客户现在发现加速运算也能带来同样的效益。大规模AI训练需要独特的加速运算架构,例如 NVIDIA Grace Blackwell平台(GB200),它将NVIDIA的Blackwell GPU架构与基于Arm 架构的Grace CPU相结合。相较于使用同级LLM架构的NVIDIA H100 GPU,基于Arm 的运算架构可实现系统级设计的优化,将用电量降低25倍,并将每个GPU的效能提高达30倍。这些优化能够带来颠覆性的效能和节能效果,归功于 Arm Neoverse 能实现前所未有的客制化芯片的弹性。
随着Arm部署规模的扩大,这些企业在数据中心总用电量可望节省高达15%。省下的庞大电量,将可用于在相同的功耗范围内提升AI能力,而无需增加用电。具体来看,这些省下的电力可以用来执行20亿次ChatGPT查询,支持四分之一的日常网络搜寻流量,照亮 20% 的美国家庭,或者为类似哥斯达黎加面积相仿的国家提供电力。
这对能源消耗和环境永续产生了惊人的影响。
从基础面来看,Arm CPU正在驱动AI革命,同时造福地球。
AI运算的未来建构于Arm之上。
(本文作者Rene Haas为Arm CEO)