Arm重新定义移动终端AI体验:3nm加持的CPU、GPU性能暴增

发布时间:2024-06-06  

在COMPUTEX 2024展会上,Arm CEO Rene Haas表示,到2025年底,将有超过1000亿台Arm设备为AI 做好准备,同时预计将在五年内拿下Windows PC市场50%以上的份额。


适逢Arm发布面向移动端AI优化的3nm的Arm CSS,同时针对移动端AI发布Kleidi软件。可以说,这些创新都是实现未来Arm对于AI宏伟目标的基础。


从TCS到终端CSS


去年,Arm针对Neoverse推出了CSS这样一个解决方案,目标是为了帮助客户快速拥抱AI。所谓CSS全称是Compute Subsystem,可以理解成Arm把一切都打了个包,包括core、CMN mesh、系统IP、系统管理、电源管理、软件和开发工具等。更通俗点的理解,就是“半预制菜”。


反观Arm的移动终端产品线,也一直有一个类似的概念,那就是全面计算解决方案(TCS)。


早在2019年,Arm就开始使用全面计算解决方案(TCS)的方式来进行产品的定义以及开发。努力促成CPU、GPU、系统级IP元素的融合,通过方案式开发满足不同客户共同的需求,真正实现1+1>2这样的IP的集合。在这样的战略引导下,Arm在2021年~2023年分别推出了TCS21、TCS22、TCS23。


不过,2024年,Arm没有继续沿用TCS的概念,而是提出全新的Arm终端计算子系统(CSS for Client,下文简称终端CSS)的概念,将最新的Arm计算IP和高级工艺节点上的生产就绪物理实现结合在一起,使合作伙伴能够构建一流的消费者解决方案,从而满足对更高效计算日益增长的需求。


简单来说,Arm终端CSS与TCS最大的不同在于,在TCS的基础上,提供了3nm工艺的CPU和GPU物理实现。


根据Arm终端事业部产品管理副总裁James McNiven的解析,Arm首次为CPU 和 GPU交付物理实现,让构建和部署基于Arm架构的解决方案变得更加简单,确保万无一失。Arm力求提供更多价值,针对3nm工艺进行优化,并与领先的代工厂合作伙伴展开协作,使得能够以物理实现的形式提供 IP。


“我们希望Arm终端CSS是最易于访问AI体验的平台。它结合了软件以及世界上最大的移动设备生态系统之一,将成为新一代产品和服务的基石。Arm终端CSS具备提供一个AI优化的计算平台所需的计算性能和效率。”James McNiven补充道。


可以说,终端CSS是专为AI手机和AI PC而生,它也是TCS的进一步升级转型的全新产品形态,能够有效减少客户芯片开发工作量和上市时间,同时提供可扩展性,以构建差异化的市场定制解决方案。


CPU集群性能巨幅提升


当今大多数移动设备上的AI工作负载都在CPU上运行,而Arm此次也推出了全新的CPU集群,包括的Arm Cortex-X925 CPU 、Arm Cortex-A725 CPU、Arm Cortex-A520 CPU,同时并更新了DynamIQ共享单元(DSU-120)。


在超大核Cortex-X925(此前代号为 Blackhawk)方面,Arm专门更改了Cortex-X的命名规则,改命原因在于其通过结合新设计和微架构改进实现了巨幅性能提升。


Cortex-X925 在 Geekbench 中实现了 36% 的单线程性能增长。以 AI 性能为例,与去年的Cortex-X CPU 相比,词元 (Token) 首次响应时间提高了41%。


之所以性能能够大幅提升,一方面在于解码和矢量设计实现了50% TOPS数的增长,另一方面在于通过更强的可配置性和更大的私有L2缓存大小,保留进出过CPU的指令和数据。此外,Arm的RTL 和物理设计团队之间展开了进一步协作,针对3nm工艺提升频率和效率。



在大核Cortex-A725方面,Arm的工程和设计团队提供了有针对性的更新,重点关注需要卓越持续性能的关键AI和游戏用例。与Cortex-A720相比,其性能效率提高了35%,能效提高了25%。


与Cortex-X925 一样,Cortex-A725的能效提升也源自于微架构的改进,通过Arm先进的物理实现在3nm上提供Cortex-A725的优化实现,同时还为主流消费技术市场提供面积优化的实现。



小核Cortex-A520方面,也在能效上进行了提升,与TCS23中的Cortex-A520相比,效率提高了15%。更新后的Cortex-A520通过更新的实现和先进的3nm物理实现成为可能。



DSU-120方面,针对下一代用例和消费类设备体验进行了增强。包括新的性能和效率特性、新的低功耗模式和主流消费类设备的增强功能,以及保留了为高性能用例扩展到 14个内核的选项,有助于将典型工作负载的功耗显著降低50%,并将整个CPU集群的缓存未命中功耗降低60%,从而减少泄漏并延长消费类设备的电池寿命。


新的低功耗模式,如半切片断电(half slice power down)和快速休眠(quick nap),增强功能支持各种基于人工智能的低强度和高强度工作负载,从生物识别和语音转文本到人工智能智能相机、内容创作和基于机器学习的 AAA 游戏。



除了IP本身在性能方面的提升,Arm也提升了其在安卓上的性能表现。


性能最强、效率最高的Arm GPU


Arm GPU 是人们日常数字生活中不可或缺的一部分,从当今智能手机上的沉浸式游戏体验到一系列基于AI的边缘体验,都能看到其身影。迄今为止,Arm的合作伙伴已经出货了超过100亿个GPU,就比如去年联发科天玑9300 SoC中采用了Arm Immortalis-G720 GPU,随后被vivo和OPPO的旗舰智能手机设备采用。


今年,Arm推出Immortalis-G925 GPU、Mali-G725 GPU和Mali-G625 GPU,并作为终端CSS的重要组成部分。


Immortalis-G925也在名称上进行了调整,以区分不同的设计。Immortalis-G925 配置了 10 个或更多内核,适用于高性能消费技术市场,如旗舰智能手机。


在各种图形应用上,Immortalis-G925 的性能同比提高了37%;在多个AI/ML网络上实现约 34%的性能提升;此外,Arm大幅提高了这个IP光线追踪技术在面对复杂物体时的表现,性能提升高达52%。


在Arm参考平台上进行比较时,Immortalis-G925的性能(fps)比Immortalis-G720 高37%。此外,当提供与Immortalis-G720相当的游戏性能时,Immortalis-G925的功耗降低了30%。



实际在手机游戏中,与Immortalis-G720相比,Immortalis-G925平均性能提高了 46%。其中,《原神》的性能提高了49%,而《罗布乐思》的运行速度提高了46%,其它流行的手机游戏提供了29%~72%的性能提升,包括《使命召唤手游》、《暗黑破坏神:不朽》、《后天》、《堡垒之夜》、《绝地求生》等。


而在AI方面,Immortalis-G925在AI和ML上的推理速度提高了34%。虽然大多数AI 处理都可以在CPU上进行,但GPU为各种AI用例提供加速功能,包括图像分类、图像分割、对象检测、自然语言处理和语音转文本。


与TCS23的Immortalis-G720相比,Immortalis-G925在图像处理(包括分割和分类)中,Immortalis-G925提供41%的性能提升;在超级采样任务中将性能提高到将近30%;在自然语言处理和语音到文本中,性能提升了50%。



Mali-G725方面,可在6~9个内核之间扩展,定位高端手机。不过,它仍然提供与 Immortalis-G925相同的API支持,同时为Immortalis-G925未针对的较低设备层提供引人入胜和身临其境的游戏体验。Mali-G625则可在1~5个内核之间扩展,面向智能手表和入门级移动设备。



无缝启动AI功能


针对AI,Arm还推出了Kleidi软件,利用它可使开发者在部署到任何Arm CPU上时,均能获得优异的AI性能。Kleidi目前主要包括两个软件库,KleidiAI和KleidiCV,顾名思义,一个更偏向于AI工作负载,另一个更偏向于计算机视觉工作负载。


Kleidi将直接嵌入到流行的AI框架中,开发人员无需执行任何操作。这使开发人员能够轻松启用Arm CPU的AI功能,以尽可能高的性能在最广泛的设备上快速构建基于AI的应用程序。



根据James McNiven的解析,KleidiAI能够确保开发者可从Arm终端CSS中最新的 Armv9架构功能中获得最佳性能,例如可伸缩矢量扩展 (Scalable Vector Extensions, SVE)。此外,它也为未来的CPU创新做好了准备,例如可伸缩矩阵扩展 (Scalable Matrix Extensions, SME)。举例来讲,当运行Cortex-X925上时,Kleidi技术运行最新Llama 3和Phi-3 LLM的速度要比参考实现快2.9倍,而且只用不到24小时就能实现。


KleidiCV方面,计算机视觉与AI紧密相连,但这些摄像头管线不仅仅运行神经网络,还有很多传统计算机视觉算法,其性能对于摄像头或社交媒体应用的顺畅运行至关重要。当KleidiCV融入到常用的OpenCV库时,性能便有了显著改进。此外,今年Arm还与OpenCV.ai合作,力求让安卓开发者可以更轻松地将OpenCV纳入到项目中,并从KleidiCV带来的改进中受益。


Arm Kleidi的发展只是一个开始,未来Arm还计划推出更多的库、计算内核和引擎集成。


发力AI手机和AI PC生态


对于用户来说,唯有更好的生态,才能真正发挥AI的价值所在,而这些最终会体现在手机、平板、移动电脑等终端上。


Arm的主要发力点在两方面,一是安卓,二是Windows on Arm(WoA)。


在最新版本的安卓动态性能框架 (Android Dynamic Performance Framework) 中,高端内容的每帧能耗降低了25%,帧速率提高了35%;还对网页浏览器进行了改进,使Chrome性能提高了23%。此外,中国的手机厂商也将这些改进引入到其浏览器中;调整了安卓工作负载在不同CPU核心之间的平衡方式,从而为YouTube节省了高达10%的功耗;此外,针对 Google 的 AV1 视频编解码器进行了软件优化,使当下安卓设备的视频性能最多可提高40%。



今年,对于Windows on Arm生态系统来说也是成果丰硕的一年。除了 Microsoft Office、Dropbox、Zoom、Adobe 套件等,越来越多的应用成为Arm原生应用,比如百度、哔哩哔哩、Chrome浏览器、爱奇艺、搜狗、腾讯QQ音乐等;再比如针对创作者的开源工具Audacity、Blender、OBS Studio,这些应用整合了大量的开源库和开发者工具。



在终端设备方面,根据市场预估,搭载最新内核设计的手机有望年底上市,首发机型或为vivo X200系列。Arm也在为未来的Windows操作系统笔记本电脑奠定基础。


AI要全面融入生活了


事实上,Arm已经在探索AI功能的道路上走了二十多年了。


Armv7架构于2003年首次发布,其中便添加了高级SIMD扩展,也称为Arm NEON指令;而后,Armv8 架构添加了一系列基于AI的规范和指令,包括点积指令、向量矩阵乘法指令和BFLoat16支持,同时通过将向量寄存器数量增加一倍并添加浮点支持来改进高级SIMD扩展;Armv9架构结合了所有这些功能、规格和说明,同时新增了SVE2、SME 和新的SME2。


可以说,Arm早就将这些AI功能,覆盖到了我们生活之中。随着终端CSS和Kleidi的发布,我们的移动终端即将迎来全面的AI变革,未来这些终端也会融入我们的生活。


“Arm作为计算的基石,不断致力于通过新技术的推出,帮助合作伙伴取得成功,以目前的AI为例,我们希望能赋能合作伙伴打造出面向AI应用最卓越的设备、芯片组和 SoC,为消费者的下一代AI体验夯实根基。”James McNiven这样强调道。

文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>