在COMPUTEX 2024展会上,Arm CEO Rene Haas表示,到2025年底,将有超过1000亿台Arm设备为AI 做好准备,同时预计将在五年内拿下Windows PC市场50%以上的份额。
适逢Arm发布面向移动端AI优化的3nm的Arm CSS,同时针对移动端AI发布Kleidi软件。可以说,这些创新都是实现未来Arm对于AI宏伟目标的基础。
从TCS到终端CSS
去年,Arm针对Neoverse推出了CSS这样一个解决方案,目标是为了帮助客户快速拥抱AI。所谓CSS全称是Compute Subsystem,可以理解成Arm把一切都打了个包,包括core、CMN mesh、系统IP、系统管理、电源管理、软件和开发工具等。更通俗点的理解,就是“半预制菜”。
反观Arm的移动终端产品线,也一直有一个类似的概念,那就是全面计算解决方案(TCS)。
早在2019年,Arm就开始使用全面计算解决方案(TCS)的方式来进行产品的定义以及开发。努力促成CPU、GPU、系统级IP元素的融合,通过方案式开发满足不同客户共同的需求,真正实现1+1>2这样的IP的集合。在这样的战略引导下,Arm在2021年~2023年分别推出了TCS21、TCS22、TCS23。
不过,2024年,Arm没有继续沿用TCS的概念,而是提出全新的Arm终端计算子系统(CSS for Client,下文简称终端CSS)的概念,将最新的Arm计算IP和高级工艺节点上的生产就绪物理实现结合在一起,使合作伙伴能够构建一流的消费者解决方案,从而满足对更高效计算日益增长的需求。
简单来说,Arm终端CSS与TCS最大的不同在于,在TCS的基础上,提供了3nm工艺的CPU和GPU物理实现。
根据Arm终端事业部产品管理副总裁James McNiven的解析,Arm首次为CPU 和 GPU交付物理实现,让构建和部署基于Arm架构的解决方案变得更加简单,确保万无一失。Arm力求提供更多价值,针对3nm工艺进行优化,并与领先的代工厂合作伙伴展开协作,使得能够以物理实现的形式提供 IP。
“我们希望Arm终端CSS是最易于访问AI体验的平台。它结合了软件以及世界上最大的移动设备生态系统之一,将成为新一代产品和服务的基石。Arm终端CSS具备提供一个AI优化的计算平台所需的计算性能和效率。”James McNiven补充道。
可以说,终端CSS是专为AI手机和AI PC而生,它也是TCS的进一步升级转型的全新产品形态,能够有效减少客户芯片开发工作量和上市时间,同时提供可扩展性,以构建差异化的市场定制解决方案。
CPU集群性能获巨幅提升
当今大多数移动设备上的AI工作负载都在CPU上运行,而Arm此次也推出了全新的CPU集群,包括的Arm Cortex-X925 CPU 、Arm Cortex-A725 CPU、Arm Cortex-A520 CPU,同时并更新了DynamIQ共享单元(DSU-120)。
在超大核Cortex-X925(此前代号为 Blackhawk)方面,Arm专门更改了Cortex-X的命名规则,改命原因在于其通过结合新设计和微架构改进实现了巨幅性能提升。
Cortex-X925 在 Geekbench 中实现了 36% 的单线程性能增长。以 AI 性能为例,与去年的Cortex-X CPU 相比,词元 (Token) 首次响应时间提高了41%。
之所以性能能够大幅提升,一方面在于解码和矢量设计实现了50% TOPS数的增长,另一方面在于通过更强的可配置性和更大的私有L2缓存大小,保留进出过CPU的指令和数据。此外,Arm的RTL 和物理设计团队之间展开了进一步协作,针对3nm工艺提升频率和效率。
在大核Cortex-A725方面,Arm的工程和设计团队提供了有针对性的更新,重点关注需要卓越持续性能的关键AI和游戏用例。与Cortex-A720相比,其性能效率提高了35%,能效提高了25%。
与Cortex-X925 一样,Cortex-A725的能效提升也源自于微架构的改进,通过Arm先进的物理实现在3nm上提供Cortex-A725的优化实现,同时还为主流消费技术市场提供面积优化的实现。
小核Cortex-A520方面,也在能效上进行了提升,与TCS23中的Cortex-A520相比,效率提高了15%。更新后的Cortex-A520通过更新的实现和先进的3nm物理实现成为可能。
DSU-120方面,针对下一代用例和消费类设备体验进行了增强。包括新的性能和效率特性、新的低功耗模式和主流消费类设备的增强功能,以及保留了为高性能用例扩展到 14个内核的选项,有助于将典型工作负载的功耗显著降低50%,并将整个CPU集群的缓存未命中功耗降低60%,从而减少泄漏并延长消费类设备的电池寿命。
新的低功耗模式,如半切片断电(half slice power down)和快速休眠(quick nap),增强功能支持各种基于人工智能的低强度和高强度工作负载,从生物识别和语音转文本到人工智能智能相机、内容创作和基于机器学习的 AAA 游戏。
除了IP本身在性能方面的提升,Arm也提升了其在安卓上的性能表现。
性能最强、效率最高的Arm GPU
Arm GPU 是人们日常数字生活中不可或缺的一部分,从当今智能手机上的沉浸式游戏体验到一系列基于AI的边缘体验,都能看到其身影。迄今为止,Arm的合作伙伴已经出货了超过100亿个GPU,就比如去年联发科天玑9300 SoC中采用了Arm Immortalis-G720 GPU,随后被vivo和OPPO的旗舰智能手机设备采用。
今年,Arm推出Immortalis-G925 GPU、Mali-G725 GPU和Mali-G625 GPU,并作为终端CSS的重要组成部分。
Immortalis-G925也在名称上进行了调整,以区分不同的设计。Immortalis-G925 配置了 10 个或更多内核,适用于高性能消费技术市场,如旗舰智能手机。
在各种图形应用上,Immortalis-G925 的性能同比提高了37%;在多个AI/ML网络上实现约 34%的性能提升;此外,Arm大幅提高了这个IP光线追踪技术在面对复杂物体时的表现,性能提升高达52%。
在Arm参考平台上进行比较时,Immortalis-G925的性能(fps)比Immortalis-G720 高37%。此外,当提供与Immortalis-G720相当的游戏性能时,Immortalis-G925的功耗降低了30%。
实际在手机游戏中,与Immortalis-G720相比,Immortalis-G925平均性能提高了 46%。其中,《原神》的性能提高了49%,而《罗布乐思》的运行速度提高了46%,其它流行的手机游戏提供了29%~72%的性能提升,包括《使命召唤手游》、《暗黑破坏神:不朽》、《后天》、《堡垒之夜》、《绝地求生》等。
而在AI方面,Immortalis-G925在AI和ML上的推理速度提高了34%。虽然大多数AI 处理都可以在CPU上进行,但GPU为各种AI用例提供加速功能,包括图像分类、图像分割、对象检测、自然语言处理和语音转文本。
与TCS23的Immortalis-G720相比,Immortalis-G925在图像处理(包括分割和分类)中,Immortalis-G925提供41%的性能提升;在超级采样任务中将性能提高到将近30%;在自然语言处理和语音到文本中,性能提升了50%。
Mali-G725方面,可在6~9个内核之间扩展,定位高端手机。不过,它仍然提供与 Immortalis-G925相同的API支持,同时为Immortalis-G925未针对的较低设备层提供引人入胜和身临其境的游戏体验。Mali-G625则可在1~5个内核之间扩展,面向智能手表和入门级移动设备。
无缝启动AI功能
针对AI,Arm还推出了Kleidi软件,利用它可使开发者在部署到任何Arm CPU上时,均能获得优异的AI性能。Kleidi目前主要包括两个软件库,KleidiAI和KleidiCV,顾名思义,一个更偏向于AI工作负载,另一个更偏向于计算机视觉工作负载。
Kleidi将直接嵌入到流行的AI框架中,开发人员无需执行任何操作。这使开发人员能够轻松启用Arm CPU的AI功能,以尽可能高的性能在最广泛的设备上快速构建基于AI的应用程序。
根据James McNiven的解析,KleidiAI能够确保开发者可从Arm终端CSS中最新的 Armv9架构功能中获得最佳性能,例如可伸缩矢量扩展 (Scalable Vector Extensions, SVE)。此外,它也为未来的CPU创新做好了准备,例如可伸缩矩阵扩展 (Scalable Matrix Extensions, SME)。举例来讲,当运行Cortex-X925上时,Kleidi技术运行最新Llama 3和Phi-3 LLM的速度要比参考实现快2.9倍,而且只用不到24小时就能实现。
KleidiCV方面,计算机视觉与AI紧密相连,但这些摄像头管线不仅仅运行神经网络,还有很多传统计算机视觉算法,其性能对于摄像头或社交媒体应用的顺畅运行至关重要。当KleidiCV融入到常用的OpenCV库时,性能便有了显著改进。此外,今年Arm还与OpenCV.ai合作,力求让安卓开发者可以更轻松地将OpenCV纳入到项目中,并从KleidiCV带来的改进中受益。
Arm Kleidi的发展只是一个开始,未来Arm还计划推出更多的库、计算内核和引擎集成。
发力AI手机和AI PC生态
对于用户来说,唯有更好的生态,才能真正发挥AI的价值所在,而这些最终会体现在手机、平板、移动电脑等终端上。
Arm的主要发力点在两方面,一是安卓,二是Windows on Arm(WoA)。
在最新版本的安卓动态性能框架 (Android Dynamic Performance Framework) 中,高端内容的每帧能耗降低了25%,帧速率提高了35%;还对网页浏览器进行了改进,使Chrome性能提高了23%。此外,中国的手机厂商也将这些改进引入到其浏览器中;调整了安卓工作负载在不同CPU核心之间的平衡方式,从而为YouTube节省了高达10%的功耗;此外,针对 Google 的 AV1 视频编解码器进行了软件优化,使当下安卓设备的视频性能最多可提高40%。
今年,对于Windows on Arm生态系统来说也是成果丰硕的一年。除了 Microsoft Office、Dropbox、Zoom、Adobe 套件等,越来越多的应用成为Arm原生应用,比如百度、哔哩哔哩、Chrome浏览器、爱奇艺、搜狗、腾讯QQ音乐等;再比如针对创作者的开源工具Audacity、Blender、OBS Studio,这些应用整合了大量的开源库和开发者工具。
在终端设备方面,根据市场预估,搭载最新内核设计的手机有望年底上市,首发机型或为vivo X200系列。Arm也在为未来的Windows操作系统笔记本电脑奠定基础。
AI要全面融入生活了
事实上,Arm已经在探索AI功能的道路上走了二十多年了。
Armv7架构于2003年首次发布,其中便添加了高级SIMD扩展,也称为Arm NEON指令;而后,Armv8 架构添加了一系列基于AI的规范和指令,包括点积指令、向量矩阵乘法指令和BFLoat16支持,同时通过将向量寄存器数量增加一倍并添加浮点支持来改进高级SIMD扩展;Armv9架构结合了所有这些功能、规格和说明,同时新增了SVE2、SME 和新的SME2。
可以说,Arm早就将这些AI功能,覆盖到了我们生活之中。随着终端CSS和Kleidi的发布,我们的移动终端即将迎来全面的AI变革,未来这些终端也会融入我们的生活。
“Arm作为计算的基石,不断致力于通过新技术的推出,帮助合作伙伴取得成功,以目前的AI为例,我们希望能赋能合作伙伴打造出面向AI应用最卓越的设备、芯片组和 SoC,为消费者的下一代AI体验夯实根基。”James McNiven这样强调道。