Arm重新定义移动终端AI体验：3nm加持的CPU、GPU性能暴增

在COMPUTEX 2024展会上，Arm CEO Rene Haas表示，到2025年底，将有超过1000亿台Arm设备为AI 做好准备，同时预计将在五年内拿下Windows PC市场50%以上的份额。

适逢Arm发布面向移动端AI优化的3nm的Arm CSS，同时针对移动端AI发布Kleidi软件。可以说，这些创新都是实现未来Arm对于AI宏伟目标的基础。

从TCS到终端CSS

去年，Arm针对Neoverse推出了CSS这样一个解决方案，目标是为了帮助客户快速拥抱AI。所谓CSS全称是Compute Subsystem，可以理解成Arm把一切都打了个包，包括core、CMN mesh、系统IP、系统管理、电源管理、软件和开发工具等。更通俗点的理解，就是“半预制菜”。

反观Arm的移动终端产品线，也一直有一个类似的概念，那就是全面计算解决方案（TCS）。

早在2019年，Arm就开始使用全面计算解决方案（TCS）的方式来进行产品的定义以及开发。努力促成CPU、GPU、系统级IP元素的融合，通过方案式开发满足不同客户共同的需求，真正实现1+1＞2这样的IP的集合。在这样的战略引导下，Arm在2021年～2023年分别推出了TCS21、TCS22、TCS23。

不过，2024年，Arm没有继续沿用TCS的概念，而是提出全新的Arm终端计算子系统（CSS for Client，下文简称终端CSS）的概念，将最新的Arm计算IP和高级工艺节点上的生产就绪物理实现结合在一起，使合作伙伴能够构建一流的消费者解决方案，从而满足对更高效计算日益增长的需求。

简单来说，Arm终端CSS与TCS最大的不同在于，在TCS的基础上，提供了3nm工艺的CPU和GPU物理实现。

根据Arm终端事业部产品管理副总裁James McNiven的解析，Arm首次为CPU 和 GPU交付物理实现，让构建和部署基于Arm架构的解决方案变得更加简单，确保万无一失。Arm力求提供更多价值，针对3nm工艺进行优化，并与领先的代工厂合作伙伴展开协作，使得能够以物理实现的形式提供 IP。

“我们希望Arm终端CSS是最易于访问AI体验的平台。它结合了软件以及世界上最大的移动设备生态系统之一，将成为新一代产品和服务的基石。Arm终端CSS具备提供一个AI优化的计算平台所需的计算性能和效率。”James McNiven补充道。

可以说，终端CSS是专为AI手机和AI PC而生，它也是TCS的进一步升级转型的全新产品形态，能够有效减少客户芯片开发工作量和上市时间，同时提供可扩展性，以构建差异化的市场定制解决方案。

CPU集群性能获巨幅提升

当今大多数移动设备上的AI工作负载都在CPU上运行，而Arm此次也推出了全新的CPU集群，包括的Arm Cortex-X925 CPU 、Arm Cortex-A725 CPU、Arm Cortex-A520 CPU，同时并更新了DynamIQ共享单元（DSU-120）。

在超大核Cortex-X925（此前代号为 Blackhawk）方面，Arm专门更改了Cortex-X的命名规则，改命原因在于其通过结合新设计和微架构改进实现了巨幅性能提升。

Cortex-X925 在 Geekbench 中实现了 36% 的单线程性能增长。以 AI 性能为例，与去年的Cortex-X CPU 相比，词元 (Token) 首次响应时间提高了41%。

之所以性能能够大幅提升，一方面在于解码和矢量设计实现了50% TOPS数的增长，另一方面在于通过更强的可配置性和更大的私有L2缓存大小，保留进出过CPU的指令和数据。此外，Arm的RTL 和物理设计团队之间展开了进一步协作，针对3nm工艺提升频率和效率。

在大核Cortex-A725方面，Arm的工程和设计团队提供了有针对性的更新，重点关注需要卓越持续性能的关键AI和游戏用例。与Cortex-A720相比，其性能效率提高了35%，能效提高了25%。

与Cortex-X925 一样，Cortex-A725的能效提升也源自于微架构的改进，通过Arm先进的物理实现在3nm上提供Cortex-A725的优化实现，同时还为主流消费技术市场提供面积优化的实现。

小核Cortex-A520方面，也在能效上进行了提升，与TCS23中的Cortex-A520相比，效率提高了15%。更新后的Cortex-A520通过更新的实现和先进的3nm物理实现成为可能。

DSU-120方面，针对下一代用例和消费类设备体验进行了增强。包括新的性能和效率特性、新的低功耗模式和主流消费类设备的增强功能，以及保留了为高性能用例扩展到 14个内核的选项，有助于将典型工作负载的功耗显著降低50%，并将整个CPU集群的缓存未命中功耗降低60%，从而减少泄漏并延长消费类设备的电池寿命。

新的低功耗模式，如半切片断电（half slice power down）和快速休眠（quick nap），增强功能支持各种基于人工智能的低强度和高强度工作负载，从生物识别和语音转文本到人工智能智能相机、内容创作和基于机器学习的 AAA 游戏。

除了IP本身在性能方面的提升，Arm也提升了其在安卓上的性能表现。

性能最强、效率最高的Arm GPU

Arm GPU 是人们日常数字生活中不可或缺的一部分，从当今智能手机上的沉浸式游戏体验到一系列基于AI的边缘体验，都能看到其身影。迄今为止，Arm的合作伙伴已经出货了超过100亿个GPU，就比如去年联发科天玑9300 SoC中采用了Arm Immortalis-G720 GPU，随后被vivo和OPPO的旗舰智能手机设备采用。

今年，Arm推出Immortalis-G925 GPU、Mali-G725 GPU和Mali-G625 GPU，并作为终端CSS的重要组成部分。

Immortalis-G925也在名称上进行了调整，以区分不同的设计。Immortalis-G925 配置了 10 个或更多内核，适用于高性能消费技术市场，如旗舰智能手机。

在各种图形应用上，Immortalis-G925 的性能同比提高了37%；在多个AI/ML网络上实现约 34%的性能提升；此外，Arm大幅提高了这个IP光线追踪技术在面对复杂物体时的表现，性能提升高达52%。

在Arm参考平台上进行比较时，Immortalis-G925的性能（fps）比Immortalis-G720 高37%。此外，当提供与Immortalis-G720相当的游戏性能时，Immortalis-G925的功耗降低了30%。

实际在手机游戏中，与Immortalis-G720相比，Immortalis-G925平均性能提高了 46%。其中，《原神》的性能提高了49%，而《罗布乐思》的运行速度提高了46%，其它流行的手机游戏提供了29%～72%的性能提升，包括《使命召唤手游》、《暗黑破坏神：不朽》、《后天》、《堡垒之夜》、《绝地求生》等。

而在AI方面，Immortalis-G925在AI和ML上的推理速度提高了34%。虽然大多数AI 处理都可以在CPU上进行，但GPU为各种AI用例提供加速功能，包括图像分类、图像分割、对象检测、自然语言处理和语音转文本。

与TCS23的Immortalis-G720相比，Immortalis-G925在图像处理（包括分割和分类）中，Immortalis-G925提供41%的性能提升；在超级采样任务中将性能提高到将近30%；在自然语言处理和语音到文本中，性能提升了50%。

Mali-G725方面，可在6～9个内核之间扩展，定位高端手机。不过，它仍然提供与 Immortalis-G925相同的API支持，同时为Immortalis-G925未针对的较低设备层提供引人入胜和身临其境的游戏体验。Mali-G625则可在1～5个内核之间扩展，面向智能手表和入门级移动设备。

无缝启动AI功能

针对AI，Arm还推出了Kleidi软件，利用它可使开发者在部署到任何Arm CPU上时，均能获得优异的AI性能。Kleidi目前主要包括两个软件库，KleidiAI和KleidiCV，顾名思义，一个更偏向于AI工作负载，另一个更偏向于计算机视觉工作负载。

Kleidi将直接嵌入到流行的AI框架中，开发人员无需执行任何操作。这使开发人员能够轻松启用Arm CPU的AI功能，以尽可能高的性能在最广泛的设备上快速构建基于AI的应用程序。

根据James McNiven的解析，KleidiAI能够确保开发者可从Arm终端CSS中最新的 Armv9架构功能中获得最佳性能，例如可伸缩矢量扩展 (Scalable Vector Extensions, SVE)。此外，它也为未来的CPU创新做好了准备，例如可伸缩矩阵扩展 (Scalable Matrix Extensions, SME)。举例来讲，当运行Cortex-X925上时，Kleidi技术运行最新Llama 3和Phi-3 LLM的速度要比参考实现快2.9倍，而且只用不到24小时就能实现。

KleidiCV方面，计算机视觉与AI紧密相连，但这些摄像头管线不仅仅运行神经网络，还有很多传统计算机视觉算法，其性能对于摄像头或社交媒体应用的顺畅运行至关重要。当KleidiCV融入到常用的OpenCV库时，性能便有了显著改进。此外，今年Arm还与OpenCV.ai合作，力求让安卓开发者可以更轻松地将OpenCV纳入到项目中，并从KleidiCV带来的改进中受益。

Arm Kleidi的发展只是一个开始，未来Arm还计划推出更多的库、计算内核和引擎集成。

发力AI手机和AI PC生态

对于用户来说，唯有更好的生态，才能真正发挥AI的价值所在，而这些最终会体现在手机、平板、移动电脑等终端上。

Arm的主要发力点在两方面，一是安卓，二是Windows on Arm（WoA）。

在最新版本的安卓动态性能框架 (Android Dynamic Performance Framework) 中，高端内容的每帧能耗降低了25%，帧速率提高了35%；还对网页浏览器进行了改进，使Chrome性能提高了23%。此外，中国的手机厂商也将这些改进引入到其浏览器中；调整了安卓工作负载在不同CPU核心之间的平衡方式，从而为YouTube节省了高达10%的功耗；此外，针对 Google 的 AV1 视频编解码器进行了软件优化，使当下安卓设备的视频性能最多可提高40%。

今年，对于Windows on Arm生态系统来说也是成果丰硕的一年。除了 Microsoft Office、Dropbox、Zoom、Adobe 套件等，越来越多的应用成为Arm原生应用，比如百度、哔哩哔哩、Chrome浏览器、爱奇艺、搜狗、腾讯QQ音乐等；再比如针对创作者的开源工具Audacity、Blender、OBS Studio，这些应用整合了大量的开源库和开发者工具。

在终端设备方面，根据市场预估，搭载最新内核设计的手机有望年底上市，首发机型或为vivo X200系列。Arm也在为未来的Windows操作系统笔记本电脑奠定基础。

AI要全面融入生活了

事实上，Arm已经在探索AI功能的道路上走了二十多年了。

Armv7架构于2003年首次发布，其中便添加了高级SIMD扩展，也称为Arm NEON指令；而后，Armv8 架构添加了一系列基于AI的规范和指令，包括点积指令、向量矩阵乘法指令和BFLoat16支持，同时通过将向量寄存器数量增加一倍并添加浮点支持来改进高级SIMD扩展；Armv9架构结合了所有这些功能、规格和说明，同时新增了SVE2、SME 和新的SME2。

可以说，Arm早就将这些AI功能，覆盖到了我们生活之中。随着终端CSS和Kleidi的发布，我们的移动终端即将迎来全面的AI变革，未来这些终端也会融入我们的生活。

“Arm作为计算的基石，不断致力于通过新技术的推出，帮助合作伙伴取得成功，以目前的AI为例，我们希望能赋能合作伙伴打造出面向AI应用最卓越的设备、芯片组和 SoC，为消费者的下一代AI体验夯实根基。”James McNiven这样强调道。