5月26日,Arm公司举行产品发布会,发布多款产品,包括首批Armv9 Cortex CPU内核、新款图像处理器Mali内核,以及互连技术CoreLink的最新版本。籍此“史上最大产品发布会”(Paul Williamson语)推出的系列产品,Arm也正式推出首款全面计算(total compute)解决方案,希望借助移动生态系统带来的巨大规模优势,为开发者提供从IP、软件到开发工具的全面解决方案,让Arm技术在云计算中心、笔记本和台式机,以及移动设备中无缝对接,在依靠半导体工艺升级提升性能程度日益走低的背景下,Arm也将带动开发者更多地从系统角度来提升SoC(系统级芯片)性能,打造性能更优、可扩展性更佳、安全性更一致的全面计算生态。
Arm全面计算框架
九代产品齐出
2021年3月,Arm公司宣布推出第九代Arm处理器架构Armv9,这是自2011年Armv8推出之后的再一次代际升级。代际升级通常意味着大规模的架构更动,从Armv7升级到Armv8的关键点是增加了对64位指令集的支持,而Armv9在兼容Armv8的基础上,增强了矢量计算、机器学习和数字信号处理能力,提升了安全性,Armv9承担着Arm公司未来十年计算平台的期望,Arm的目标是将Arm处理器的统治地位从移动平台扩展到PC、高性能计算和数据中心等企业级计算市场,以期将Arm技术植入到未来十年的3000亿颗芯片中。
Armv9系列新品
这次发布会上推出的Arm Cortex-X2就是基于Armv9的旗舰CPU,与当前旗舰型安卓智能手机处理器相比,其性能高出30%。Cortex-X2算力强劲,既可以做旗舰智能手机处理器,又可以做笔记本电脑处理器。Arm 终端设备事业部的总经理Paul Williamson表示,与2020年市场主流笔记本电脑相比,采用Cortex-X2处理器的笔记本电脑单线程性能可提升40%,Arm和微软在Windows on Arm(WoA)生态上不断扩展,2021年下半年将有多款产品上市。
Arm Cortex-A710是第九代架构的首款大核处理器IP,与 Cortex-A78 相比,能效提升 30% ,性能提升10%,机器学习性能翻倍。
Armv9机器学习性能相比前代大幅提升
基于Armv9架构的Arm Cortex-A510 是该公司过去四年来推出的首款高效率小核处理器IP,与旧款相比,其性能提升 35%,机器学习性能提升超过三倍。它所带来的性能水平已经接近几年前推出的上一代大核,适用于智能手机、家用设备和可穿戴设备。
Armv9性能提升数据
GPU全线更新
内容视频化潮流不可阻挡,因此GPU市场争夺日趋激烈。Arm的Mali系列市场表现出色,连续五年出货量超过10亿颗,当然竞争对手对这块市场也虎视眈眈,对此情景Arm公司不敢大意,这次一共更新了四款GPU,分别面向高、中、低、微市场。
Mali系列新品
新款 Arm Mali-G710 是针对旗舰智能手机和不断增长的 Chromebook 笔记本市场所推出的高性能 GPU,在计算密集型体验方面(如 AAA 高保真游戏)的性能提升 20%。对于各种与机器学习有关的任务(如全新相机和视频模式的图像增强),Mali-G710 也有35% 的性能提升。
Arm Mali-G610面向主流市场。作为次旗舰 GPU,该 GPU 继承了 Mali-G710 的所有功能,但价格更低,并将高阶应用场景带给更多的开发者和用户。
Arm Mali-G510强调性能和效率的平衡,主要面向中低端市场,例如中端智能手机、旗舰智能电视和机顶盒。与前代相比,实现了100%的性能提升以及22%的节能优化,从而延长了电池续航时间,值得提起的一点,Mali-G510机器学习性能翻倍。
Arm Mali-G310主要面向微型设备,最强调性价比,芯片面积也最小,“是 Arm 最高效的 GPU,以最小的面积成本提供了最高的性能”。适用于入门级智能手机、AR 设备和可穿戴设备
互连IP、全面计算与统一到64位计算平台
全面计算离不开互连技术,毕竟没有互连,CPU或GPU都是成为信息孤岛,难以实现数据流通,而在全面计算架构中,系统瓶颈往往在于不同模块之间的互通带宽上,因此互连技术对提高系统性能至关重要。
Arm互连IP新品
Arm最新的 CoreLink CI-700一致性互连技术和 CoreLink NI-700片上网络互连技术与 Arm CPU、GPU 和 NPU IP 无缝搭配,可跨 SoC 解决方案增强系统性能。CoreLink CI-700 和 CoreLink NI-700 对新的 Armv9-A 功能提供硬件级支持,如内存标签扩展(Memory Tagging Extension),并支持更高的安全性、改进的带宽和延迟。
对于全面计算开发方法的性能提升,Paul Williamson举了个例子,在某款游戏应用中,Arm全套产品带来性能的全面提升:Cortex-A710 CPU带来了33% 的性能提升;Mali-G710 带来了20% 的性能提升;而系统级IP 提供了15% 的效率提升。“Arm全面计算解决方案将所有的组件融合在一起,为用户体验带来了跨越性提升。”
全面计算案例
Arm还表示,为了支持生态系统对于性能的需求,自2023年开始,将仅提供 64 位的移动应用大核和小核。为此,Arm 正在与全球合作伙伴一起努力,确保所有APP都将在2021年底前支持 64 位,从而实现无缝切换。
全面计算三原则
除了性能,全面计算还要考虑安全性和开发易用性。在媒体问答环节,Paul Williamson也多次强调安全与系统化性能优化的重要性,他表示,性能、易用性和安全性是全面计算的三大支柱(或三原则)。
安全性是Arm将架构从v8升级到v9 重要支点,而有了全面计算,用户能利用Arm全套IP、软件和工具,能让整个流程变得更容易,也能够把产品及时推向市场。在全面计算时代,性能评估不再是单纯计算单一芯片或IP的PPA(性能、功耗、面积),开发者根据应用场景对全系统进行性能优化,系统级的性能、功耗与体积平衡更重要,以系统级设计理念最大程度地提高性能。Paul Williamson 对全面计算前景看好,他说:我们正致力于将 Armv9 技术引入到各个领域。
相关文章