近年来,伴随着Transformer与大模型的发展,AI模型的普适性、多模态支持,以及模型微调效率都有了质的突破,加上低功耗的AI加速器和专用芯片被集成到终端设备中,边缘智能正变得越来越自主和强大。
边缘AI潜力巨大,有望助力多个领域的持续智能化演进与转型。Arm的客户与生态伙伴在智能家居、智能零售与智能制造等领域不断创新,进而实现感知、决策与行动的闭环,提高自动化水平。为了加速AI系统的快速落地,Arm近日推出了全新AI微加速器Arm Ethos-U85,以及全新的智能物联网参考设计平台Corstone-320。
Arm物联网事业部业务拓展副总裁马健(Chloe Ma)介绍道,Arm为了实现AI算子延展与部署简化,在过去十年中进行了大量投资并优化性能。
Arm在边缘AI领域的厚积薄发
图1:Arm赋能边缘AI持续创新
起初,Arm聚焦在优化各类传感器必需的嵌入式处理器上,致力于实现超低成本、低功耗和小面积,并支持控制级代码的开发;随着万物互联的发展,连接使边缘算力和安全性变得越来越重要,该公司顺势推出了Armv8-M和Arm TrustZone等技术来增强算力与安全;当边缘与端侧AI推理需求增长, Arm在嵌入式领域引入了Armv8.1-M,Arm Helium技术使CPU能够执行更多计算密集型的AI推理算法;紧接着,Arm又推出了业界首款 AI 微加速器 Arm Ethos NPU,来满足更高性能和更复杂的AI工作负载。
马健评价说:“Arm在AI时代的演进中起到了至关重要的作用。诸多基于Arm架构的边缘AI解决方案的成功部署,让我们更加坚信AI需要硬件和软件之间的紧密结合。”当然,当系统变得愈加强大,其复杂度也随之提升。软硬件必须协同工作才能释放AI处理的最大潜能。因此,Arm不仅聚焦处理器IP,也在软件与工具链方面加强投资,确保满足高性能边缘AI系统的开发需求。
为了达成“软硬件紧密结合”的目标,Arm与生态合作伙伴正齐心协力合作。据马健介绍,目前在 Arm软硬件计算平台上涌现了大量创新,包括:恩智浦半导体(NXP)的i.M系列、瑞萨电子(Renesas)的RA8系列、英飞凌(Infineon)的PSoC Edge、Alif Semiconductor的Ensemble等边缘AI芯片方案。同时,Arm也在与一系列软件算法与工具伙伴合作,以确保为边缘AI系统开发者提供工具和技术支持。
为了进一步推动边缘 AI 的落地,Arm近日又更新了智能物联产品组合,此次的新产品组合包括——全新AI微加速器Arm Ethos-U85和全新智能物联网参考设计平台Corstone-320。
·全新AI微加速器Arm Ethos-U85
Arm Ethos-U NPU系列是业界首款AI微加速器,英飞凌、恩智浦半导体、奇景光电(Himax)、Alif Semiconductor和Synaptics等企业均已推出搭载Ethos-U的量产芯片。全新的Arm Ethos-U85属于Arm Ethos-U NPU系列,它为高性能边缘AI应用带来了四倍的性能提升,20%的能效提升,并保持了一致工具链,可实现无缝的开发者体验。Arm Ethos-U85支持从128到2048个MAC单元的配置,在最高性能配置下提供4TOPs的AI算力。据介绍,Ethos-U85的目标应用场景是智能家居、零售、工业等新兴边缘AI应用场景。
图2:Arm Ethos-U85提供卓越的神经网络加速功能
此外,Ethos-U85增加了Transformer架构网络的支持,这是优化大模型边缘落地微调时间、提升模型泛化的一个关键特性。具体来看,Ethos-U85不仅提供卷积神经网络(CNN)所需的权重矩阵乘的运算,还支持矩阵相乘——这是Transformer架构网络的一个基本组成部分。基于Transformer的模型具有优异的泛化功能,它将更快地驱动新AI应用的发展。
Transformer在视觉和生成式AI用例中,比如视频理解、图文结合、图像增强与生成、图像分类和目标检测等方面都极有价值。Transformer架构网络的注意力机制容易利用并行计算来实现,提高硬件使用效率,这些模型能够部署在计算资源有限的边缘设备上。开发者可通过选用针对Transformer架构网络优化的设计,使边缘AI应用享有更快的推理、更优化的模型性能和可扩展性。
Ethos-U85不仅支持低功耗MCU系统中的AI加速,还支持在高性能边缘计算系统中的应用处理器、标准操作系统和高级开发语言的部署,这种模式更有利于云原生开发和云边端负载调度。而Arm Ethos-U85和Armv9 Cortex-A CPU的组合,可为基于应用处理器的智能物联网平台上运行的AI任务实现加速,给工业机器视觉、边缘网关、可穿戴设备和消费类机器人等应用带来高效能的边缘推理。
·全新智能物联网参考设计平台Arm Corstone-320
Arm为了帮助合作伙伴简化系统开发进而加快上市时间,还推出了最新的具备Ethos-U85的边缘AI参考设计平台——Arm Corstone-320。
Corstone-320包含了嵌入式处理器Cortex-M85,以及全新的Ethos-U85 NPU AI加速器。由于视觉在多模态感知中起到了关键作用,许多边缘MCU和传感器系统越来越依赖于视觉和图像感知,Corstone-320还包含了Arm Mali-C55 ISP,以实现为视觉应用优化的低功耗系统。据悉,该参考设计针对实际工作负载开发,其参考用例包括部署在智能家居中的电池供电摄像系统,以及在工业和零售系统中的低帧率网络摄像头。
另外,Corstone-320参考设计还提供有安全保证的软硬件组合,使得在此参考设计基础上开发的合作伙伴,可顺利地通过PSA Certified Level 2认证,实现对区域和全球安全标准的合规。马健强调说:“通过Corstone-320预先集成、预先验证的参考设计模版,Arm能帮助合作伙伴节省边缘智能芯片的开发成本和时间。”
值得注意的是,Corstone-320不仅提供芯片计算子系统IP组合,还附带了软件、AI模型库和开发工具,以实现软件的复用。它附带了仿真Corstone-320完整系统的Arm虚拟硬件,以及单独的CPU和NPU的固定虚拟平台(FVP)模型,以简化开发并加速产品设计,支持软硬件并行协同开发。马健评价道,这种提供边缘AI和智能物联网计算子系统全套软硬件和工具链的方法,使得其合作伙伴能够在一系列性能点上,快速开发并聚焦于打造差异化价值。
助力生态伙伴加速边缘AI设备部署
图3:Arm助力加速边缘AI设备部署进程
简单易用才更适于普及推广,随着边缘AI的持续扩展,物联网生态链上下游的芯片与系统供应商、算法软件开发者与集成商们越来越汇聚在Arm计算平台。
马健认为,是因为Arm计算平台能提供AI从云到端、现代敏捷开发和部署流程中所需的特性和功能,实现基于量产验证的一致架构,并采用统一工具链的AI转型。包括开发者、数据科学家、学术界在内的AI研究开发社区,不仅持续受益于Arm生态系统与合作伙伴提供的丰富信息与知识,也围绕Arm计算平台构建日益增长的软件和工具生态系统,以及开源软件库和AI框架。又得益于Arm特有的IP授权许可模式和开放生态,OEM和ODM可以有多种基于Arm架构和计算平台的芯片与模组选择,更灵活地开发适于最终应用的系统方案。
当下市场上边缘用例繁多,传统物联网市场存在碎片化,为了更好地统一多样化的应用要求,达到规模化效益,软件定义和适于软件移植的标准必不可少。全新的Ethos-U85和Corstone-320参考设计平台,满足了边缘AI用例对更高性能计算的需求,为最新的AI模型、框架提供了原生支持,并沿用Arm软件与AI开发者已经熟知的工具链,具有投资复用、上手容易等优势。这些最新的产品与参考设计加入了Arm丰富的IP产品和技术组合中,使Arm技术能够覆盖更广泛、多样化的智能物联网应用,并满足最新边缘AI市场的性能、成本和能效需求。
边缘AI还将随着大模型和生成式AI崛起,用户体验的持续提升、数据量激增,以及企业对数据价值的认可,将使行业经历巨大变化,例如在设备上实现实时语言翻译等。随着大模型持续通过量化、剪枝和聚类技术来缩减优化模型,使大模型适于在边缘和超级终端设备部署,大小模型云边端结合成为未来AI产品的重要发展趋势,也是AI应用赋能行业发展的重要方向。
马健最后指出,边缘部署大模型和生成式AI用例指日可待,而Arm已经为此做好准备,来挑战物联网与大模型、多模态AI结合的性能与效率极限。