MCU跑AI，谁更牛？

发布时间: 2024-04-21

来源: 电子工程世界

怎么快速判断一款芯片的AI处理性能？那就不得不提到MLperf。MLPerf由图灵奖得主大卫•帕特森（David Patterson）联合谷歌、斯坦福、哈佛大学顶尖学术机构发起成立，是权威性最高、影响力最广的国际AI性能基准测试。该机构也时常放榜，让我们快速了解当今芯片发展情况。

自从2021年开始，MLperf也开始放出TinyML测试基准，简单解释，也就是测试边缘AI系统。更通俗说，就是测试MCU之类嵌入式设备跑分。

这几日，MLCommons公布MLperf Tiny v1.2测试结果。这一次，哪些MCU芯片夺得榜一？

M85内核MCU夺冠

MLCommons在榜单表示，MLPerf Tiny基准测试套件主要针对小于100kB的“微小”神经网络的推理用例，以公平且可重复的方式进行测试，处理来自传感器（包括音频和视觉）的数据，以最小的外形尺寸为低功耗设备提供端点智能。

MLperf Tiny v1.2结果包括博世（Bosch）、Kai Jiang（个人）、高通（Qualcomm）、瑞萨（Renesas）、意法半导体（ST）、Skymizer和Syntiant提交的91项整体性能结果，包括18项能量测量。测试基准包括深度自动编码器（Deep Auto-encoder）、DSCNN（依赖敏感卷积神经网络）、MobileNetV1 0.25x、ResNet-V1四项。

榜单显示，高通骁龙Gen 3跑分在本次结果中每项基准都是第一，对TinyML来说，智能手机的确是最为典型的例子。其次，则是单板计算机RISC-V核心的Skymizer TinkerV-linux-andes_nn,RISC-V AndesCore AX45MP Single core @1.0GHz，其上核心为Andes的处理器，在深度自动编码器上性能强劲，不过，ResNet-V1处理能力处于中等水平。

如果只看MCU的话，瑞萨EK-RA8D1,32 Bit Arm Cortex-M85 @480MHz综合性能第一，在深度自动编码器和ResNet-V1处理能力上都很出色。同时纵观v0.5~v1.2整个榜单，这款MCU的表现都非常亮眼。瑞萨RA8系列作为全球首款Cortex-M85的MCU，而M85加入Arm Helium技术，对比过去的DSP+FPU，可见实力强劲。

紧接着，ST NUCLEO-H7A3ZI-Q,32-Bit Arm Cortex-M7 @280MHz；ST NUCLEO-L4R5ZI,32-Bit Arm Cortex-M4 @120MHz；ST NUCLEO-U575ZI-Q,Arm Cortex-M33 @160MHz位列二~四。很明显，同属ST的产品跑分，是按照M7、M4、M33排序，这本身也和Arm的分级相符了。

博世提交的开发板既包括英飞凌的CY8CPROTO-062-4343W，包括ST的DISCO-F746NG和NUCLEO系列，也包括瑞萨的RH850/F1KM-S4 R7F701649。这些主要就看是什么Arm内核还有DSP、FPU了。

不过，整体来说，由于芯片等级落差颇大，单从推论时间（毫秒ms）及能耗（微焦耳uJ 比较可能会有点不公平，而且MCU、MPU和SoC放在一起“大乱斗”，就更不公平了，都不是一个功耗等级，所以整体还是一个参考，还是要按照实际应用来看。

TinyML在十年内攻下MCU

AI以及大模型的出现，使得千行百业正在发生变化，它不仅要改变服务器端，也会改变边缘端。

数据中心功耗和负载已经发展得很可怕了，加之物联网兴起，不可能每做一次任务，就要问一次服务器怎么做，每个点的设备总归是要有自己的想法。所以TinyML就是把AI应用带到边缘设备（如智能手机、可穿戴、汽车和物联网设备等）上的关键。

AI让边缘更智能，边缘让AI无处不在，对MCU来说，TinyML就是正在发生的变革。

TinyML最大的优点就是可移植性。在具有小电池和低功耗的廉价MCU上运行意味着，使用 TinyML，人们可以很容易地将ML以便宜的价格集成到几乎任何东西中。

TinyML的机器学习用例，图源丨NXP

从工作机制来看，TinyML 算法的工作机制与传统机器学习模型几乎完全相同，通常在用户计算机或云中完成模型的训练。

不过，TinyML真正发挥之处在于训练后的处理，通常称为“深度压缩”（deep compression）。

TinyML主要拥有两种部署方式：一是直接部署框架，比如说谷歌的TensorFlow LiteMicro、EdgeImpulse等，第二种就是对MCU提供机器学习优化库，提供函数优化运算加速能力，比如说 Arm的CMSIS NN、ST的STM32Cube.AI等。

处理器推进方，有两股势力：一是Arm自己推进自己的Cortex-M系列，如设计出矢量扩展技术Arm Helium，推出为MCU设计的microNPU Ethos U55；二是许多厂商对开源的RISC-V进行CNN推理加速器研究，如蜂鸟E203、GAP-8、Pulpissimo等。

意法半导体微控制器和数字IC事业部总裁Remi El-Ouazzane曾在采访中表示，TinyML将在未来10年成为MCU市场的最大推动力。未来五年内，该公司5亿个MCU将运行某种形式的TinyML 或AI工作负载。

另据统计显示，世界上有超过2500亿个嵌入式设备在运行，预计每年增长20%，而在其中，目前有将近30亿台支持设备会支持TensorsFlow Lite。

厂商近几年结论，便印证上了上述结论，MCU界“六大天王”ST、NXP、Microchip、Renesas、TI、Infineon都在加大布局边缘AI：

ST在2019年发布STM32Cube.AI工具，并在2021年收购NanoEdge AI Studio，降低边缘AI开发门槛，在今年使用NVIDIA TAO 工具套件拓展STM32边缘AI生态；
NXP在2018年就推出机器学习软件eIQ®机器学习(ML)软件，并不断加大在AI/ML上的投入；
Microchip在2020年就将Cartesiam（现已被ST收购）、Edge Impulse和Motion Gestures的软件和解决方案接口引入其设计环境；
Renesas在2022年完成对美国从事机器学习模型开发的初创企业Reality AI（以TinyML为业务）的收购；
TI最近几年推出的MCU均在边缘AI领域具有优势，包括高集成可扩展的边缘AI处理器组合；
Infineon今年5月收购瑞典的TinyML和AutoML领域初创公司Imagimob AB。

尽管不断给模型增加参数量，让大模型越来越大是现在AI从业者的坚定方向，不过对机器学习算法而言，设计出内存、计算和能源效率更高的算法发展，也是一个新的趋势。

目前，TinyML仍处于起步阶段，在该方向上的专家也很少。不过，可以预见一拨新趋势，正在款款走来。

文章来源于: 电子工程世界原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。