ST副总裁：TinyML设备将如海啸般来临

ST微控制器和数字 IC 事业部总裁 Remi El-Ouazzane 表示，TinyML 将在未来 10 年成为微控制器市场的最大推动力。

“我真的相信这是浪潮的开始。”他在接受《EE Times》独家采访时说道。 “我们将看到大量带有机器学习功能的产品：它会不断增加，并且会吸引更多的注意力。”

STMicro 目前占据微控制器 (MCU) 市场约四分之一的份额，每天出货 500万至 1000 万个 STM32 MCU。El-Ouazzane 表示，未来五年内，其中 5 亿个 MCU 将运行某种形式的 tinyML 或 AI 工作负载。

TinyML 指的是在通用 MCU 上运行人工智能或机器学习推理，“将成为世界上最大的端点市场。”他说。

El-Ouazzane 曾担任边缘 AI 芯片初创公司 Movidius 的首席执行官和英特尔 AI 产品组的首席运营官，他和ST的团队在过去几年中一直在努力将 AI 功能引入公司的产品组合中。

“虽然我相信tinyML是正在形成的最大市场，但令我感到开心的是，我们对风扇、水泵、逆变器、洗衣机滚筒制造公司的管理人员进行了三到五年的教育 ——现在他们都来了。”他说。 “我们生活在 ChatGPT 的世界里，但所有这些落后者最终都开始使用人工智能。这是我当时对 Movidius 的愿景。我以为这需要很长时间，但我们现在就看到了。”

Remi El-Ouazzane

部署TinyML

能源管理和自动化公司施耐德电气正在使用主流 STM32 设备进行人数统计和热成像应用。为此，它对热红外相机的传感器数据使用分类和分割算法。热像仪处理和人工智能都在微控制器上运行。施耐德可以利用该结果来优化 HVAC 系统，从而减少建筑物的二氧化碳足迹。

工业制造商Crouzet 还将 STM32 设备与tinyML 相结合，以实现预测性维护。

“这很有趣，因为对他们来说，维护成本是一笔巨款。”El-Ouazzane 说。 “他们必须在事后部署维修人员，如果飞机因为机门故障而停飞，当他们接到电话时，这可不是什么好消息。”

Crouzet 的tinyML 系统可以高精度地实时检测信号漂移，从而在潜在故障发生之前领先一步。该系统处理系统内部的数据，然后发送至云端进行分析。

“他们实际上正在改变他们的业务模式，以便能够在需要维护之前进行部署，这使他们能够更有效地部署维护人员。而且，毫无疑问，这可以让他们避免接到不想接到的电话。”El-Ouazzane 说道。

其他例子包括中国智能能源公司固德威，该公司正在使用tinyML处理振动和温度传感器数据，以防止其高功率逆变器中出现电弧。

虽然这些都是很好的例子，但为什么我们今天没有看到爆发式成长呢？

“在了解平台、原型设计、概念验证、测试以及多层管理层批准之后，从开始参与到真正部署，需要三年时间。”他说。 “在工业界，一家公司从开始思考某件事、第一次与我们合作，到将库部署到他们的产品中进行生产，至少需要三年。”

软件堆栈

一般来说，STMicro 将其TinyML 客户分为两类。工业客户（交付时间为 3 年）通常对人工智能缺乏经验，而投资于数据科学专业知识的公司通常可以更快地扭转局面。 ST采取了与恩智浦等竞争对手类似的方法：软件堆栈根据用户的人工智能体验水平提供不同的入口点。

对于工业用户来说，NanoEdge AI Studio 不需要先进的数据科学知识，嵌入式软件开发人员可根据需求创建最佳的 ML 库友好的用户界面。它目前支持四种类型的库：异常检测、异常值检测、分类和回归。并且它们可以随意组合和改变。

例如，异常值检测可能会检测到问题，分类可能会识别问题的根源，然后回归可能会推断信息以提供进一步的见解。像 Crouzet 这样的客户将 NanoEdge AI 用作低代码平台，用于处理振动、压力、声音、磁场和飞行时间传感器。

另一个STM32 Cube.AI 允许开发人员训练神经网络并针对内存和计算受限的环境对其进行优化。

与直觉相反的是，这个平台的增长速度比它的低代码兄弟平台更快。 El-Ouazzane表示，从去年3月到今年5月，STM32 Cube.AI的桌面下载量增长了400%。

“在这里，上市时间非常快——不到两年——因为这个平台上的人们知道他们想要什么，知道如何部署，而且复杂程度相当高，”他说。

El-Ouazzane 知道人工智能软件既是编译器问题，也是工具链问题。意识到让开发人员放弃熟悉的工具链是很困难的，ST向 Nvidia 提出了使用其流行的Tao工具链的想法。由此产生的合作意味着来自 Nvidia 或 ST模型库的 ONNX 格式的模型可以移植到Tao工具链，进行训练和优化（量化和修剪），然后转换回 ONNX，导出到 STM32 Cube.AI 并编译为可以在STM32上运行的C 代码。

“对我们来说，我们的想法是：有一个参考工具链，我们融入得越多，我们就越能扩大开发者的范围和我们所获得的下载量。”El-Ouazzane 说。 “我相信 Nvidia 看到了每年 5 亿个微控制器的巨大市场，并且边缘模型必须在某个地方进行训练。”

ST的示例应用程序展示了 STM32 MCU 执行人员检测，然后仅将带有人员的图像移交给 Nvidia Jetson GPU 进行进一步的分类任务。这减少了所需的 GPU 计算量，并可能有助于边缘系统适应更严格的功率预算。

STMicro 在其开发云中为每个 STM32 部件提供了许多开发板。

El-Ouazzane 还对编写与 ST的 Arm Cortex-M 设备兼容的软件的第三方生态系统开放，包括 OctoML、Plumerai 等。

“其中一些公司正在帮助我们。” 他说。 “如果公司或客户想要利用我们的解决方案，我们永远不会阻止：这不是最佳实践。我们正在尝试每一轮MLPerf以获得比他们更好的基准分数，并且我们正在缩小差距。”

在最近一轮 MLPerf Tiny 基准测试中，大约四分之三的提交是在 STM32 硬件上提交的，El-Ouazzane 表示，这说明了 STMicro 堆栈的成熟度。该公司计划让潜在客户能够在其开发云中重现其 MLPerf 结果。

El-Ouazzane 说：“我经历了惨痛的教训才明白，硬件性能很重要，但你的堆栈以及你用堆栈所获得的土地才是最重要的。我们非常小心地扩大我们的生态系统，扩大开发人员的数量，并将他们留在我们的屋檐下，我们将使客户依赖这种开发环境。”

硬件路线图

STMicro 还致力于开发下一代嵌入式边缘人工智能硬件。

El-Ouazzane 表示：“边缘与训练是不同的游戏。虽然训练受到互连、计算和内存的限制，但在边缘，主要限制因素是成本。”

“在微小的边缘，当你构建产品时，你会受到成本的限制；你不能疯狂堆砌成本。”他说，“有一个名义价格点，在 1 到 3 美元之间……部分成本还要包括微控制器中的非易失性存储器。”

EE Times 在 2023 年 Embedded World 上独家预览了 STM32N6，这是一款即将推出的具有专用片上 AI 加速功能的 MCU。（来源：EE Times/Sally Ward-Foxton）

STM32N6 是第一款在片上配备自主 NPU IP 的 Cortex-M 设备，最近被展示运行以 314 fps 运行的定制版本 YOLO；这比在 STM32H7 上运行的相同网络快一到两个数量级，STM32H7 是 STMicro 最强大的不带 NPU 的 MCU。

“N6 采用传统的冯·诺依曼架构，与我们当时在 Movidius 所做的非常相似（尽管没有关联），但其面积更加优化，超级紧凑，并且提供了更多的 TOPS/W性能。”El-Ouazzane说。（Movidius 的架构基于专为 AI 构建的定制可编程 VLIW DSP，而 N6 的 NPU 是成熟的数据流设计）。

N6 9月份将为10-15个主要客户提供样片，预计明年正式推出。

不过，El-Ouazzane 明确表示，N6 并不是ST在 AI 领域的最终目标。

“如果我们名义上说我们希望在 2025 年至 2030 年间达到每瓦性能最终目标，那么您可以假设 N6 已经实现了十分之一。”他说。 “这就是未来几年你将看到的增长量。 N6 是一款出色的产品，它在以人工智能为中心的用例中受到了很大的关注，但性能的爆炸式增长即将到来：微控制器上将有神经网络融合视觉、音频和时间序列数据。”

他对所需 10 倍性能跳跃的愿景是，支持模拟内存计算方案的非易失性存储器至关重要。

ST今年在 ISSCC 上发表了一篇论文，内容涉及其正在为下一代开发的基于 SRAM 的内存计算设计。该演示在INT4精度时，实现了 57 TOPS、77 TOPS/W。然而，它可能还需要一段时间才能进入大众市场。

El-Ouazzane 表示：“这项技术如今已在硅中实现，我们可以演示它并测量其性能。但这正在成为路线图交叉的问题。这肯定会在未来三到五年内发生。”

他指出，对于ST来说，当它到来时，它将会规模化。

为这种数量准备好产品需要时间——测试、文档、支持——因此时间与技术关系不大，而与 ST 将技术转化为大众市场产品的速度关系更大。

“我们对于成为微控制器人工智能加速器领域的驱动者感到非常兴奋，”他说。 “我们中的一些人之前已经在数据中心和客户端空间做到了这一点，我们认为我们可以复制它。我们的路线图将使我们能够在未来五年内做出令人兴奋的事情。”