Ambiq Micro 最近构建了 AI 软件开发套件 (SDK)。Ambiq 的 Neural Spot AI SDK 与其超低功耗亚阈值和近阈值技术与高效推理集成,Ambiq 的数据具有低于毫焦耳功耗的关键字识别能力。这种效率将适用于物联网设备,尤其是可穿戴设备,这对该公司来说已经是一个很大的市场。
Cortex-M 设备上的人工智能应用程序需要专门的软件堆栈,而不是开源框架可用的软件堆栈,例如用于微控制器的 TensorFlow Lite,因为微调性能涉及很多挑战,Ambiq Micro 的AI副总裁 Carlos Morales告诉 EE Times到。
“[Arm 的 CMSIS-NN] 已经优化了内核,可以很好地使用 [Arm 的内核],但是获取数据并将其移动到下一层意味着会发生很多转换,[Arm] 必须执行通用转换。如果你仔细设计你的数据路径,你就不必进行这些转换,你可以去掉这些东西的中间部分,然后一个一个地调用它们——这会变得非常高效。”
Neural Spot 的库基于 CMSIS-NN 的优化版本,增加了快速傅立叶变换 (FFT) 等功能。 Morales 指出,与云 AI 不同,嵌入式 AI 主要集中在大约十几种模型上,因此它是一个更容易优化的子集。
“在 TensorFlow 中运行的语音活动检测器会很糟糕,你只会把所有的时间都花在来回加载张量上。但是你[在较低的水平]编写它,突然间你在两三毫秒内就完成了,这太棒了。”他说。
Neural Spot 包括一个模型动物园。 (来源:Ambiq 微)
更令人头疼的问题包括 Python 与在嵌入式设备上运行的 C/C++ 代码之间的不匹配。
“我们创建了一套工具,让您可以将嵌入式设备视为 Python 的一部分。”Morales说。 “我们使用来自 Python 模型内部的远程过程调用,然后在评估板上执行。”
远程过程调用可以轻松地将 Python 的特征提取器或 Mel 频谱图计算器与评估板上运行的内容进行比较(Mel 频谱图是音频处理中使用的音频数据表示)。
Neural Spot 包括一个带有健康(ECG分类器)和语音检测/处理示例的开源模型动物园。 语音处理包括用于语音活动检测、关键字检测和语音到意图的模型。 Ambiq 正在研究用于语音增强(背景噪声消除)和计算机视觉模型的 AI 模型,包括人员检测和对象分类。
Neural Spot AI SDK 建立在 Ambiq Suite 之上——Ambiq 的库用于控制电源和内存配置、与传感器通信以及管理 SoC 外围设备。 Neural Spot 使用预设功能为可能不熟悉亚阈值硬件的 AI 开发人员简化了这些配置选项。
Ambiq 的 Neural Spot SDK 面向专业的 AI 开发人员、领域专家和系统集成商。 (来源:Ambiq)
新的 SDK 专为所有第四代 Apollo 芯片设计,但 Apollo4 Plus SoC 特别适合始终在线的 AI 应用程序,Morales 说。 它具有一个带有 2 MB MRAM 和 2.75 MB SRAM,以及Arm Cortex-M4 内核。还有一个图形加速器、两个 MIPI 通道,以及低功耗蓝牙无线电。
从 MRAM 执行时,Apollo4 Plus 的电流消耗低至 4 μA/MHz,并且具有高级深度睡眠模式。 有了如此低的功耗,在资源受限的环境中运行 AI 时,突然间你可以做更多的事情。
“你以前必须做出很多妥协,例如,降低精度,或者由于延迟或功率要求而制作更浅的模型。所有你要剥离的东西都是因为你想保持在功率预算内,现在可以一切正常了。”Morales补充道。
他还指出,虽然 AI 加速对于省电很重要,但数据管道的其他部分也同样重要,包括传感数据、模数转换和在内存中移动数据:例如,收集音频数据可能需要几秒钟,而推理在几十毫秒内完成。 因此,数据收集可能占用电量的大部分。
Ambiq 将 Apollo4 Plus 运行 MLPerf Tiny 基准测试的内部功率测量值与其他微控制器的已发布结果进行了比较。 Ambiq 的 Apollo4 Plus 数据显示,与另一款 Cortex-M4 器件相比,能耗(µJ/推理)大约低 8 到 13 倍。 关键字识别推理基准使用的电量不到 1 mJ,人物检测使用的电量不到 2 mJ。
配备 x-M4 的 Apollo 4 Plus 系列与竞争微控制器(竞争结果取自 MLPerf Tiny)。 (来源:Ambiq 微)
亚阈值操作
Ambiq 使用亚阈值和近阈值操作实现了这种低功耗操作。 Ambiq Micro 的创始人兼首席技术官 Scott Hanson 在早些时候的一次采访中告诉 EE Times,虽然使用亚阈值电压可以节省大量电量,但这并不简单。
“从表面上看,亚阈值和接近阈值的操作非常简单:您只需调低电压即可。 看起来,任何人都可以做到这一点,但事实证明,这实际上非常困难,”他说。 “当你将电压降低到接近阈值或亚阈值范围时,你最终会对温度、工艺和电压产生巨大的敏感性,因此部署传统设计技术变得非常困难。”
Ambiq 的秘诀在于该公司如何减轻这些变量的影响。
“当面临温度和工艺变化时,将电源电压集中在一个可以补偿这些温度和工艺波动的值上是至关重要的,因此我们有一种独特的方法来调节跨工艺和温度的电压,允许亚阈值和接近阈值操作可靠和稳健,”汉森说。
Ambiq 的技术平台 Spot 使用“50 或 100”设计技术来解决这个问题,技术涵盖模拟、数字和内存设计。 大多数这些技术都在电路级; 许多经典构建块电路(包括带隙参考电路等示例)在亚阈值模式下运行时无法工作,需要 Ambiq 重新设计。 其他挑战包括如何分配时钟以及如何分配电压域。
在较低电压下运行确实需要权衡:设计必须运行得更慢。 Hanson 说,这就是为什么 Ambiq 开始在嵌入式领域应用其亚阈值理念。 24 或 48 MHz 最初足以满足超低功耗可穿戴设备的需求,而 Ambiq 目前在该领域占据了大约一半的市场份额。 然而,客户很快就提高了对时钟速度的要求。 Ambiq 通过引入更多动态电压和频率缩放 (DVFS) 工作点实现了这一点——客户 99% 的时间在亚阈值或接近阈值模式下运行,但当他们需要提高计算能力时,他们可以增加运行电压在更高的频率。
“随着时间的推移,你会看到更多来自 Ambiq 的 DVFS 操作点,因为我们想要支持真正的低压、中压和高压。”Hanson 说。
Ambiq 技术路线图上的其他项目包括更先进的工艺节点、在不提高电压的情况下提高性能的架构增强以及专用 MAC 加速器(用于 AI 推理和过滤器加速)。
相关文章