本文作者:Shingo Kojima,瑞萨电子嵌入式处理高级首席工程师
人工智能(AI)处理在各个领域都有广泛应用,如工厂、物流、医疗、服务机器人和安全摄像头等,用于进行环境识别、决策控制和运动控制等任务。系统需要在各种类型的程序中实时处理先进的AI。 系统需要实时处理各种先进的AI程序,并嵌入到边缘设备中,以快速响应环境变化。而且,人工智能芯片在嵌入式设备中执行高级人工智能处理时需要消耗更少的功耗,并且严格限制散热。
为了满足这些市场需求,瑞萨电子开发了DRP-AI3(AI3 动态可重构处理器)作为 AI 加速器,用于高速 AI 推理处理,兼具边缘设备所需的低功耗和灵活性。 这种经过多年迭代的可重构AI加速器处理器技术,被嵌入到面向AI应用的RZ/V系列MPU中。
RZ/V2H是RZ/V系列的高端新产品,其电源效率比之前的产品高约10倍。 RZ/V2H MPU能够响应人工智能的进一步发展和机器人等应用的复杂要求。 本文将介绍RZ/V2H如何解决发热挑战,实现高实时处理速度,并为配备AI的产品实现更高的性能和更低的功耗。
DRP-AI3 加速器可高效处理裁剪 AI 模型
裁剪或剪枝(pruning)作为提高人工智能处理效率的典型技术,可以省略对识别精度影响不大的计算。 然而,AI模型中随机存在不影响识别精度的计算是很常见的。 这就造成了硬件处理的并行性和裁剪的随机性之间存在差异,导致处理效率低下。
虑模型中的计算是不是都是必要?如果不是的话,有没有可能简化模型来减少计算量和存储占用。本文主要谈的就是这一类方法,称为模型压缩(Model compression)。它是软件方法,应用成本低,而且与硬件加速方法并不矛盾,可以相互加成。细分来说,模型压缩又可分很多方法,如剪枝(Pruning)、量化(Quantization)、低秩分解(Low-rank factorization)、知识蒸馏(Knowledge distillation)。每一子类方法展开都可以是很大的话题,所以我们一个个来,今天主要只限于pruning方法。它基于一个假设,或者说目前的共识。就是DNN的过参数化(Over-parameterization)。我们知道,深度神经网络与其它很多机器学习模型一样,可分为训练和推理两个阶段。训练阶段是根据数据学习模型中的参数(对神经网络来说主要是网络中的权重);推理阶段中将新数据喂进模型,经过计算得出结果。而过参数化是指训练阶段我们需要大量的参数来捕捉数据中的微小信息,而一旦训练完成到了推理阶段,我们并不需要这么多的参数。这样的假设就支持我们可以在部署前对模型进行简化。模型压缩中的pruning和quantization两类方法正是基于这样的前提。模型简化后有很多好处,包括但不限于:1)最直接的好处就是计算量的减小,从而使计算时间更少,功耗更小。2)Memory footprint变小,可以放到更低端的设备上跑。还有个额外的性能好处是本来需要既慢又耗电的DRAM参与,现在有可能放在SRAM就搞定。3)Size更小的包有利于应用发布和更新。如一些手机市场会对应用的大小有限制,另外也有利于车OTA升级。有了『理论』上的启发后,下一个问题就是how。显然不能拿了模型瞎剪,因为这样精度可以会下降得很厉害以至无法接受。当然,也有情况会在pruning后精度提高的,这说明原模型过似合(overfit)了,pruning起到了regularization的作用。就一般情况下讲,核心问题是成如何有效地裁剪模型且最小化精度的损失。其实这不是一个新的问题,对于神经网络的pruning在上世纪80年代末,90年代初左右就有研究了。如论文《Comparing Biases for Minimal Network Construction with Back-Propagation》提出了magnitude-based的pruning方法,即对网络中每个hidden unit施加与其绝对值相关的weight decay来最小化hidden unit数量。又如上世纪90年代初当时经典的论文《Optimal brain damage》与《Second order derivatives for network pruning: Optimal Brain Surgeon》分别提出OBD和OBS方法,它们基于损失函数相对于权重的二阶导数(对权重向量来说即Hessian矩阵)来衡量网络中权重的重要程度,然后对其进行裁剪。但因为当时的大环境下,神经网络(那时没有deep neural network,只有neural network,或为区分称为shadow neural network)并不是机器学习的一个特别主流的分支,因此之后的很长一段时间也没有大量开枝散叶,但他们对问题的梳理定义和解决问题思路对二十多年后的很多工作产生了深远的影响。到了2012年,我们都知道深度学习一战成名,大放异彩。之后刷榜之风兴起且愈演愈烈,大家的注意力就是提高精度。于是大趋势就是不断地加深加重网络以提高精度,ImageNet准确率每年都创新高。2015-16年期间,Hang Song等人发表了一系列对深度神经网络进行模型压缩的工作。如《Learning both weights and connections for efficient neural networks》,《EIE: Efficient inference engine on compressed deep neural network》。其中《Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding》获得了ICLR 2016的best paper。其中对当时经典网络AlexNet和VGG进行了压缩。结合pruning,quantization和huffman encoding等多种方法,将网络size压缩了几十倍,性能获得成倍的提升。其中对于pruning带来的精度损失,使用了iterative pruning方法进行补偿,可以让精度几乎没有损失。这让大家意识到DNN参数冗余程度如此之大,可榨油水如此之多。之后这几年,模型压缩领域变得越丰富,越来越多的相关工作衍生出各种玩法。从network pruning的粒度来说,可以分为结构化剪枝(Structured pruning)和非结构化剪枝(Unstructured pruning)两类。早期的一些方法是基于非结构化的,它裁剪的粒度为单个神经元。如果对kernel进行非结构化剪枝,则得到的kernel是稀疏的,即中间有很多元素为0的矩阵。除非下层的硬件和计算库对其有比较好的支持,pruning后版本很难获得实质的性能提升。稀疏矩阵无法利用现有成熟的BLAS库获得额外性能收益。因此,这几年的研究很多是集中在structured pruning上。Structured pruning又可进一步细分:如可以是channel-wise的,也可以是filter-wise的,还可以是在shape-wise的。
为了解决这个问题,瑞萨电子优化了其独特的基于 DRP 的 AI 加速器 (DRP-AI) 的裁剪功能。 通过分析典型图像识别AI模型(CNN模型)中裁剪模式特征和裁剪方法与识别精度的关系,确定了既能实现高识别精度又能实现高效裁剪率的AI加速器的硬件结构,并应用于DRP-AI3设计中。此外,瑞萨还开发了软件减轻针对该 DRP-AI3 优化的 AI 模型的大小。 该软件将随机裁剪模型配置转换为高效并行计算,从而实现更高速的AI处理。 特别是,瑞萨电子的高度灵活的裁剪支持技术(灵活的N:M裁剪技术)可以根据AI模型中局部剪枝率的变化动态改变周期数,从而可以根据 用户所需的功耗、运行速度、识别精度。
DRP-AI3、DRP 和 CPU 协同运行的异构架构特性
使用 AI 加速器 (DRP-AI3)、DRP 和 CPU 进行多线程和流水线处理
具有 DRP(动态可重新配置有线逻辑硬件)的低抖动和高速机器人应用
例如,服务机器人需要先进的人工智能处理来识别周围环境。 另一方面,决定和控制机器人的行为也需要不使用人工智能的基于算法的处理。 然而,当前的嵌入式处理器(CPU)缺乏足够的资源来实时执行这些不同类型的处理。瑞萨电子开发了异构架构技术,使DRP、DRP-AI3和CPU能够协同工作,从而解决了这个问题。
如图1所示,动态可重构处理器(DRP)可以在执行应用程序的同时动态切换电路连接配置。根据要处理的内容,在每个操作时钟上打开芯片上的运算单元。 由于仅使用必要的运算电路,因此DRP比CPU处理消耗更少的功率并且可以实现更高的速度。 此外,与CPU相比,由于缓存未命中和其他原因而导致频繁的外部存储器访问会降低性能,DRP可以提前在硬件中构建必要的数据路径,从而减少内存访问时的性能下降。
DRP还具有动态可重构功能,每次算法改变时都会切换电路连接信息,从而能够利用有限的硬件资源进行处理,即使在需要处理多种算法的机器人应用中也是如此。
DRP 在处理图像识别等流数据时特别有效,其中并行化和流水线化直接提高了性能。 另一方面,诸如机器人行为决策和控制之类的程序需要在改变条件和处理细节的同时进行处理,以响应周围环境的变化。 CPU 软件处理可能比 DRP 中的硬件处理更适合于此。 将处理分配到正确的位置并以协调的方式运行非常重要。 瑞萨电子的异构架构技术允许 DRP 和 CPU 协同工作。
图 1:灵活的动态可重配置处理器 (DRP) 特性
MPU 和 AI 加速器 (DRP-AI3) 架构的概述如图 2 所示。机器人应用使用基于 AI 的图像识别与非 AI 决策和控制算法的复杂组合。 因此,具有用于 AI 处理的 DRP (DRP-AI3) 和用于非 AI 算法的 DRP 的配置将显着提高机器人应用程序的吞吐量。
图2:基于DRP-AI 3的异构架构配置
评估结果
(1) AI模型处理性能评估
搭载该技术的RZ/V2H的AI加速器的处理性能最高可达8 TOPS(每秒8万亿次乘积运算)。 此外,对于经过裁剪的AI模型,运算周期数可以与裁剪量成比例地减少,从而与裁剪前的模型相比,实现最高相当于80 TOPS的AI模型处理性能。 这比之前的RZ/V产品的处理性能提高了约80倍,这是一个显着的性能提升,足以跟上AI的快速演进(图3)。
图 3:DRP-AI3 测量峰值性能比较
一方面,随着AI处理速度的加快,基于算法的无AI图像处理(例如AI前处理和AI后处理)的处理时间正在成为相对瓶颈。 在AI-MPU中,部分图像处理程序被卸载到DRP,从而有助于提高整个系统处理时间。 (图4)
图 4:异构架构加速图像识别处理
在功效方面,AI加速器的性能评估显示,在运行主要AI模型时,其功效达到了全球顶级水平(约10TOPS/W)。 (图5)
图5:真实AI模型的功效
我们还证明,可以在配备 RZ/V2H 的评估板上执行相同的 AI 实时处理,无需风扇,其温度与现有市场配备风扇的设备相当。 (图6)
图 6:无风扇 RZ/V2H 板与带风扇 GPU 的发热比较
(2) 机器人应用的应用示例
例如,典型的机器人应用之一的SLAM(同时定位和建图)具有复杂的配置,需要多个程序进程来并行进行机器人位置识别和AI处理的环境识别。 瑞萨电子 DRP 使机器人能够即时切换程序,并且与 AI 加速器和 CPU 并行运行已被证明比单独 CPU 运行快约 17 倍,并将功耗降低至单独 CPU 运行水平的 1/12。
结论
瑞萨电子开发了 RZ/V2H,这是一款独特的 AI 处理器,它结合了端点所需的低功耗和灵活性,以及裁剪 AI 模型的处理能力,并且能效比以前的产品提高了 10 倍(10 TOPS/W)。
瑞萨电子将及时发布响应人工智能发展的产品,预计人工智能将变得越来越复杂,并将有助于部署以智能和实时方式响应终端产品的系统。
相关文章