首页
赛灵思器件上的 INT4 优化卷积神经网络（2）

赛灵思器件上的 INT4 优化卷积神经网络（2）

发布时间:2020-09-15

接上期

本文引用地址：

DSP 片上的优化

使用 DSP 硬件资源可实现乘法和累加 (MAC) 占用硬件资源较少。经优化后，DSP 能够在 16nm 或 28nm 器件上处理尽可能多的 MAC 运算。以 16nm 为例，可编程器件中 UltraScale™ 架构的 DSP48E2 片就属于专用片[参考资料 11]。DSP48E2 片由一个 27x18 二进制补码乘法器和一个 48 位累加器构成。如图 3 所示，MAC 能使用 DSP 片完成。

图片.png

图 3：MAC 模式下的 DSP48E2 片

优化

在低精度 MAC 运算中，相乘方式是 a*b。其中 a 是 4 位无符号激活参数数据，b 是 4 位有符号权重参数数据。DSP48E2 片可被配置成 4 通道乘法运算，如图 4 所示。

DSP48E2 片的端口 A 是 27 位宽。端口 B 是 18 位宽。int4 * uint4 相乘产生的结果至少有 8 位宽。充分利用 DSP 资源的前提是在多个相乘被打包在一起时，确保输出结果保持正确。为确保这一点，通道之间添加了保护位。当四个 MAC 通道被打包在一起时，需要在两路输入间布置足够的保护位。根据 DSP48E2 片的设计，保护位被设置为 3 位：

第一个通道 A1*W1 被布置在对应端口的 4LSB 上。下一个通道 A2*W1 需要移位至少 8 位才能正确计算。第二个通道与第一个通道共享权重参数数据 W1。端口 B 中的 A2 移位 11 位。3 位保护位用于最大化 DSP 资源的利用。最后一个计算元 W2 被分配给端口 A。最后两个通道是 A1*W2 和 A2*W2。权重参数是有符号数据。在相乘开始前，使用 27 位预加法器打包两个权重参数数据。因为 W1 需要符号扩展，所以 W2 不能布置在 D 端口的四个 MSB 上[参考资料 12]。如果 W2 在 MSB 中，当 W1 < 0 且 W2 = -8 时，预加法器就会溢出。后 48 位加法器可用作累加器，通过级联对之前层次的 DSP 结果进行相加。单个 DSP48E2 就能在单个时钟周期内实现四通道 MAC。
结果的位宽在累加后增大。硬件友好型量化器是一组移位寄存器，它可以通过指令控制移位的位数。移位运算是硬件友好型的。在低精度 CNN 中，卷积能够使用两种量化方法之一。一种是逐计算元地输出 8 位。另一种是对下一卷积输出 4 位。通过算法优化，两种量化方法都能量化成 2k 步长。差别在于输出数据的位宽以及它们是否是有符号数据。

DSP 强化使用

DSP 双数据速率 (DDR) 技术被用于改进由 DSP48 片实现的性能[参考资料 13]。因此需要为 DPU 提供两个输入时钟：一个用于通用逻辑，另一个用于 DSP 片。未采用 DSP DDR 技术的 DPU 和采用强化使用模式的 DPU 之间的差异如图 5 所示。
图片.png

面向 CNN 要求的计算图

卷积是 CNN 网络的主要计算要求。卷积的实际计算任务如下：

其中Anf 是浮点特征图，Wnf 是浮点权重。其本质是 MAC 运算。根据赛灵思的新颖量化感知训练解决方案，浮点的卷积计算按如下方式进行量化：

其中 axf、awf 和abf 是标度。这些浮点参数被转换成2k*2k。这是一种硬件友好型标度，能够在 FPGA 中使用移位运算轻松实现。
DSP 块在一个时钟周期中需要两个权重和两个特征。其中的每一个都能共享，如图 6 所示。

图片.png

在 W_1 所在的内核里，内核宽 * 内核高 * 通道的全部像素需要与特征相乘，然后加总成一个输出像素。在同一层，每个权重内核共享同样的特征图。两个被打包的权重需要来自两个不同的权重内核。每一步中当权重内核滑移到特征图上时，对应的特征数据就需要与该权重内核相乘。一个 DSP48 块中的两个特征应来自同一特征图里的不同滑动窗口。

模型量化与性能仿真

下面的章节讲解量化感知训练中使用的 CV 任务。这些任务包括图像分类、姿态估计、2D 检测、3D 检测、语义分割和多任务。
基准分类模型

在完成 ImageNet 分类数据集上的实验后得到如下结果。网络包括 ResNet50-V1、ResNet50-V2。在所有实验中，数据集均从浮点模型进行微调。所有偏差参数都量化到 8 位。实验结果如表 1 所列。

基准分类模型的结果参见表 1。它体现了这种方法的有效性。具体对 ResNet50V1 而言，4 位 XDPU 解决方案与 8 位 XDPU 解决方案在前 1 精度上的差距仅有 1.4%，在前 5 精度上的差距仅有 0.9%。

实时 ADAS 模型，包括姿态估计、检测、分割、多任务等。

为进一步验证量化方法的通用性，也在真实场景下开展了其他 CV 任务。

姿态估计

姿态估计任务使用更加复杂的堆叠 Hourglass 网络[参考资料 14]。通过在 MPII[参考资料 15]数据集上开展姿态估计实验，评估了逐层模式下两个网络结构的精度。结果参见表 2。

在表 2 中，hg-s2-b1 意味着堆栈数量是 2，块数量是 1。Hg-s8-b1 意味着堆栈数量是 8，块数量是 1。表 2 证明赛灵思量化解决方案实现了可媲美浮点模型的精度。

2D 检测

在 ADAS 系统中，BDD100K[参考资料 16]数据集用于 2D 检测。此外，FPN 结构被添加到 ResNet18-SSD 中，用作检测网络。实验结果如表 3 所示。

表 3 所示的是在经过微调后，8 位量化模型实现了高于浮点模型的 mAP。通过逐渐从 8 位微调到 4 位，最终的 4 位量化模型的 mAP 损耗小于 2%。2D 检测的示意图如图 7 所示。

3D 检测

ADAS 系统的 3D 检测任务使用 KITTI 数据集[参考资料 17]。PointPillars[参考资料 18]用于开展 3D 预测任务。实验结果如表 4 所示。

如表 4 所示，采用微调技巧后，4 位量化模型的精度仅比浮点模型低 0.16%。8 位和 4 位的 3D 检测结果如图 8 所示。

语义分割

在 ADAS 系统的语义分割任务中，CityScape 的数据集[参考资料 19]以理解城市视觉场景为重点。实验在以 ResNet18 为基干的特征金字塔网络 (FPN) 上开展。结果如表 5 所示。

表 5 显示，8 位模型可实现比浮点模型更高的 mIoU，4 位模型的 mIoU 仅比浮点模型低 1.7%。语义分割的示意图参见图 9。

多任务学习

为增强模型的归纳功能和精度，在多任务模型中使用了多个训练数据集，包括用于检测的 Waymo 和 BDD100k，以及用于分割的 BDD100k 和 Cityscapes[参考资料 19]。这些研究在以 ResNet18 为基干的特征金字塔网络 (FPN) 上开展。结果如表 6 所示。

表 6显示，8 位量化模型可实现优于浮点模型的 mAP 和与浮点模型保持同等水平的 mIoU。通过逐步微调，与浮点模型相比，最终的 4 位量化模型的 mAP 降低 1.66%，mIoU 提高 1.79%，仍然劣于 8 位模型的表现。多任务示意图结果如表 10 所示。
图片.png
竞争分析：8 位与 4 位对比

4 位 XDPU 在下列三种评估板上以 300MHz 频率运行：Ultra96 与 Zynq UltraScale+ MPSoC ZCU104 和 ZCU102。表 7 所示的是 4 位 XDPU 和 8 位 XDPU 的比较情况。在不同的 FPGA 上，4位 XDPU 实现的性能提升在 1.5 倍到 2.0 倍之间。例如，ZCU102 板使用的硬件资源没有增加，但性能提高 2 倍。

对于两个精度不同的加速器，在启用池化、逐计算元逐深度卷积和平均池化等全部功能后，对资源进行比较。如表 8 中所示，在相同的性能架构下，DSP 和 RAM 的占用显著下降。鉴于资源耗用下降，4 位 XDPU 架构被扩展到 B8192 的最大规模。使用 B8192 架构能以单器件实现更高性能。

以表 3 中 13.6FLOP 的 2D 检测模型为例，两个高精度模型 4/4 和 8/8 分别使用 4 位 XDPU 和 8 位XDPU 进行测试。该网络的计算要求是 13.6GOP。2D 检测网络的帧率如表 9 所示，测试不包含预处理和后处理。鉴于效率和网络类型的差异，性能和帧率之间不存在线性关系。如表 9 所示，4 位XDPU 的帧率在所有平台上均优于 8 位 XDPU。

结论

本白皮书介绍了一种运行在 Zynq UltraScale+ MPSoC 和 Zynq-7000 SoC 系列（16nm 和 28nm）器件上的全流程、硬件友好型量化解决方案，可用作 CNN 的低精度加速器。此外，本白皮书也介绍了如何在赛灵思 DSP 片上优化 INT4，从而在一个时钟周期内完成 4 通道 INT4 相乘。卷积的计算要求可通过打包 DSP 予以满足。与 INT8 XDPU 解决方案相比，使用 DSP 实现的 INT4 优化在真实硬件上可将处理峰值 GOPS 提升最大 2 倍并将性能最高提升 1.77 倍。这种赛灵思解决方案在各种 CV任务上都获得了媲美浮点模型的结果。对于资源受限和功耗受限的用例，赛灵思继续创新软硬件协同优化方法，为深度学习应用提速。

文章来源于:电子产品世界原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。

Xilinx北京隆重进驻新址新十年“芯”征程全面启航(2020-01-15)

Xilinx北京隆重进驻新址新十年“芯”征程全面启航;2020年1月15日，赛灵思公司在位于北京市朝阳区安定路5号院的中海国际中心新办公室，隆重举行赛灵思北京办公室乔迁庆典，庆祝公司进驻新址。赛灵思......

Xilinx “数据中心优先战略” 取得惊人发展(2019-12-05)

Xilinx “数据中心优先战略” 取得惊人发展;2019 年赛灵思开发者大会（ XDF ）亚洲站今日于北京盛大揭幕。赛灵思数据中心事业部举行媒体沟通会，这是赛灵思数据中心事业部（ Data......

定位创新驱动力 Xilinx三大战略取得重大成就(2019-12-04)

定位创新驱动力 Xilinx三大战略取得重大成就;新闻要点: • 第三届赛灵思开发者大会（XDF）亚洲站于2019年12月3日至4日在北京盛大揭幕，这是2019 XDF 全球三站的最后一站，也是......

Xilinx宣布Vitis™ AI 即日起开放下载，人工智能推断再提速(2019-12-04)

Xilinx宣布Vitis™ AI 即日起开放下载，人工智能推断再提速;2019年12月4日，中国，北京（2019 年赛灵思中国开发者论坛） —— 自适应和智能计算的全球领先企业赛灵思......

Xilinx联手西班牙电信驱动O-RAN 5G创新(2020-03-23)

Xilinx联手西班牙电信驱动O-RAN 5G创新;随着标准的不断演进，赛灵思器件只需简单的远程软件更新即可无缝升级，因而，赛灵思灵活应变的器件对于这样的重大产业转型，是最理想的选择。 5G时代......

Xilinx任命Brice Hill为首席财务官(2020-04-10)

Xilinx任命Brice Hill为首席财务官;2020 年 4 月 10 日，赛灵思公司今日宣布任命 Brice Hill 担任公司执行副总裁兼首席财务官（ CFO ），任命立即生效。Hill......

AMD 对赛灵思收购案已获两公司股东同意(2021-04-09)

AMD 对赛灵思收购案已获两公司股东同意;4月9日消息，据外媒报道，处理器大厂AMD和FPGA龙头企业赛灵思（Xilinx）表示，两家公司各自的股东投票同意AMD对赛灵思的收购计划。不过，收购......

Xilinx宣布16nm UltraScale+ 产品提前量产(2016-10-20)

Xilinx宣布16nm UltraScale+ 产品提前量产; 　　2016年10月13日，北京—All Programmable 技术和器件的全球领先企业赛灵思公司（Xilinx， Inc......

AMD完成收购赛灵思(2022-02-15)

AMD完成收购赛灵思;2月14日，半导体设计公司AMD表示，已完成对可编程芯片大厂赛灵思公司的收购，按照目前双方的股票交易价值，该项收购金额预计达500亿美元。此前1月24日，AMD宣布......

350亿美元，英国反垄断机构批准AMD收购赛灵思(2021-06-30)

350亿美元，英国反垄断机构批准AMD收购赛灵思;近日，全球多个半导体重大并购案均迎来了新的进展。英伟达斥资400亿美元对Arm的收购获得了博通、联发科、以及Marvell这三......

平台入驻

我们与500+贴片厂合作，完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页，多渠道推广，SEM/SEO精准营销以及与公众号的联合推广...详细>>

原厂代理商合作

利用葫芦芯平台的卓越技术服务和新产品推广能力，原厂代理能轻松打入消费物联网（IOT）、信息与通信（ICT）、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

闲置物料合作

充分利用其强大的电子元器件采购流量，创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术，不仅可以助你轻松识别与连接到需求方，更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

生态合作

我们的目标很明确：构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前，我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

加工与定制类服务商合作

我们深知加工与定制类服务商的价值和重要性，因此，我们倾力为您提供最顶尖的营销资源。在我们的平台上，您可以直接接触到100万的研发工程师和采购工程师，以及10万的活跃客户群体...详细>>

线上代理合作

凭借我们强大的专业流量和尖端的互联网数字营销技术，我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品，都可以通过我们的平台迅速传达给目标客户...详细>>

邮件营销及广告服务

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环，从引流、宣传到最终销售，全程跟进，确保每一个potential lead都得到妥善处理，从而大幅提高转化率。不仅如此...详细>>