葫芦AI数据平台

⌘K

后摩尔时代的创新：在米尔FPGA上实现Tiny YOLO V4，助力AIoT应用

发布时间: 2024-11-21

来源: 21IC

Tip：学习如何在 MYIR 的 ZU3EG 开发板上部署 Tiny YOLO v4，对比 FPGA、GPU、CPU 的性能，助力 AIoT 边缘计算应用。(文末有彩蛋)

一、为什么选择 FPGA：应对 7nm 制程与 AI 限制

在全球制程限制和高端 GPU 受限的大环境下，FPGA 成为了中国企业发展的重要路径之一。它可支持灵活的 AIoT 应用，其灵活性与可编程性使其可以在国内成熟的 28nm 工艺甚至更低节点的制程下实现高效的硬件加速。

米尔的 ZU3EG 开发板凭借其可重构架构为 AI 和计算密集型任务提供了支持，同时避免了 7nm 工艺对国产芯片设计的制约。通过在 ZU3EG 上部署 Tiny YOLO v4，我们可以为智能家居、智慧城市等 AIoT 应用提供高效的解决方案。

CPU GPU FPGA 架构对比

二、了解 Tiny YOLO 模型及其适用性

YOLO(You Only Look Once)是一种实时物体检测模型，它通过一次性扫描整个图像，实现高效的对象识别。

而其简化版 Tiny YOLO v4 更适合嵌入式设备，具有较少的层数和参数。其轻量化特性更适合在资源受限的设备上运行，尤其在低功耗、实时检测的边缘计算设备中表现出色。

相比传统 GPU，FPGA 能在小面积和低功耗下实现类似的推理性能，非常契合 AIoT 应用。像米尔 ZU3EG 这样的 FPGA 开发板，通过底板和丰富接口的载板设计，非常适合高效的嵌入式低功耗数据处理。

Yolo V4 网络结构图

Tiny Yolo V4 网络结构图

(通过优化网络结构和参数，保持较高检测精度的同时，降低模型的计算量和内存占用)

三、获取数据集和模型

可下载开源训练集或预训练模型。为了确保兼容性，建议将模型转换为 ONNX 格式，以便后续能在 FPGA 上完成优化。

1. 下载 Tiny YOLO v4 模型：从 Darknet 的 GitHub 仓库获取 Tiny YOLO 的预训练权重，或者在 COCO 等数据集上自行训练模型。自定义的模型适用于特定应用场景(如车辆检测、人脸检测等)。

2. 数据准备：若要自定义模型，可使用 LabelImg 等工具对数据集进行标注，将数据转为 YOLO 格式。之后，可将 YOLO 格式转换为 ONNX 格式，以便兼容 FPGA 优化工具链。

Tiny YOLO 在 Darknet 上训练的截图

四、通过 Vivado HLS 为 FPGA 准备模型

要将模型部署到 FPGA，需要将神经网络操作转换为硬件级描述。使用 Xilinx 的 Vitis HLS(高级综合)可以将 Tiny YOLO v4 的 C++ 模型代码的转化为 Verilog RTL(寄存器传输级)代码，从而将模型从软件世界带入硬件实现。

详细步骤：

1. 模型层映射和优化：

• 将 YOLO 的每一层(如卷积层、池化层)映射为硬件友好的 C/C++ 结构。例如，将卷积映射为乘累加(MAC)数组，通过流水线实现并行化。

2. 算子加速与指令优化：

• 流水线(Pipelining)：利用流水线来处理多项操作并行，减少延迟。

• 循环展开(Loop Unrolling)：展开循环，以每周期处理更多数据，尤其在卷积操作中有效。

• 设置 DATAFLOW 指令，使层间独立处理。

3. 量化与位宽调整：

• 将激活值和权重量化为定点精度(例如 INT8)，而非浮点数。这在维持准确度的同时显著降低计算量，尤其适合 FPGA 的固定点运算支持。

Tiny YOLO 模型在 Vivado HLS 中的层层转化流程图

五、使用 Vivado 综合与部署 Verilog 到米尔的ZU3EG FPGA开发板

当 HLS 生成的 RTL 代码准备就绪后，可以使用 Vivado 将模型部署到 FPGA。

1. Vivado 中的设置：

• 将 HLS 输出的 RTL 文件导入 Vivado。

• 在 Vivado 中创建模块设计，包括连接AXI 接口与 ZU3EG 的 ARM 核连接。

2. I/O 约束与时序：

• 定义 FPGA 的 I/O 引脚约束，以匹配 ZU3EG 板的特定管脚配置。配置时钟约束以满足合适的数据速率(如视频数据 100-200 MHz)。

• 进行时序分析，确保延迟和响应速度达到实时要求。

3. 生成比特流并下载到 ZU3EG：

• 生成的比特流可以直接通过 JTAG 或以太网接口下载到 ZU3EG。

将 Tiny YOLO 处理模块连接到米尔ZU3EG开发板的外设和接口

六、在 FPGA 上测试并运行推理

现在 Tiny YOLO 已部署，可以验证其实时对象检测性能。

1. 数据采集：

• 通过连接的相机模块捕捉图像或视频帧，或者使用存储的测试视频。

• 使用 ZU3EG 的 ARM 核上的 OpenCV 对帧进行预处理，再将它们传入 FPGA 预处理后进行推理。

2. 后处理与显示：

• 模型检测对象后，输出边框和类别标签。使用 OpenCV 将边框映射回原始帧，并在每个检测到的对象周围显示类别和置信度。

3. 性能测试：

• 测量帧速率(FPS)和检测准确度。微调量化位宽或数据流参数，以优化实时需求。

Tiny YOLO 模型在 ZU3EG 上显示检测结果的实时输出，视频帧中标注了检测到的对象

七、性能优化与调试技巧

为提高性能，可以进行以下调整：

• 内存访问：设计数据存储方式，最大限度利用缓存并减少数据传输，降低内存瓶颈。

• 降低延迟：重新评估关键路径延迟。若延迟过高，调整 Vitis HLS 中的流水线深度，并验证层间的数据依赖性。

• 量化改进：尝试 INT8 量化。Xilinx 的 Vitis AI 可帮助微调量化参数，以平衡准确性与速度。

不同优化配置对资源使用的影响

图：米尔MYC-CZU3EG/4EV/5EV-V2核心板及开发板

在MYIR 的 ZU3EG 开发平台上提供了一种高效的解决方案。利用独特的灵活性和低功耗优势，助力未来 AIoT 设备的普及和智能升级。

文章来源于: 21IC 原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。

相关文章

后摩尔时代的创新：在米尔FPGA上实现Tiny YOLO V4，助力AIoT应用

后摩尔时代的创新：在米尔FPGA上实现Tiny YOLO V4，助力AIoT应用

后摩尔时代的创新：在米尔FPGA上实现Tiny YOLO V4，助力AIoT应用; Tip：学习如何在 MYIR 的 ZU3EG 开发板上部署 Tiny YOLO v4，对比 FPGA、GPU...

2024-11-21

用FPGA构建边缘AI推理应用很难？这样做，变简单！

用FPGA构建边缘AI推理应用很难？这样做，变简单！

用FPGA构建边缘AI推理应用很难？这样做，变简单！;对于希望在边缘的推理处理器上实施人工智能 (AI) 算法的设计人员来说，他们正不断面临着降低功耗并缩短开发时间的压力，即使...

2023-10-11

宜鼎国际最新肺部X光片侦测自动化边缘 AI 解决方案加速医疗诊断

宜鼎国际最新肺部X光片侦测自动化边缘 AI 解决方案加速医疗诊断

出结果时间太长。利用AI深度学习模型来帮助医生或患者凭X光照片完成初步诊断并同时加快诊断速度。因此，宜鼎国际在FPGA平台上运行yolo v4 tiny模型，根据肺部X光片判断并定位肺部病变位置。宜鼎...

2023-05-17 09:25

宜鼎国际最新肺部X光片侦测自动化边缘 AI 解决方案加速医疗诊断

宜鼎国际最新肺部X光片侦测自动化边缘 AI 解决方案加速医疗诊断

出结果时间太长。利用AI深度学习模型来帮助医生或患者凭X光照片完成初步诊断并同时加快诊断速度。因此，宜鼎国际在FPGA平台上运行yolo v4 tiny模型，根据肺部X光片判断并定位肺部病变位置。宜鼎...

2023-05-16

YOLOv10：SOTA 实时物体检测

YOLOv10：SOTA 实时物体检测

显著改进，在性能保持不变的情况下，延迟减少了 46%，参数减少了 25%。 2. YOLOv10 视觉物体检测：概述 2.1 什么是 YOLO? YOLO(You...

2024-07-16

改进的检测算法：用于高分辨率光学遥感图像目标检测

改进的检测算法：用于高分辨率光学遥感图像目标检测

转目标检测方法，通过解决目标方向的随机化问题，提高遥感图像中目标检测的准确性。新算法研究目前的大多数YOLO系列检测头都是基于FPN和PAFPN的输出特性，其中基于FPN的网络，如YOLOv3及其...

2024-04-29

基于Jetson TX2视觉识别的取放一体平衡机器人

基于Jetson TX2视觉识别的取放一体平衡机器人

术的本地端图形方式信息传递功能。 3.2 算法首先，需要使用标注工具对图像中的目标物体进行标记，并将其转换为YOLO 模型所需的格式，包括图片和标注文件。由于Jetson TX2 的硬件资源有限，因此...

2023-08-20

基于多目标检测的交通监测反馈系统

基于多目标检测的交通监测反馈系统

不同的分辨率签名可以被输入到滤波器以估计目标位置。 3 基于的反馈系统方案本系统在WebStorm 和PyCharm 环境中开发完成，通过Python 语言编写，通过改进的YOLO-V3 算法对多目标进行检测和精确追踪，获得车流量、车速...

2022-12-23

鲲云科技新一代星空X9加速卡为AI服务器提供高性能算力支持

鲲云科技新一代星空X9加速卡为AI服务器提供高性能算力支持

卡在运行ResNet50, YOLO v3等算法模型时的芯片利用率提升了2.76-11.05倍，最高可以实现94.4%的芯片利用率。在性能方面，X9在运行ResNet50网络...

2021-04-19

基于机器视觉的缺陷检测常用算法有哪些

基于机器视觉的缺陷检测常用算法有哪些

表面缺陷检测是FCN较为普遍的应用场景之一。（2）采用Yolo算法实现目标检测。Yolo算法是基于回归的单阶段目标检测算法，属于卷积神经网络，最初版本的Yolo算法由24层卷积层、2层全连接层以及4层最...

2024-07-09