基于视觉SLAM的研究现状

发布时间:

来源: 电子工程世界

自动驾驶车辆在不同的驾驶环境中需要精确的定位和建图解决方案。在这种背景下，SLAM技术是一个很好的解决方案。LIDAR和相机传感器通常用于定位和感知。然而，经过十年或二十年的发展，激光雷达SLAM方法似乎没有太大变化。与基于激光雷达的方案相比，视觉SLAM具有低成本和易于安装的优点，具有较强的场景识别能力。事实上，人们正试图用相机代替激光雷达传感器，或者在自动驾驶领域中基于相机集成其他传感器。

基于视觉SLAM的研究现状，本文对视觉SLAM技术进行了综述。特别是，论文首先说明了视觉SLAM的典型结构。其次全面回顾了视觉和基于视觉（即视觉-惯性、视觉-LIDAR、视觉-LIAR-IMU）SLAM的最新研究，并将论文之前工作的定位精度与公共数据集上的知名框架进行了比较。最后，讨论了用于自动驾驶车辆的视觉SLAM技术的关键问题和未来发展趋势。

01 简介

随着机器人技术和人工智能（AI）技术的发展，自动驾驶车辆（汽车）已成为工业界和学术界的一个热门话题（Badue等人，2021）。为了安全导航，它需要为周围环境创建一个准确的表示，并估计其中的自车状态（即自车定位）。传统的定位方法基于GPS或实时动态（RTK）定位系统（Cadena等人，2016b）。然而，由于信号反射、时间误差和大气条件，GPS的测量误差限制在十几米以内，这对于车辆导航来说是不可接受的，尤其是当车辆在隧道和城市峡谷场景中行驶时（Cheng等人，2019）。RTK能够通过固定校准基站的内部校正信号来校正这些误差，但这种系统依赖于成本较高的附加基础设施（Infotip Service GmbH，2019）。

SLAM方法被认为是自动驾驶车辆定位和导航的良好解决方案，它可以实时估计移动车辆的姿态，同时构建周围环境的地图（Durrantwhyte和Bailey，2006）。根据传感器类型的不同，SLAM方法主要分为两类：LIDAR SLAM和视觉SLAM。由于激光雷达SLAM比视觉SLAM启动得早，因此在自动驾驶仪的应用中相对成熟（Debeunne和Vivet，2020a）。与相机相比，激光雷达传感器对光照和夜间的变化不太敏感。此外，它还可以提供具有更大视野（FOV）的3D地图信息。然而难以负担的成本和大规模的长开发周期导致激光雷达传感器难以普及。相比之下，视觉SLAM具有信息丰富、易于安装的优点，并且使系统更便宜、更轻。

目前视觉SLAM系统可以在微型个人计算机（PC）和嵌入式设备中运行，甚至可以在智能手机等移动设备中运行（Klein和Murray，2009）。与室内或室外移动机器人不同，自动驾驶车辆具有更复杂的参数，尤其是当车辆在城市环境中自动驾驶时。例如，环境的面积更大，有动态障碍，因此视觉SLAM方法的性能不够准确和鲁棒（Cadena等人，2016a）。

诸如误差累积和照明变化以及快速运动等问题导致有问题的估计。已经考虑了各种方法来解决与自动驾驶车辆相关的这些问题。例如用于视觉里程（VO）的基于特征点/直接/半直接/点线融合的算法（Singandhupe和La，2019），以及用于姿态估计的扩展卡尔曼滤波器（EKF）/基于图的优化算法（Takleh等人，2018）。同时，基于视觉的多传感器融合方法也为提高自主系统的精度而引起了极大的关注。在基于视觉的SLAM系统中，除了建图模块之外，传感器数据的收集（如相机或惯性测量单元（IMU）、VO和视觉惯性里程计（VIO）系统）在前端完成，而优化、闭环在后端完成。重定位始终被认为是提高视觉SLAM系统准确性的附加模块（Taketomi等人，2017）。

本文综述了视觉SLAM方法。这主要是从视觉SLAM系统的定位精度方面考虑的，并且已经尽可能详细地研究了可能应用于自动驾驶场景的方法，包括纯视觉SLAM方法、视觉-惯性SLAM方法和视觉-LIDAR-惯性SLAM方法，并且将论文先前工作的定位精度与公共数据集上的已知方法进行了比较。这篇综述对视觉SLAM技术进行了详细的综述，可以为自动驾驶汽车领域的新研究人员提供友好的指南。此外，它可以被视为一本词典，供有经验的研究人员在未来的工作中寻找可能的方向。

02 视觉SLAM原理

视觉SLAM系统的经典结构可分为五个部分：相机传感器模块、前端模块、后端模块、回环模块和建图模块。如图1所示，相机传感器模块负责收集图像数据，前端模块负责跟踪两个相邻帧之间的图像特征，以实现初始相机运动估计和局部建图，后端模块负责前端的数值优化和进一步的运动估计，回环模块负责通过计算大规模环境中的图像相似度来消除累积误差，建图模块负责重建周围环境（Gao等人，2017）。

2.1 相机传感器

根据传感器类型的不同，常见的视觉传感器主要可分为单目、双目、RGB-D和事件摄像机。摄像机传感器如图2所示。市场上流行的视觉传感器制造商和产品如下，但不限于：

· MYNTAI：S1030系列（带IMU的双目摄像头）、D1000系列（深度摄像头）、D1200系列（适用于智能手机）；

· Stereolabs ZED：Stereolab ZED相机（深度范围：1.5至20米）；

· Intel：200系列、300系列、Module D400系列、D415（主动红外双目、滚动快门）、D435（主动红外双目、全局快门）、D4 35i（集成IMU）；

· 微软：Azure Kinect（适用于带IMU的麦克风）、Kinectc-v1（结构光）、Kinect-v2（TOF）；

· Occipital Structure：Structure Camera （应用于ipad）；

· 三星：第2代和第3代动态摄像头和基于事件的视觉解决方案（Son等人，2017b）。

2.2 前端

视觉SLAM的前端被称为视觉里程计（VO）。它负责基于相邻帧的信息粗略地估计相机运动和特征方向。为了获得具有快速响应速度的精确姿态，需要有效的VO。目前，前端主要可分为两类：基于特征的方法和直接方法（包括半直接方法）（Zou等人，2020）。本节主要回顾VO的基于特征的方法。

关于半直接和直接方法在后文。基于特征点的VO系统运行更稳定，对光和动态目标相对不敏感。具有高尺度和良好旋转不变性的特征提取方法可以大大提高VO系统的可靠性和稳定性（Chen等人，2019）。1999年，Lowe（2004）提出了尺度不变特征变换（SIFT）算法，该算法在2004年得到了改进和发展。整个算法分为三个步骤来完成图像特征点的提取和描述。i）通过高斯差分金字塔方法构建尺度空间，并通过高斯微分函数识别感兴趣的点。ii）确定每个候选的位置和比例，然后找出关键点。iii）将指向特征指定给关键点以获得描述子。SIFT消耗大量计算。SURF（Herbert等人，2007）是SIFT的改进。它解决了SIFT运算量大、实时性差的缺点，保持了SIFT算子的优良性能。尽管如此，SURF算法在应用于实时SLAM系统时具有更大的局限性。在保证性能的基础上，提出了一种更加注重计算速度的特征提取算法。2011年，Viswanathan（2011）提出了一种基于模板和机器学习方法的局部角点检测方法，即FAST角点检测法。FAST算法将要检测的像素作为圆心，当具有固定半径的圆上的其他像素与圆心的像素之间的灰度差足够大时，该点被认为是角点。然而，FAST角点不具有方向和尺度信息，它们不具有旋转和尺度不变性。

2012年，Rublee等人（2012）提出了基于FAST角点和BRIEF描述符的定向FAST和旋转BRIEF（ORB）算法。该算法首先在图像上构建图像金字塔，然后检测FAST关键点并计算关键点的特征向量。ORB的描述符采用了二进制字符串特征BRIEF描述符的快速计算速度（Michael等人，2010），因此ORB计算速度比具有实时特征检测的fast算法更快。此外ORB受噪声影响较小，具有良好的旋转不变性和尺度不变性，可应用于实时SLAM系统。2016年，Chien等人（2016）比较并评估了用于VO应用的SIFT、SURF和ORB特征提取算法。通过对KITTI数据集的大量测试（Geiger等人，2013），可以得出结论，SIFT在提取特征方面最准确，而ORB的计算量较小。

因此，作为计算能力有限的嵌入式计算机，ORB方法被认为更适合自动驾驶车辆的应用。VO的其他图像特征描述子如下所列，但不限于DAISY（Tola等人，2010）、ASIFT（Morel和Yu，2009）、MROGH（Fan等人，2011a）、HARRIS（Wang等人，2008）、LDAHash（Fan等，2011b）、D-BRIEF（Trzcinski和Lepetit，2012）、Vlfeat（Vedali和Fulkerson，2010），FREAK（Alahi等人，2012），Shape Context（Belongie等人，2002）、PCA-SIFT（Ke和Sukthantar，2004）。

2.3 后端

后端接收前端估计的摄像机位姿，并优化初始位姿，以获得全局一致的运动轨迹和环境图（Sunderhauf和Protzel，2012）。与前端的多样化算法相比，当前后端算法的类型主要可分为两类：基于滤波器的方法（如扩展卡尔曼滤波器（EKF）Bailey等人，2006）和基于优化的方法（例如因子图Wrobel，2001）。它们的描述如下：基于滤波器的方法，该方法主要使用贝叶斯原理基于先前状态和当前观测数据来估计当前状态（Liu，2019）。

典型的基于滤波器的方法包括扩展卡尔曼滤波器（EKF）（Bailey等人，2006）、无迹卡尔曼滤波器（UKF）（Wan和Merwe，2000）和粒子滤波器（PF）（Arnaud等人，2000）。以典型的基于EKF的SLAM方法为例，它在小规模环境中的应用相对成功。然而，由于协方差矩阵是存储的，其存储容量随着状态量的平方而增加，因此在大型未知场景中的应用总是受到限制。基于优化的方法，基于非线性优化（图优化）方法的核心思想是将后端优化算法转换为图的形式，以不同时刻的主题位姿和环境特征为顶点，顶点之间的约束关系由边表示（Liang等人，2013）。构建图形后，使用基于优化的算法来求解目标的位姿，以便顶点上要优化的状态更好地满足相应边上的约束。在执行优化算法之后，对应的图是目标运动轨迹和环境图。目前，大多数主流的视觉SLAM系统使用非线性优化方法。

2.4 回环

回环的任务是允许系统基于传感器信息识别当前场景，并在返回原始位置时确定该区域已被访问，从而消除SLAM系统的累积误差（Newman和Ho，2005）。对于视觉SLAM，传统的回环检测方法主要使用单词包（BoW）模型（Galvez LoPez和Tardos，2012），实现步骤为：i）通过对从图像中提取的局部特征的K-means聚类，构建包含K个单词的单词列表。ii）根据每个单词的出现次数将图像表示为K维数值向量。iii）判断场景的差异，并识别自动驾驶车辆是否已到达所识别的场景。

2.5 建图

自动驾驶汽车的一个基本组成部分是建立环境地图并在地图上定位的能力。建图是视觉SLAM系统的两项任务之一（即定位和建图），它在自动驾驶的导航、避障和环境重建中发挥着重要作用。一般来说，地图的表示可以分为两类：度量地图和拓扑地图。度量地图描述了地图元素之间的相对位置关系，而拓扑地图强调了地图元素间的连接关系。对于经典的SLAM系统，度量地图可以进一步分为稀疏地图和密集地图，稀疏地图仅包含场景中的少量信息，这适合于定位，而密集地图包含更多信息，这有利于车辆根据地图执行导航任务。

03 SOTA研究

3.1 视觉SLAM

与前文描述的VO子系统类似，根据利用图像信息的方法，纯视觉SLAM系统可分为两类：基于特征的方法和直接方法。基于特征的方法是指通过提取和匹配特征点来估计相邻帧之间的相机运动和构建环境地图。这种方法的缺点是提取特征点和计算描述符需要很长时间。因此，一些研究人员建议放弃关键点和描述符的计算，然后产生直接方法（Zou等人，2020）。

此外，根据传感器的类型，视觉SLAM可以分为单目、双目、RGB-D和基于事件相机的方法。根据地图的密度，可分为稀疏、密集和半密集SLAM，介绍如下：

3.1.1 基于特征的方法

2007年，Davison等人（2007）提出了第一个实时单目视觉SLAM系统，Mono-SLAM。实时特征patch方向估计的结果如图3（a）所示。在后端使用EKF算法来跟踪从前端获取的稀疏特征点，并使用相机位姿和界标点方向作为状态量来更新其均值和协方差。同年，Klein和Murray（2007）提出了一种并行跟踪和建图系统PTAM。它实现了跟踪和建图工作的并行化。特征提取和建图的过程如图3（b）所示，首次通过非线性优化方法区分了前端和后端，并提出了关键帧机制。

关键图像串联连接以优化运动轨迹和特征定向。许多随后的视觉SLAM系统设计也采用了类似的方法。2015年，Mur Artal等人（2015）提出了ORB-SLAM，这是一种相对完整的基于关键帧的单目SLAM方法。与PTAM的双线程机制相比，该方法将整个系统分为三个线程：跟踪、建图和回环。需要注意的是，特征提取和匹配（左列）、地图构建和循环检测的过程都基于ORB特征（右列）。图3（c）是大学道路环境中单目相机的实时特征提取过程（左列）和轨迹跟踪和建图结果（右列）。

2017年，Mur Artal等人提出了ORB-SLAM2的后续版本（Murartal和Tardos，2017）。该版本支持回环检测和重定位，具有实时地图重用功能，此外，改进的框架还打开了双目相机和RGB-D相机之间的接口。图3（d）的左列显示了ORB-SLAM2的双目轨迹估计和特征提取。图3（d）的右栏显示了RGB-D相机在室内场景中的关键帧和密集点云建图效果。图片中连续的绿色小方块构成了关键帧的轨迹，RGB-D相机构建的密集3D场景地图围绕着关键帧。

3.1.2 基于直接的方法

2011年，Newcombe等人（2011b）提出了基于直接方法DTAM的单目SLAM框架。与基于特征的方法不同，DTAM采用基于逆深度的方法来估计特征的深度。通过直接图像匹配计算相机的位姿，并通过基于优化的方法构建密集地图（图4（a））。2014年，Jakob等人（2014）提出了LSD-SLAM（图4（b）），这是直接方法在单眼视觉SLAM框架中的成功应用。该方法将面向像素的方法应用于半密集单目SLAM系统。与基于特征的方法相比，LSD-SLAM的灵敏度较低，但当相机内参和照明变化时，系统很脆弱。2017年，Forster等人（2017）提出了SVO（半直接视觉里程计）。它使用稀疏直接法（也称为半直接法）来跟踪关键点（图4（c）的底部），并基于关键点周围的信息来估计位姿。图4（c）顶部显示了室内环境中稀疏地图的轨迹。由于半直接方法跟踪稀疏特征，既不计算描述符，也不处理密集信息，因此SVO具有较低的时间复杂度和较强的实时性。

2016年，Engel等人（2018）提出了DSO，该方法还使用半直接方法以确保在更快的操作速度下获得更高的精度。然而，它们只是视觉里程计。由于缺少后端优化模块和回环模块，系统的跟踪误差会随着时间累积。图4（d）显示了DSO（单目视觉里程计）的3D重建和跟踪效果。直接法具有计算速度快、对弱特征条件不敏感等优点。然而，它基于灰度级不变的强烈假设，因此它对照明的变化非常敏感。相反特征点方法具有良好的不变性。

2020年，Zubizarreta等人（2020）提出了一种直接稀疏映射方法DSM，这是一种基于光度学束调整（PBA）算法的全单目视觉SLAM系统。表1总结了最先进的视觉SLAM框架的主要特点及其优缺点。除上述典型框架外，还研究了其他相关工作，如（i）稀疏视觉SLAM；（ii）半密集视觉SLAM；（iii）密集视觉SLAM。正如你所看到的，视觉SLAM领域有很多成就，论文只是对流行的方法进行了回顾。即使视觉SLAM提供了良好的定位和建图结果，所有这些解决方案都有优点和缺点。在这项工作中，总结了“基于稀疏的方法”、“基于密集的方法”和“基于特征的方法”的优缺点，“基于直接的方法”，“单目方法”，”双目方法“，”RGB-D方法“和”事件相机方法“可在表2中找到。

3.2 视觉-惯性SLAM

IMU传感器可以提供一个很好的解决方案，以解决当相机移动到具有挑战性的环境中（较少的纹理和/或照明变化）时跟踪失败的问题，另一方面，视觉传感器可以弥补IMU的累积漂移。这种视觉和IMU的结合被称为黄金搭档。由于相机和IMU的互补功能，在无人驾驶等领域具有良好的发展前景（Sun和Tian，2019）。VI-SLAM的主要方法是将IMU信息结合到视觉SLAM系统的前端，该系统也称为视觉惯性里程计（VIO）系统。通常，VI-SLAM系统可分为两类：基于滤波器的方法和基于优化的方法：3.2.1 基于特征的方法2007年，Mourikis和Roumeliotis（2007）提出了多状态约束卡尔曼滤波器（MSCKF），这是最早的基于扩展卡尔曼滤波器（EKF）算法的视觉惯性SLAM系统。

与纯视觉里程计相比，MSCKF（图5（a））可以在一定时间内适应更剧烈的运动和纹理损失，具有更高的鲁棒性。2012年，Stephan（2012）提出了SSF（图5（b）），它是一种基于EKF和松耦合方法的时间延迟补偿单传感器和多传感器融合框架。2013年，Li和Mourikis（2013）指出了MSCKF在状态估计过程中的不一致性。2017年，Paul等人（2017）提出了MSCKF2.0，这大大提高了准确性、一致性和计算效率。此外，ROVIO（鲁棒视觉惯性里程表）（Bloesch等人，2015）（图5（c））和MSCKF-VIO（Ke等人）（图6（d））也是近年来基于过滤方法的优秀作品；

3.2.2 基于优化的方法

就基于优化的VI-SLAM系统而言，最经典的框架是OKVIS。2015年，Leutinegge等人提出了OKVIS，它使用IMU测量值来预测当前状态、空间点和二维图像特征，以构成重投影误差。预测的IMU状态量和优化的参数构成IMU误差项，然后再投影误差与IMU误差相结合以进行优化。2017年，Tong等人（2017）提出了VINS-Mono，它被视为一种优秀的单目VI-SLAM系统，前端采用光流方法，后端采用基于滑动窗口的非线性优化算法（Cheng等人，2021b）。此外，VINS-Mono的初始化方法值得注意，它采用了不相交方法（以及VI-ORBSLAM Mur Artal和Tards，2017），该方法首先初始化纯视觉子系统，然后估计IMU（加速度计和陀螺仪）的偏差、重力、比例和速度。

通过KITTI和EuRoC数据集的测试，VINS Mono已被证明具有与OKVIS相当的定位精度，在初始化和环路闭合阶段具有更完整和鲁棒性。2019年，VINS-Mono团队提出了双目版本，并整合了GPS信息，VINS-Fusion（Tong等人，2019）。如图6（c）所示，由于增加了GPS测量，它在户外环境中实现了良好的定位和建图效果，并且被认为是自动驾驶车辆领域的一个良好应用。2020年，Campos等人（2020）提出了一种基于特征的紧密集成视觉惯性SLAM系统ORB-SLAM3。这是通过最大后验（MAP）算法实现的更高效初始化过程的最新成果，并且它实现了多地图功能，该功能依赖于具有改进的召回率的新地点识别方法。此外，该系统能够使用单目、双目和RGB-D相机执行视觉、视觉-惯性和多地图SLAM。户外场景的实验结果如图6（d）所示。

ORB-SLAM3的管道与ORB-SLAM2类似，整个系统由三个线程组成：跟踪、局部建图和回环线程。此外，ORB-SLAM3可以在长时间的不良视觉信息中生存，当它丢失时，它会启动一个新的地图，当重新访问地图区域时，它将与以前的地图无缝合并。表3总结了近年来视觉惯性SLAM框架中的主要算法。目前，基于优化的VI-SLAM方法已成为主流。除上述方法外，还有其他最先进的工作可以总结如下，但不限于BASALT、Kimera、ICE-BA、Maplab、StructVIO。

3.3 测试和评估

为了直观地理解上述SLAM方法的定位效果，在配备Intel Core i7-9700 CPU、16 GB RAM和Ubuntu18.04+Melodic操作系统的同一机载计算机上测试了一些典型算法，并将其与我们之前的一项工作（Cheng等人，2021a）进行了比较。如Cheng等人（2021a）所述，基于传统的高斯-牛顿（G-N）线性迭代策略，提出了一种改进的信赖域迭代策略，然后将该策略集成到VI-ORBSLAM框架中（Mur-Artal和Tards，2017），以实现更快的初始化和更高的定位精度。信任区域迭代策略的模型如图7所示。它结合了最速下降算法和G-N算法，用信任模型逼近目标函数。当解被认为是当前点附近模型函数的最小值时，则在每个迭代步骤中求解最小化子问题。

需要估计的初始参数包括比例因子、速度、重力以及加速度计和陀螺仪的偏差。为了使所有变量都可观察到，纯ORB-SLAM系统需要执行几秒钟。该方法的具体步骤如下：首先，执行视觉初始化过程，包括ORB提取、地图初始化和初始位姿估计。其次，采用IMU预集成技术对IMU相机进行频率对准，生成关键帧。第三，提出了一种改进的基于信赖域的迭代策略，用于陀螺偏差估计，并对重力方向进行了细化。最后，在先前估计的基础上估计加速度计偏差和视觉尺度。论文之前工作的管道如图8所示。

EuRoC数据集V2_01_easy序列上算法的2D轨迹如图9所示。可以看到，与GT相比，每个算法的测试结果都有不同程度的偏差，论文算法的轨迹（红线）更接近GT（黑虚线），而VI-ORBSLAM（蓝线）的漂移最大。X、Y、Z方向的位置变化曲线如图10所示。欧拉角（即横摇、俯仰、偏航）的比较曲线如图11所示。表4显示了在整个11个序列中测试的同一CPU平台（i7-9700 CPU）中的定量均方根误差（RMSE）结果和帧速率，因为所有算法都采用多线程，所以表4的第三列报告了处理图像流时的帧速率。图12和图13分别提供了平移误差的RMSE和累积分布函数（CDF），图14和图15分别提供了定向误差的RMSE和累积分布功能（CDF）。

可以知道，论文之前的工作，一个快速单目视觉惯性系统，具有改进的迭代初始化策略方法，在几乎所有序列中实现了最佳的定位精度。实际上，由于出色的初始化过程，论文的方法在六个序列和七个序列上提供了最佳的定向性能，即使系统无法提取ORB特征，系统也可以快速重新启动工作。

3.4 视觉-LIDAR SLAM

视觉和激光雷达有各自的优点，例如视觉可以从环境中获得大量的纹理信息，并且具有很强的场景识别能力，而LADAR不依赖光，可靠性好，距离测量精度更高。因此，在自动驾驶领域，集成视觉和激光雷达的SLAM系统可以提供更智能、更可靠的环境感知和状态估计解决方案。它遵循具有三个主要步骤的经典SLAM架构：（i）数据处理步骤；（ii）估计；（iii）全局建图步骤。根据视觉和激光雷达在SLAM系统中的不同比例，视觉激光雷达SLAM方案可分为三类：视觉引导方法、激光雷达引导方法和视觉激光雷达相互校正方法。

3.4.1 视觉引导方法

视觉SLAM，特别是对于单目视觉SLAM而言，总是无法有效地提取特征点的深度信息，而LIDAR是这方面的专家。为了弥补视觉SLAM的缺点，研究人员试图将LIDAR数据融合到视觉SLAM系统中。视觉引导SLAM的代表作是LIMO（Graeter等人，2018）。该方法将激光雷达获得的空间点云投影到图像平面上，以估计视觉特征的尺度，然后将激光雷达恢复的视觉特征尺度和从相机位姿估计得到的特征尺度构造误差项作为后端优化的约束。

Shin等人（2018b）提出了一种使用LIDAR获取视觉SLAM的稀疏深度点云的方法，由于相机的分辨率远高于LIDAR，该方法存在大量像素没有深度信息的问题。为了解决这个问题，De Silva等人（2018）在计算两个传感器之间的几何变换后，采用了高斯回归模型来插值缺失的深度值。该方法使用激光雷达直接初始化图像中检测到的特征，其效果与使用RGB-D传感器的方法相同。还有一些研究将激光雷达集成到视觉SLAM中，以提高解决方案的应用价值，例如降低成本、提高性能和增强系统鲁棒性。

文章来源于: 电子工程世界原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。