自动驾驶系统中摄像头相对地面的在线标定方案解析

相机与地面的在线标定是一般指实时生成相机与道路平面之间的非刚体变换，现有的解决方案常常利用静态标定，在面对轮胎气压变化、车辆载重体积变化和道路表面多样性等环境变化时存在问题。其他在线解决方案利用道路元素或图像中重叠视图之间的光度一致性，这需要在道路上连续检测特定目标或借助多个摄像头来进行标定。在这项工作中提出了一种在线的单目相机与地面标定解决方案，不需要在行驶过程中使用任何特定目标。通过轮速里程计进行粗到精的地面特征提取，并通过基于滑动窗口的因子图优化来估计相机与地面的标定参数。考虑到驾驶过程中相机与地面之间的非刚性变换，我们提供了衡量标定性能的指标和停止标准，以发布我们满意的标定结果。使用真实的数据进行的广泛实验表明该算法有效，并且优于现有的技术。

介绍

现代车辆配备了各种摄像头，以获取与周围环境相关的丰富语义信息，并将特征统一在共享的鸟瞰图中，以支持可解释的运动规划任务。相机与地面的标定在确定相机坐标和地面坐标之间的特征位置的几何变换方面起着关键作用。它有助于消除相机的透视畸变，提供鸟瞰图表示空间，并且便于估算安装在车辆上的相机与地面上位置之间的距离，这在先进驾驶辅助系统（ADAS）和自动驾驶系统中被广泛应用。在过去的几十年中，已经提出了许多相机与地面的标定方法。这些方法通常可以分为两类：（1）静态标定；（2）行驶过程中的在线标定。第一类方法通常使用诸如棋盘格或手动标注的地面物体等各种模式，事先计算相机与地面之间的变换关系。然而，由于车辆在道路上行驶时，由于轮胎气压变化、车辆载荷变化、道路表面多样性和部件振动，此类变换是非刚性的。相机与地面的标定应在行驶过程中进行多次，以调整几何投影的变化。例如，由周围视图鱼眼相机捕获的图像在图1(a)中，静态标定在图1(b)中会导致BEV图像不准确。在线标定可以减小变换误差，确保适当地处理投影变化，并生成图1(c)中对齐良好的BEV图像。

第二类现有方法应用在线标定，这需要从道路上提取出特定的几何形状，例如单目相机的消失点和周围视图相机提取的车道标线，或者多个相机之间重叠区域的光度一致性，以辅助标定调整。然而，在各种行驶环境中很难保持这些要求。在这种情况下，需要在使用单个摄像头连续图像的情况下进行相机与地面的标定，而不依赖于任何特定的标定目标。

主要内容

本文采用了一种从粗到精的方法，在车辆行驶在道路上时，通过因子图优化获取地面特征并优化相机到地面的标定参数，而无需使用任何特定的标定目标。利用图像中水平线分离地面和非地面区域，通过轮式测程法预测地面特征的位置，并使用基于几何的方法验证地面特征。对三角测量的地面特征进行平面拟合，以获取地面的法向量和相机到地面的高度，并通过因子图优化进一步改进这些参数，以确定相机到地面的变换关系。考虑到在驾驶过程中相机到地面的非刚性变换，还提出了度量标定性能的指标和停止准则，以确保标定质量。图2展示了我们的系统框图。主要包含以下模块：首先利用运动学自车模型恢复图像关键帧之间的相对运动，以便进行相机姿态估计和地面点三角测量；其次从关键帧中提取粗糙的地面特征，通过车辆运动进行特征预测，并进一步进行优化地面特征验证过程；然后进行地面平面拟合，获取地面法向量和相机到地面的高度；然后通过因子图优化来细化相机姿态和相机到地面的变换参数，并提出了一个停止标定准则，确定何时发布相机到地面的标定结果。

图2. 系统框架 A. 通过轮速里程计测量的相机运动利用CAN总线系统提供的连续车轮里程读数估计车辆随时间的姿态变化，并确定相机关键帧之间的相对运动，以恢复单目相机系统的尺度因子。具体公式推导查看原文。 B. 连续关键帧的地面提取地面特征（即车辆所行驶的道路表面上的特征）在相机与地面标定中起着重要作用。在城市/郊区环境中，大多数地面特征位于具有相似纹理的混凝土或沥青道路表面上，这些特征很难提取和匹配。提出了一种新颖的粗到细的地面特征提取架构，用于稳健的相机与地面标定，首先，我们引入地平线提取方法，通过车辆运动预测地面特征的位置，以便进行特征匹配。然后，我们利用几何方法来验证地面特征，并进行地面平面拟合，以获得地面法线向量和相机中心到地面的高度。在进行标定时，选择以稳定速度行驶时的关键帧，这样可以在不同的图像帧之间获得较小的相机姿态变化，有利于标定过程的稳定性，关键帧是指在时间序列中选择的一帧图像，通常表示为时间间隔的起点。从选择的关键帧开始，通过KLT稀疏光流算法提取图像中的角点特征，并进行跟踪。然后通过水平线分割图像，可以筛选位于水平线以下的特征点来选择地面特征，并利用车辆的运动信息进一步预测地面特征在下一个关键帧中的位置，这样，我们可以有效地提取和跟踪地面特征，为后续的相机到地面标定和场景理解提供重要的信息。

图3. 通过车辆运动进行特征预测，这里，Ok是关键帧Ik的相机中心。图4. 粗糙的地面特征提取，对于每个特征，通过车辆运动预测其在下一个关键帧中的位置（a）。因此，与没有任何预测的KLT跟踪器中的特征相比，在（b）中我们有更多的、质量更高的匹配特征对。进一步在（d）中从（b）中均匀采样/选择特征以进行计算优化。这里，红色线段的端点表示关键帧Ik和Ik+1之间的匹配特征，绿色线是地平线。 C. 跨关键帧地面优化采用基于滑动窗口的因子图优化方法来优化相机姿态、地面法向量和相机中心到地面的高度。通过使用单应性变换矩阵，可以将当前关键帧的特征点投影到上一关键帧的图像中。然后，我们通过最小化重投影误差来优化相机姿态和地面参数，以确保在上一关键帧中的特征点与当前关键帧中的投影点之间的一致性。具体来说，我们首先计算从当前关键帧到上一关键帧的相机姿态变换。然后，根据相机姿态变换将当前关键帧的特征点投影到上一关键帧的图像平面上。接下来，我们计算投影点与上一关键帧中的特征点之间的重投影误差，并将其作为优化问题的目标函数。通过最小化这个目标函数，我们可以同时调整相机姿态、地面法向量和相机中心到地面的高度，从而得到更准确的地面参数。通过这种跨关键帧的地面优化方法，可以更好地优化相机姿态和地面参数，提高相机到地面的标定精度，并为后续的路径规划和场景感知任务提供更准确的地面信息。

实验

在各种驾驶场景下使用乘用车实现了我们的算法并进行了大量实验，车辆安装了由四个向下朝向的鱼眼摄像机组成的全景摄像系统（参见图1（a）中的示例），这些摄像机与车轮编码器数据同步。摄像机的帧率为33 Hz，图像分辨率调整为812×540。我们收集了来自不同区域的长序列连续数据，以分析我们算法的效率和鲁棒性（参见表I）。这些数据涵盖了从平坦的铺装地面（FPG）到城市、郊区和农村等不同天气、光照和驾驶条件下的公共道路，FPG数据来自极其平坦的沥青路面，用于验证我们动态标定的基准性能。表I的最后一列表示车辆行驶而不是停车的时间百分比。图6 我们的方法在具有挑战性的驾驶场景中表现良好，图中的标签与表格I从上到下对应。

将我们的方法与现有的最先进方法进行比较，从而定性地检验性能，包括Liu等人[23]、OECS[24]和ROECS[25]在我们的数据集上的性能。首先比较了在FPG数据上的标定性能，并在表II中总结了结果。与我们的对手一样，我们的方法在车辆行驶在FPG上时能够生成连续稳定的相机到地面的标定。因此，我们显示了与地面真实（GT）标定的欧拉角差的平均值，并评估绝对变化量δr、δp和δy。这里，δr、δp和δy分别表示滚转角、俯仰角和偏航角的变化量。表II中的δh列是相机中心到地面的高度位移。在表II中，即使在图像上没有可辨别纹理的混凝土路面上，我们的在线方法也取得了更好的性能。例如，我们的方法在俯仰角、偏航角和高度估计方面分别获得了显著的绝对增益，分别为44.4%、50.0%和71.2%。

为了展示我们提出的方法的优越性，我们在图7中呈现了（11）和（12）的误差直方图。在图7中获得了不同区间的误差差异，作为我们相对于最先进工作的性能提升的总和。我们的方法在不同水平下具有相对较小的特征转移误差f，并且误差保持在0.83像素以内，这在不同数据序列中保持一致。我们的方法在郊区数据上获得了最低的性能增益44.2%，在城市数据上获得了最高的性能增益67.6%。在从城市到农村地区的公共道路驾驶数据中，与最先进方法相比，我们的方法在误差p方面表现更好。误差p在0.75像素以内变化，并且90.9%的误差在0.67像素以内。在考虑平坦道路条件的情况下，性能提高了12.7%，在郊区数据中获得了最高得分，而在FPG数据中获得了最低得分，为1.59%。

图7. 表I中数据序列的性能直方图。水平轴的值对应于（11）和（12）中的误差，垂直轴是概率密度。请放大查看详细信息。图8展示了在车辆以高速直行时不同方法生成的鸟瞰图像的视觉结果。我们的方法不依赖于不同摄像头之间的重叠区域或特定物体，获得了较小的特征残差误差，并生成了更好对齐的鸟瞰图像，原因如下：（1）直行车道标线与车辆行驶方向平行，（2）摄像头之间的车道标线互相重叠，（3）道路上的混凝土裂缝在相邻摄像头鸟瞰图像的重叠区域上连接在一起。

图8. 在行驶过程中城市I数据的示例结果。我们展示了(a)我们的结果，(b)ROECS [25]，(c)OECS [24]和(d)Liu等人的结果。

总结

我们提出了一种在线相机到地面无目标标定方法，用于在行驶过程中生成相机坐标与地面坐标之间的非刚体变换。采用了一种新颖的粗到精的架构来选择地面特征，并通过基于几何的方法进行验证。对三角化的地面特征进行平面拟合，以获得地面法向量和相机到地面的高度，然后通过滑动窗口的因子图优化对其进行优化。通过旋转平均确定相机到地面的变换，并提供停止标准来广播满足标定结果的情况。使用从不同天气和驾驶条件下收集的真实数据对我们的算法进行了广泛测试，结果显示我们的方法是有效的，并且优于最先进的技术。在未来，我们将减少因子图优化的运行时间复杂度，并进行可观测性分析，以识别帮助丢弃不需要用于标定计算的姿态和地面特征的退化场景。 —END—