主要内容: 论文研究了机器人和自动驾驶车辆应用中的基于神经网络的相机重定位问题,其解决方案是一种基于CNN的算法直接从单个图像预测相机姿态(3D平移和3D旋转),同时网络提供姿势的不确定性估计,姿态和不确定性与单个损失函数一起训练,并在实际测试时与EKF融合,为此提出了一种新的全卷积架构,名为CoordiNet,其中嵌入了一些场景几何结构。
Contributions:
提出了一种联合训练姿态估计和不确定性的方法,其具有可靠的不确定性估计和改进的训练稳定性。
提出一种新的全卷积架构,它集成了几何线索,并在所有公共基准上以较大的优势优于单目最先进的方法。
在几个大规模数据集上对几种深度姿态回归器进行了广泛的评估,表明论文提出的CoordiNet可以实时(在RTX2080嵌入式GPU上实现ROS的18Hz)用于车辆定位。
论文表明在简单的EKF中结合可靠的不确定性的姿态预测显示出了平滑的轨迹并去除了异常值。
网络架构:
用Coord卷积代替标准2D卷积,Coord卷积是Rosanne Liu等人在NIPS 2018年的论文An intriguing failing of convolutional neural networks and the coordconv solution中提出,Coord卷积在应用卷积之前将包含硬编码像素坐标的2个附加通道连接到输入张量,如下图所示:
使用置信加权平均池(CWAP)而不是全局平均池(GAP),这是受到CWAP在其他应用中成功的启发,为了将特征图转换为单个标量,GAP只需计算特征图的平均值,CWAP使用附加信道作为置信图来计算加权平均值,为每个空间位置提供权重,这些权重是根据先前的层激活来预测的,因此可以将此计算与低成本的自注意力机制进行比较。
置信图的激活掩码示例如下图所示。观察到在剑桥地标的小场景中,无论摄像机的姿势如何,池化总是突出显示同一个物体;在较大的场景中,即所有场景中都没有可见的公共对象,在这种情况下池化会屏蔽出现动态对象的区域。
模型的整个架构如图2所示,使用两个解码器头从图像编码器获得的潜在表示中预测姿态和不确定性,架构是全卷积的,即解码器的参数数量不取决于输入图像的大小,与使用完全连接层来回归最终姿态的标准姿态回归器相比,论文的解码器包含的参数少了一个数量级。
姿态和异方差不确定性的联合学习:
结合不确定性估计的定位: 将回归姿态与学习到的不确定性融合在一起,以过滤出误差较大部分并获得平滑且时间一致的轨迹。使用EKF,通过仅向滤波器提供由网络给出的绝对姿态测量来完成积分,将简化的对角协方差矩阵∑附加到每个测量值,定义如下:
不确定性校准:在评估其方法时观察到学习的不确定性往往低估了实际误差,这是由过拟合造成的,在训练过程结束时,模型在训练图像上表现得非常好,不确定性层学习到了不代表实际误差的误差分布,为了减轻这种影响提出了一个两步训练程序:将可用的训练数据分成训练集和验证/校准集。首先使用训练集训练CoordiNet,然后在冻结所有其他层的同时微调校准集上的不确定性层,这使得能够校准代表测试条件的示例的不确定性。
实验: 在多个场景评估CoordiNet。 首先比较了公共数据集上的相关方法;还研究CoordiNet的性能如何随着数据集的大小而变化,这些数据集比公共数据集大几个数量级;还证明了一旦CoordiNet与EKF融合,它就可以被认为是在实际任务中可靠定位的一个很好的选择。 在Oxford Robotcar数据集上实验结果:
Cambrige Landmarks数据集上实验结果:
接下来探讨CoordiNet在训练集的数据量与公共基准相比高出一个数量级的情况下,其表现如何,使用dashcam相机在巴黎和上海地区收集了数据
CoordiNet在大面积上优于先前的SOTA姿态回归器一个数量级,并观察到使用更大的训练集后在测试数据上达到亚米精度。将Oxford训练集从2个序列扩大到15个序列,可以在同一测试序列上将平均误差从9.56m降低到1.94m,中值误差从3.55m降低到1.25m。得出结论,通过收集大型图像数据集并使用CoordiNet作为姿态回归器,能够为选定的实际应用实现足够可靠的定位精度。 接下来研究了将姿态和不确定性被融合到EKF中的实验:
加上EKF后最终轨迹变得更平滑,运行中的最大误差也减少了。 通过剔除异常值,与原始姿态相比,EKF减少了大部分时间的平均误差。结果还表明为了获得准确度和平滑度之间的最佳权衡,估计好的协方差值至关重要:与固定协方差值和基线版本相比,具有校准协方差的Coordinet+EKF在本实验中表现最好。
消融研究:
总结: 提出了CoordiNet,一种新的深度神经网络方法,结合不确定性估计将直接相机姿态回归模型的精度进一步提高。此外由于不确定性量化和大型训练集,证明了其方法可以集成在实时车辆定位系统中以便在大型城市环境中进行准确的姿态估计。