将不确定性感知和姿态回归结合用于自动驾驶车辆定位

发布时间:2023-01-31  

主要内容: 论文研究了机器人和自动驾驶车辆应用中的基于神经网络的相机重定位问题,其解决方案是一种基于CNN的算法直接从单个图像预测相机姿态(3D平移和3D旋转),同时网络提供姿势的不确定性估计,姿态和不确定性与单个损失函数一起训练,并在实际测试时与EKF融合,为此提出了一种新的全卷积架构,名为CoordiNet,其中嵌入了一些场景几何结构。

ba5f6794-8d36-11ed-bfe3-dac502259ad0.png

Contributions:

提出了一种联合训练姿态估计和不确定性的方法,其具有可靠的不确定性估计和改进的训练稳定性。


提出一种新的全卷积架构,它集成了几何线索,并在所有公共基准上以较大的优势优于单目最先进的方法。

在几个大规模数据集上对几种深度姿态回归器进行了广泛的评估,表明论文提出的CoordiNet可以实时(在RTX2080嵌入式GPU上实现ROS的18Hz)用于车辆定位。

论文表明在简单的EKF中结合可靠的不确定性的姿态预测显示出了平滑的轨迹并去除了异常值。

网络架构:

ba881f90-8d36-11ed-bfe3-dac502259ad0.png

用Coord卷积代替标准2D卷积,Coord卷积是Rosanne Liu等人在NIPS 2018年的论文An intriguing failing of convolutional neural networks and the coordconv solution中提出,Coord卷积在应用卷积之前将包含硬编码像素坐标的2个附加通道连接到输入张量,如下图所示:

bab7e0e0-8d36-11ed-bfe3-dac502259ad0.png

使用置信加权平均池(CWAP)而不是全局平均池(GAP),这是受到CWAP在其他应用中成功的启发,为了将特征图转换为单个标量,GAP只需计算特征图的平均值,CWAP使用附加信道作为置信图来计算加权平均值,为每个空间位置提供权重,这些权重是根据先前的层激活来预测的,因此可以将此计算与低成本的自注意力机制进行比较。

置信图的激活掩码示例如下图所示。观察到在剑桥地标的小场景中,无论摄像机的姿势如何,池化总是突出显示同一个物体;在较大的场景中,即所有场景中都没有可见的公共对象,在这种情况下池化会屏蔽出现动态对象的区域。

badd8a3e-8d36-11ed-bfe3-dac502259ad0.png

模型的整个架构如图2所示,使用两个解码器头从图像编码器获得的潜在表示中预测姿态和不确定性,架构是全卷积的,即解码器的参数数量不取决于输入图像的大小,与使用完全连接层来回归最终姿态的标准姿态回归器相比,论文的解码器包含的参数少了一个数量级。

姿态和异方差不确定性的联合学习:

bb02b0b6-8d36-11ed-bfe3-dac502259ad0.png

bb1c868a-8d36-11ed-bfe3-dac502259ad0.png

bb383060-8d36-11ed-bfe3-dac502259ad0.png

结合不确定性估计的定位: 将回归姿态与学习到的不确定性融合在一起,以过滤出误差较大部分并获得平滑且时间一致的轨迹。使用EKF,通过仅向滤波器提供由网络给出的绝对姿态测量来完成积分,将简化的对角协方差矩阵∑附加到每个测量值,定义如下:

bb4cf16c-8d36-11ed-bfe3-dac502259ad0.png

不确定性校准:在评估其方法时观察到学习的不确定性往往低估了实际误差,这是由过拟合造成的,在训练过程结束时,模型在训练图像上表现得非常好,不确定性层学习到了不代表实际误差的误差分布,为了减轻这种影响提出了一个两步训练程序:将可用的训练数据分成训练集和验证/校准集。首先使用训练集训练CoordiNet,然后在冻结所有其他层的同时微调校准集上的不确定性层,这使得能够校准代表测试条件的示例的不确定性。

实验: 在多个场景评估CoordiNet。 首先比较了公共数据集上的相关方法;还研究CoordiNet的性能如何随着数据集的大小而变化,这些数据集比公共数据集大几个数量级;还证明了一旦CoordiNet与EKF融合,它就可以被认为是在实际任务中可靠定位的一个很好的选择。 在Oxford Robotcar数据集上实验结果:

bb5fd962-8d36-11ed-bfe3-dac502259ad0.pngbb8631de-8d36-11ed-bfe3-dac502259ad0.png

Cambrige Landmarks数据集上实验结果:

bb9883fc-8d36-11ed-bfe3-dac502259ad0.png

接下来探讨CoordiNet在训练集的数据量与公共基准相比高出一个数量级的情况下,其表现如何,使用dashcam相机在巴黎和上海地区收集了数据

bbc52b32-8d36-11ed-bfe3-dac502259ad0.png

bbf8f4a8-8d36-11ed-bfe3-dac502259ad0.png

CoordiNet在大面积上优于先前的SOTA姿态回归器一个数量级,并观察到使用更大的训练集后在测试数据上达到亚米精度。将Oxford训练集从2个序列扩大到15个序列,可以在同一测试序列上将平均误差从9.56m降低到1.94m,中值误差从3.55m降低到1.25m。得出结论,通过收集大型图像数据集并使用CoordiNet作为姿态回归器,能够为选定的实际应用实现足够可靠的定位精度。 接下来研究了将姿态和不确定性被融合到EKF中的实验:

bc1d9740-8d36-11ed-bfe3-dac502259ad0.png

bc4bf734-8d36-11ed-bfe3-dac502259ad0.png

加上EKF后最终轨迹变得更平滑,运行中的最大误差也减少了。 通过剔除异常值,与原始姿态相比,EKF减少了大部分时间的平均误差。结果还表明为了获得准确度和平滑度之间的最佳权衡,估计好的协方差值至关重要:与固定协方差值和基线版本相比,具有校准协方差的Coordinet+EKF在本实验中表现最好。

消融研究:

bc793654-8d36-11ed-bfe3-dac502259ad0.png

总结: 提出了CoordiNet,一种新的深度神经网络方法,结合不确定性估计将直接相机姿态回归模型的精度进一步提高。此外由于不确定性量化和大型训练集,证明了其方法可以集成在实时车辆定位系统中以便在大型城市环境中进行准确的姿态估计。

文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>