自动驾驶的轨迹预测必须不断推理路上智能体的随机运动并遵守场景约束。现有方法通常依赖于一阶段轨迹预测模型,该模型根据观察到的轨迹结合融合的场景信息来确定未来轨迹。然而,他们经常与复杂的场景约束作斗争,例如在十字路口遇到的约束。为此,论文提出了一种称为LAformer的新方法。它使用时间上稠密的车道感知估计模块仅选择HD地图中最有潜力的车道段,从而有效且连续地将运动动态与场景信息对齐,通过过滤掉不相关的车道段减少后续基于注意力的解码器的表示要求。此外,与一阶段预测模型不同,LAformer 利用第一阶段的预测作为锚点轨迹,并添加第二阶段运动细化模块,以进一步探索整个时间范围内的时间一致性。在Argoverse1和nuScenes上进行的大量实验表明,LAformer在多模态轨迹预测方面取得了出色的性能。
介绍
准确的轨迹预测对于在涉及与各种道路智能体交互的各种交通场景中实现自动驾驶至关重要。由于智能体的随机行为及其相互影响,加上环境场景上下文的变化,轨迹预测仍然是一项极具挑战性的任务。因此,这项任务需要有效地学习智能体的运动动力和与其他智能体的交互,以及仔细考虑场景约束。
已经开发了许多数据驱动的方法来解决轨迹预测问题,从顺序轨迹中提取运动信息和光栅化地图数据中提取场景上下文信息,然后将它们在潜在空间中进行融合作为多模态解码器的输入,如Trajectron++ [39]、CoverNet [34] 和AgentFormer [47]等工作所述。然而,这些方法未能在后续解码模块的早期阶段利用空间和时间信息。此外,栅格化地图需要大量的感受野过滤器和计算成本来感知场景上下文,在复杂的交叉路口,这可能无法提供准确的道路结构特征,特别是对于车辆轨迹预测。因此,解码器可能会生成不符合场景的轨迹预测。为了缓解这个问题,VectorNet [10] 建议将轨迹和高清 (HD) 地图数据统一为一致的矢量化形式。这种矢量化使基于高清地图的轨迹和车道段能够用相同的编码器轻松处理和融合。
已经有很多探索车道段的尝试,包括深度特征融合,例如 [20, 48] 和启发式搜索,例如 [9]. 论文进一步将主流方法分类为空间和时间密集的方法。当前的大多数方法都属于前一种方法,它估计稠密概率目标候选 [50、15]、端点 [43、11、12] 的分段建议点或投影到给定场景的整个序列编码 [9]。论文认为这些方法不是最优的,因为如果在初始步骤中预测准确,则可能会出现复合预测错误。相比之下,时间稠密的方法试图估计运动状态在每个时间步与车道位置对齐的可能性。因此,如果运动状态和车道段随着时间的推移而偏离,解码器就有更好的机会调整其预测。然而,这并非微不足道,因为估计模块需要考虑车道段的可变性和运动状态的不确定性。此外,当自车辆处于具有多个平行车道的交叉路口时,或者当自车辆进行车道变换或转弯时,仅基于距离度量 [12] 的对齐是不够的。然而,在探索时间稠密方法上并没有太多研究,也没有太多关注有选择地将地图信息提供给解码器以促进解码过程。
为此,论文提出了一种时间密集的方法,称为LAformer。LAformer的本质如图1所示。它利用车道感知估计模块在每个时间步仅选择前k个高潜力车道段,从而有效且连续地将运动动态与场景信息对齐。具体来说,论文采用基于注意力的编码器,称为全局交互图 (GIG),从统一的矢量化轨迹和高清地图中提取时空特征。不同于 [43、11、12、9] 等空间稠密方法,论文使用从 GIG 模块提取的车道信息和目标智能体的运动(包括速度和方向信息)训练二元分类器,以在整个预测时间范围内进行逐步车道选择。然后,论文引入拉普拉斯混合密度网络 (MDN) 来生成仅与选定的车道段对齐的符合场景的多模态轨迹预测。通过这种方式,过滤掉不相关的车道段以减少解码过程的表示要求。
此外,为了进一步利用整个时间范围内的时间一致性,论文引入了一个运动细化模块。LAformer 利用第一阶段的预测作为锚点轨迹,这与使用预定义锚点的基于锚点的轨迹预测方法不同 [3, 41]。然后第二阶段运动细化模块将观察到的和预测的轨迹作为输入以进一步减少预测偏移,这与第一阶段不同。尽管这种改进模块的策略在计算机视觉任务中并不是特别新鲜,但据论文所知,本文是第一个有效地将其应用于改进轨迹预测的。
本文的主要贡献总结如下:
本文提出了一种新的时间密集车道感知选择方法,以在每个预测时间步识别前k个高可能性车道段,这与以前的空间稠密方法不同。这种选择方法有助于车道条件下解码器进行轨迹预测。
论文利用第一阶段的预测轨迹作为锚点轨迹,并引入第二阶段的运动细化模块,该模块同时考虑观察到的和预测的轨迹。细化模块进一步探索过去和未来时间范围内的时间一致性。
论文证明了LAformer 在两个基准数据集上的有效性,即Argoverse1 [4]和nuScenes [2] 它在两个基准测试中都取得了出色的性能,并在多模态运动预测任务中表现出卓越的泛化性能。
相关工作
智能体之间交互建模
智能体相互连接以实现社交联系和避免碰撞 [33, 17]。大多数深度学习模型,例如 [1, 24, 16, 38, 39, 47],使用智能体的隐藏状态来聚合交互操作信息。最流行的聚合策略包括池化 [1、7、10]、使用图卷积网络 (GCN) [44] 的消息传递 [49、46、48],以及注意力机制 [47、26、5]。为了根据周围智能体的相对位置和属性区分周围智能体的影响,论文建议在这项工作中使用注意机制进行交互建模。
预测多模态轨迹
在自动驾驶轨迹预测的背景下,预测不同的多模态轨迹比单一模态轨迹更有利于应对智能体的不确定行为和场景约束。生成模型,例如生成对抗网络 (GAN) [14]、变分自动编码器 (VAE) [23] 和条件 VAE [22] 以及流 [35],使用基于采样的方法生成多个预测 [16, 24, 36, 6]。然而,它们并没有提供对每种模态可能性的直接估计。虽然高斯混合密度网络 (MDN) 可以提供概率密度函数来学习模态分布,但与生成模型类似,当只有一个真值轨迹用于监督学习时,它们经常遇到所谓的模态崩溃问题 [37]。为了缓解模态崩溃问题,本文探索了拉普拉斯 MDN 与赢者通吃策略的使用 [28、52、9]。此外,为了增加模态多样性,一些方法会生成过多的预测并采用集成技术(例如聚类或非最大抑制)将预测减少为有限数量的模态 [41、43]。然而,这种集成过程对于实时自动驾驶汽车来说是耗时且不切实际的 [52]。因此,本文不采用这种技术。
提取场景上下文信息
为了预测符合场景的轨迹,必须考虑场景上下文。卷积神经网络 (CNN) 通常用于从鸟瞰图像中提取场景上下文,例如具有一般上下文的RGB图像 [24、38] 和具有不同场景类别的语义图 [34、39、47]。然而,CNN 难以捕获细粒度的场景信息,例如车道几何形状和交通规则。此外,栅格化数据的稀疏信息导致计算效率较低,需要强大的融合模块来为预测模块对齐异构运动和场景信息。为了应对这些挑战,可以使用统一的矢量化方案 [10] 来对齐高清地图中的轨迹和车道。由点、折线和多边形表示的轨迹和场景上下文都被编码在一个具有坐标信息和各种智能体或车道属性的统一向量中 [25、15、52、5、31、9、43]。论文的场景感知轨迹预测方法采用了这种数据表示。
已经提出了几种方法利用基于车道的场景信息来指导预测过程。基于建议的模型[7, 40]对智能体的操作进行分类,然后相应地预测后续轨迹。基于目标的模型预测位于合理车道中的可行目标[36、50、15、11、12],然后生成完整的轨迹。其他方法使用一组对应于轨迹分布模态的固定的锚来回归预测的多模态轨迹 [3, 41]。或者,[51] 提出了一种方法,将智能体当前位置的历史轨迹集合视为先验信息,以缩小潜在未来轨迹的搜索空间。论文将这些方法归类为基于空间稠密车道的方法,因为它们专注于生成候选目标或空间上完整轨迹的概率分布。然而,这些方法没有充分探索时间信息来解释运动的不确定性和场景随时间的变化。此外,预测模块必须隐式地过滤掉不相关的场景信息,这在复杂的场景约束(例如十字路口处的场景)中可能具有挑战性。
与这些方法相比,论文提出了一个时间稠密的车道感知模块来学习智能体的运动模型和潜在车道段之间的对齐。论文不是简单地结合运动编码和车道编码并允许解码器隐式学习它们的关系[32],而是显式估计智能体在每个时间步将采用的车道的可能性。然后,论文只选择最有可能的车道信息来平衡车道段的可变性和运动模型的不确定性。
3 方法
3.1 问题描述
遵循主流工作,例如 [10, 15, 43, 52, 9],论文假设路上智能体检测和跟踪,以及感知环境,在 2D 坐标系中提供高质量的轨迹和高清地图数据。即对于智能体,获得给定时间范围内的 x 和 y 位置,以及环境高精地图 C。下游任务是通过使用 HD 地图和给定场景中所有智能体的观测轨迹(包括目标智能体的轨迹)预测后续轨迹。
两个智能体的过去轨迹和车道中心线都表示为向量。更具体地说,对于智能体i,它的历史轨迹表示为过去时间步长的稀疏轨迹向量的有序序列。每个轨迹向量定义为,其中分别表示起点和终点,对应智能体i的属性特征,例如时间戳和对象类型(即自动驾驶车辆、目标智能体等)。此外,车道中心线被进一步分割成预定义的段以捕获细粒度的车道信息,以便精确地建模智能体的意图。与轨迹向量类似,一条车道中心线段表示为,其中 N 表示总向量长度。每个车道向量添加以表示起点的前置。车道矢量端到端连接以获得高清地图的结构特征。
此外,为了确保输入特征相对于智能体位置的不变性,所有向量的坐标都被归一化为以目标智能体最后观察到的位置为中心。
图 2 展示了LAformer的总体框架,它将矢量化轨迹和高精地图车道段作为目标智能体的输入以输出多模态轨迹。下面详细解释LAformer的每个模块。
3.2 智能体运动和场景编码
论文设计了一个基于注意力的全局交互图 (GIG) 来编码智能体运动和场景信息。具体而言,论文使用多层感知器 (MLP) 和门控循环单元 (GRU) 层以顺序方式处理轨迹向量和车道向量。在给定的场景中,这些层的输出编码表示为和。为了融合这些编码,论文设计了一个对进行操作的对称交叉力注意机制,如下所示:
之后,GIG 进一步进行自注意力和跳过连接来学习智能体之间的交互。
3.3 时间稠密的车道感知估计
论文提出了一个时间上稠密的车道感知概率估计模块,该模块使用注意力将目标智能体引导到对其未来轨迹最有影响力的车道段。具体来说,论文在每个未来时间步t对齐目标智能体的运动和车道信息。为了实现这一点,论文使用车道评分头和注意力机制来预测车道概率。K,V向量是智能体运动编码的线性变换,Q向量是车道编码的线性变换。然后将这些向量输入到缩放的点积注意力块,输出第j个车道在t的预测得分如下:
为了平衡车道段的可变性和运动的不确定性,论文选择前k个最高得分的车道段作为候选车道段。然后论文在未来的时间步长上连接候选车道段和相关分数以获得C。接下来,使用交叉注意力以将目标智能体的过去轨迹编码投影为查询向量,将候选车道编码 C 投影为键和值向量。输出是与车道信息对齐的更新运动信息,表示为。这种交叉注意力进一步探索了空间和时间维度上的场景信息。车道评分模型使用二值交叉熵损失来优化概率估计。对于最接近轨迹真实位置的车道段,真值设置为1,对于所有其他车道,设置为 0。值得一提的是,真值车道段不需要额外标记,可以使用距离度量(例如欧氏距离)轻松识别。
3.4 多模态条件解码器
本节介绍一种拉普拉斯混合密度网络 (MDN) 解码器,该解码器以目标智能体的过去轨迹和与候选车道信息 对齐的更新运动信息的编码为条件。为了进一步保持多模态的多样性,论文从多元正态分布中采样一个潜在向量z,它作为添加到预测编码中的附加条件。解码器预测一组轨迹。论文使用一个MLP来预测 ,一个 GRU 来恢复预测的时间维度,以及两个并排的MLP来预测µ和b。
论文通过最小化回归损失和分类损失来训练拉普拉斯 MDN 解码器。回归损失是使用 Winner-Takes-All 策略 [28, 52, 9] 计算的,定义为:
交叉熵损失用于优化模态分类,定义为:
论文采用软位移误差[52],作为论文的目标概率。第一阶段运动预测的总损失由下式给出:
3.5 运动优化
引入第二阶段运动细化以进一步探索预测更准确的未来轨迹的时间一致性。目标是减少真值轨迹和预测轨迹之间的偏移。在这个阶段,论文使用完整的轨迹 为输入,使用与第一阶段类似的时间编码器来提取运动编码 。然后由双层MLP构建的回归头将两个阶段的所有运动编码作为输入,并预测真值和预测轨迹之间的偏移量。论文使用损失优化偏移量。
在这里,论文采用赢者通吃的策略来优化偏移和角度损失,类似于第一阶段。第二阶段的总损失可以表示为:
4 实验
4.1 实验设置
数据集:所提出的方法是在两个具有挑战性且广泛使用的自动驾驶基准上开发和评估的:nuScenes [2] 和 Argoverse1[4]。这些基准提供了各种类型道路智能体的轨迹以及给定场景的高清地图。在nuScenes中,目标智能体随后的六秒轨迹是根据其和相邻智能体最多两秒的轨迹预测的,轨迹采样率为 2Hz。在Argoverse1中,目标智能体的后续三秒轨迹是根据其和邻近智能体在最初两秒内的轨迹预测的,轨迹采样率为10 Hz。为确保公平比较,两个基准测试的官方数据分区和在线测试服务器分别用于训练和测试设置。
评估准则:论文采用标准评估指标来衡量预测性能,包括和,分别表示预测K模态最后一步的误差和每一步的平均值。此处报告了K模态的最小误差。ADE和FDE均以米为单位。此外,未命中率衡量最后一步误差大于2.0 m的场景的百分比。对于多模态轨迹预测,K在nuScenes中设置为5和10,在Argoverse1中设置为6。对于所有评估指标,越低越好。
实现细节:LAformer中所有特征向量的隐藏维度设置为128。只有目标智能体50 m(曼哈顿距离)内的车道段被采样为场景上下文。公式中的 λ1 (9)设置为10。等式中的λ2、λ3(12)分别设置为5和 2。论文使用两阶段训练方案。在第一阶段,除了运动细化模块之外的所有模块都使用Adam优化器 [21] 进行训练。在第二阶段,所有模块一起训练。LAFormer 在 8xRTX3090 卡上接受了每个阶段约8小时的训练。
4.2 定量结果与比较
表1和表2分别显示了在Argoverse 1验证和在线测试集以及nuScenes在线测试集上获得的结果。根据官方发布的论文,排行榜结果(在线测试)更新至2023-02-20。
在Argoverse 1基准测试中,LAformer在ADE和FDE上以明显优势在验证集上实现了最先进的性能。它还在测试集上取得了优异的成绩,与亚军方法 HiVT 不相上下。
在nuScenes基准测试中,LAformer取得了具有竞争力的性能,在ADE方面仅略逊于新发布的 FRM [32]。FRM 引入关系推理来帮助理解未来自我与其他智能体之间的交互,而LAformer则依赖注意力机制来学习智能体之间的交互,并更侧重于场景约束。这种方法上的差异可能会导致性能差异。然而,LAformer 以明显的优势优于其他基于车道的模型,例如 LaneGCN [25、51] 和 PGP [9],表明论文的车道感知估计比其他基于距离或启发式车道搜索更有效。
此外,与在两个基准测试中测试的模型(用‡标记)相比,即THOMAS [11]、GO HOME [12]、LaneGCN [25]由本地行为数据 LBA[51]增强,以及FRM, LAformer 在基准测试中明显表现出更普遍的表现。这表明,即使Argoverse 1和nuScenes中提供的轨迹包括不同城市的位置和驾驶方向,所提出的时间稠密车道感知估计模块有效地将场景约束与运动模型对齐。支持该模块功能的进一步证据可以在表中列出的以下消融研究中找到。
4.3 消融实验
考虑到数据规模和真值的可用性,论文对具有39,472个序列的Argoverse 1验证集进行了消融研究。基线模型预测未来轨迹仅以目标及其邻近智能体的观测轨迹为条件,第二个细化模块(S2)和车道感知估计模块被移除。LAformer (Spa.)仅估计目标位置与车道信息对齐的可能性,类似于空间密集模型。相比之下,LAformer (Tem.)估计每个时间步的位置与时间稠密车道信息对齐的可能性。LAformer(完整)是完整的建议模型。
从表3可以看出,Baseline的性能远不如其他模型。Baseline对比 Baseline+S2和LAformer (Tem.) 对比LAformer (Full)证明了S2的性能增益,例如,3%的FDE。LAformer (Spa.)与 LAformer (Tem.)的比较表明,论文的时间稠密方法比空间稠密方法更有效,将ADE降低约 4%,将FDE降低约 8%。此外,论文进行了一项消融研究,以分析第二阶段中角度和偏移损失的有效性。如表4所示,通过使用两种损失有助于将预测精度(使用ADE和FDE度量)提高约2%。
论文还消融了添加到多模态条件解码器输入的潜在变量z。它是从维度设置为2的多元正态分布中采样的。但是,如表5所示,论文发现插入z只会带来细微性能提升(小于0.5厘米)。
4.4 超参数的敏感性分析
top-k 车道段的数量和损失的权重是 LAformer 的关键超参数。为了验证它们的影响,论文通过在表6和表7中下划线指示的实验设置范围内改变它们的值来进行实验。
如表6左侧所示,车道段的数量从1增加到4,性能开始随着k的增加有所提升,直到k=3,但在那之后,它开始下降。在第二阶段,k=2提供了比3更好的结果。使用较大的k增加了包含不相关的车道段的概率,而相对较小的k使解码器能够专注于最相关的车道段。
论文还改变了等式(9)中的损失权重 λ1和等式(12)中的λ2,λ3,如表7所示,论文仅观察到细微性能差异,例如在1厘米内波动。
4.5 计算性能
如表 8 所示,LAformer 具有2,645K参数,类似于HiVT-128,但大于LTP和DenseTNT。对于平均有 12个智能体的场景,它的推理时间约为115 ms,与HiVT相比,这不是主要优势。但这种推理速度与 LTP 相当,比DenseTNT和 GP更快,使LAformer在10 Hz时接近实时。
4.6 定性结果
图3显示了LAFormer与Argoverse 1验证集上的亚军模型相比的定性结果。为了确保公平比较,论文使用公开训练的 HiVT [52] 模型来复制他们论文中报告的结果。由于 DenseTNT [15] 不提供经过训练的模型,论文从头开始通过优化(DenseTNT w/100ms opt.)重新训练离线模型,以实现与他们论文中报告的性能相似的性能。所有模型在十字路口的各种交通场景中为目标主体生成合理的多模态预测,例如右转 1 和左转2、4,或加速直行3。但是,LAformer 在右转场景1和加速场景 中生成更准确的预测,而其他模型倾向于预测减速或转弯模式。此外,当时间稠密的车道感知模块被停用时(w/o D vs. w/o S2),LAformer 在横向方向上生成的预测较少。然而,最右列显示的具有第二阶段细化模块的完整模型保持了良好的预测多样性和准确性。
图4显示了LAformer在nuScenes上的更多定性结果 它不仅可以在直行行驶中生成准确的预测,而且可以在复杂的交叉路口生成准确的预测,例如继续向前行驶、左转或右转。与车道段对齐的多模态预测意味着智能体在交叉路口的运动不确定。
5 结论
该论文介绍了LAformer,这是一种基于端到端注意力的轨迹预测模型,它将观察到的轨迹和高清地图作为输入并输出一组多模态预测轨迹。基于Transformer 的时间稠密车道感知模块和第二阶段运动细化模块用于提高预测准确性。LAformer在Argoverse 1和nuScenes运动预测基准测试中都优于其他模型,展示了卓越的泛化性能。此外,广泛的消融和敏感性研究验证了车道感知和运动优化模块的性能。
相关文章