端到端自动驾驶是自动驾驶技术的重要发展方向之一。而要实现端到端自动驾驶,离不开高精度3D信息输入,因此如何实现高精度的3D感知尤为关键。
从3D感知的实现技术路径来看,主要包括稠密算法和稀疏算法两个范畴。
在稠密算法范畴,主要通过点云转换、多视图立体视觉等方法,来获取场景中每一个点的深度信息,从而更准确地描述场景中的物体。其中最具代表性的就是近两年非常火热的BEV感知,其多传感器数据从图像空间到BEV空间的转换过程,就是典型的稠密特征到稠密特征的重新排列组合过程。目前,BEV已在业界得到广泛关注以及应用部署。
稠密算法也面临着一些挑战,比如巨大的数据量,需要高效的数据处理和存储方法来提高计算效率,减少内存占用。此外,考虑到多传感器数据结构的复杂性,需要高效的计算方法和计算平台来提升处理速度,并满足实时性要求。而在大多数实际应用场景中,自动驾驶系统需要计算的目标在空间中通常呈稀疏状态分布,这也就意味着在稠密算法范畴中,大量的计算是被浪费了的。
稀疏感知算法通过减少Query数量以及降低特征交互量来加快计算速度并降低存储需求,大大提高感知模型的计算效率和系统性能。基于稀疏算法的感知方案在2D到3D的转换效率和长距离感知方面具有一定优势,也是目前业界正在积极探索的方向。
近期,地平线发表了关于稀疏感知方案的系列工作:Sparse4D v1 & v2,从Query构建方式、特征采样方式、特征融合方式、时序融合方式等多个方面提升模型感知效果。Sparse4D在nuScenes检测任务上达到了SOTA的效果,超过了VideoBEV、SOLOFusion和StreamPETR等算法的指标。
为了让大家进一步了解Sparse4D,10月18日19点,地平线联合智猩猩策划推出新一期地平线「你好,开发者」自动驾驶技术专场,主题为《面向端到端自动驾驶的稀疏感知通用架构探索》,由地平线感知算法工程师林天威主讲。
林天威首先会介绍3D感知的研究背景和发展现状,并对稀疏通用感知架构进行解析。之后,林天威将重点介绍和讲解长时序稀疏化3D目标检测算法Sparse4D v1 & v2相关工作。最后他会分享稀疏感知新范式的未来探索方向。