自动驾驶算法谁家强?零跑上汽并列第一

发布时间:2023-10-25  

目前,学术圈还是用“打榜”来对自动驾驶算法评分。所谓“打榜”就是在某一数据集上利用其训练数据集来测试算法的优劣,目前自动驾驶圈内最常用的打榜数据集是安波福Aptiv旗下的nuScenes。严格意义上的自动驾驶算法评分对比几乎是不可能的,单独对比算法不够公允,此外还必须考虑算法的效率和落地可行性。训练数据集的数据结构也会影响算法的发挥。同时由于深度学习的不可解释性,在nuScenes数据集上表现好不代表在其他数据集也会表现好,也许会表现得很差,同样道理在nuScenes数据集上表现不好不代表在其他数据集也表现不好。当然算力大小无关算法的准确度。


nuScenes数据集的任务包括六大类,分别是3D目标检测detection、目标追踪tracking、目标轨迹预测prediction、激光雷达目标分割lidar segmentation、全景panoptic、决策planning。其中,3D目标检测是自动驾驶最基础的任务,全球有近300个团队或企业参加了比试,也是全球自动驾驶数据集参赛者最多的,足见其权威性。决策任务的榜单还没有公布,因为打榜的人太少了。目标追踪、目标轨迹预测参与热度相对还比较高,而激光雷达目标分割和全景参与热度就很低了,不到20家参与。


近期打榜的基本都是中国企业或高校,除了中国,其他地区对自动驾驶缺乏兴趣,即便在美国,研究自动驾驶的基本都是华人。很少有车企会参与打榜,早期还有奔驰、博世等企业参加,奔驰的成绩惨不忍睹,博世还不错。车企不参加打榜的原因很简单,成绩好消费者也不知情,成绩差的话就会被竞争对手拿来攻击,干脆不参与,要参与就是对自己的能力非常自信,就比如零跑和上汽。


前15名如下:

资料来源:公开信息整理


nuScenes数据集的灵感来自开创性的KITTI数据集(丰田与德国KIT于2012年完成)。nuScenes是首个提供自动驾驶汽车整个传感器套件(6个摄像头、1个LiDAR、5个Radar、GPS、IMU)数据的大规模数据集。与KITTI相比,nuScenes包含了7倍多的对象注释。完整的数据集包括大约1.4M相机图像(camera images),390k激光雷达扫描(LiDAR sweeps),1.4M雷达扫描(Radar sweeps)和1.4M物体边界框(object
bounding boxes)在40k关键帧。为方便常见的计算机视觉任务,如对象检测和跟踪,在整个数据集上以2Hz的速度用精确的3D包围框注释了23个对象类;还注释了对象级属性,如可见性、活动和姿势。


如果只用相机也就是纯视觉,地平线的Sparse4D包揽第一名和第二名。旷视的FAR3D是第三名,商汤和香港大学、哈尔滨工业大学等联合的HOP第四名,丰田排名第五。纯视觉的效果比视觉和激光雷达融合的效果落后不少,但纯激光雷达的效果与视觉和激光雷达融合后的效果相差甚微。


3D目标检测的得分共六项(见下表)。


mAP平均精确度,mean of Average Precision的缩写。


mATE,Average Translation Error,平均平移误差(ATE) 是二维欧几里德中心距离(单位为米)。


mASE,Average Scale Error, 平均尺度误差(ASE) 是1 - IoU, 其中IoU 是角度对齐后的三维交并比。


mAOE, Average Orientation Error平均角度误差(AOE) 是预测值和真实值之间最小的偏航角差。(所有的类别角度偏差都在360∘度内, 除了障碍物这个类别的角度偏差在180∘ 内)。


mAVE,Average Velocity Error平均速度误差(AVE) 是二维速度差的L2 范数(m/s)。


mAAE,Average Attribute Error,平均属性错误(AAE) 被定义为1−acc, 其中acc 为类别分类准确度。


其中,mAP是最核心指标。

资料来源:公开信息整理


mAP意思是平均精确度(averageprecision)的平均(mean),是object detection中模型性能的衡量标准。object detection中,因为有物体定位框,分类中的accuracy并不适用,因此才提出了object detection独有的mAP指标,上汽在这个单项中是第一名。

mAP计算流程图,非常复杂,这里的class就是分类,nuScenes有23个分类。Ground truth就是人工标注的真值,当然也可以电脑自动标注,但人工标注是不可或缺的,只是比例多少,一般来说精细标注都是人工标注,电脑自动标注是稀疏标注。Prediction预测就是深度学习模型根据训练数据集给出的答案。要理解平均精确度的概念,要先熟悉几个基本概念:


查准率(Precision)是指在所有预测为正例中真正例的比率,也即预测的准确性。


查全率(Recall)是指在所有正例中被正确预测的比率,也即预测正确的覆盖率。


真正率为TP,真反率为TN,假正率是FP,假反率为FN。


查准率是TP/TP+FP,查全率是TP/FP+FN。

单一类别的AP计算,物体检测中的每一个预测结果包含两部分:预测框(bounding box)和置信概率(PC)。bounding box通常以矩形预测框的左上角和右下角的坐标表示,即x_min, y_min, x_max, y_max,如下图。

红框为真值也就是groundtruth,真值也就是准确答案;绿框为算法预测值,88%是置信度,简单说就是有88%的可能是狗。

Intersection over Union (IoU),中文一般叫交并比。交并比IoU衡量的是两个区域的重叠程度,是两个区域重叠部分面积占二者总面积(重叠部分只计算一次)的比例。如上图,两个矩形框的IoU是交叉面积与合并面积之比。假设测试数据集中的某一类如“猫”的真值有10个,此算法预测到了5个,“狗”分类真值也有10个,此算法也预测到了10个,那么有如下值。

根据查准率和查全率,按置信度的不同阈值,我们绘制出一条曲线。

Conf.Thresh.就是置信度阈值的缩写。根据表格,可以得到一条查准率和查全率的曲线。AP是一个标量,可以通过两种办法计算得到。

1)通过矩形累加得到AP

2)通过内插10点值计算AP

K为分类的数量,即23。


目标追踪榜单如下,只取前五名。

资料来源:公开资料整理


这些打榜的算法主要考虑性能,很少考虑落地性,不过也有考虑到实际落地的算法,如安波福的纯激光雷达的PointPillars,早在2019年3月就有了,mAP只有0.305,但使用1080ti显卡就有每秒61.2的帧率,放宽损失函数最高可达150Hz,资源消耗最小,也是目前最常见的激光雷达算法。


零跑EA-LSS算法延迟

零跑的EA-LSS算法模型是基于英伟达DGX-A100来做的,也就是8张A100显卡,每秒帧率不到15,显然是无法落地的。自动驾驶的发展面临困境,算法越来越复杂,参数越来越多,对算力的需求越来越高,而高算力芯片价格越来越高。不仅是算力还有存储带宽,transformer对存储带宽远高于CNN,而高带宽的HBM价格是主流的LPDDR4/5的十倍以上。不仅是芯片,计算系统的其他芯片或部件亦是如此,这导致自动驾驶系统成本越来越高,最终可能L4级计算系统的价格超过3万美元乃至更高。



文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>