首页
深度解析Waymo的自动驾驶训练数据集

深度解析Waymo的自动驾驶训练数据集

发布时间:2023-05-23

Waymo自2008年就开始研发自动驾驶，也是业内公认自动驾驶技术先行者，但在商业化道路上进展不利，只有软硬一体才是自动驾驶的出路，所以自研芯片后的Waymo或许能翻身，虽然自研芯片有点晚了。有关Waymo的自动驾驶训练数据集（Waymo Open Dataset，简称WOD）或者说公开Benchmark有两篇论文，一篇是2020年5月的《Scalability in Perception for Autonomous Driving: Waymo Open Dataset》，另一篇是2021年4月的《Large Scale Interactive Motion Forecasting for Autonomous Driving:The WAYMO OPEN MOTION DATASET》。

WOD也分成两部分，一部分是Perceptiondataset，有2030个场景，目前最新版为2022年6月升级的v1.4；另一部分是Motion dataset，有目标轨迹追踪和3D同步地图，有103354个场景，目前最新版为2021年8月升级的v1.1版。谷歌举办过WayMo Open Dataset Challenge，响应者不少，3D Detection的第一名是国内知名芯片公司地平线，第二名是香港中文大学，第三名则是致力商用车无人驾驶的图森未来。2DDetection方面，图森未来、同济大学和中科院第一，地平线第二，中山大学和华为诺亚方舟实验室第三。Waymo在业内的地位可见一斑。

首先来看Perception dataset。

Waymo的传感器布局，有多达5个激光雷达，前面左中右各一个，车顶一个，车尾一个。5个摄像头也都在车顶。

上表的“Ours”就是Waymo的数据集，这是4个数据集的对比，KITTI用的是一台Velodyne的HDL-64E 64线激光雷达，早期产品单回波下其每秒有130万点输出，后来的HDL-64E S3双回波是220万点每秒输出。未知KITTI是用的单回波还是双回波，早期激光雷达单回波的可能性大一点。尽管Waymo用了5个激光雷达，但每帧平均点数比KITTI没高太多，并且Waymo的5个激光雷达均是双回波。

上表为Waymo激光雷达的参数，并未公布每秒输出点数，Waymo自制的激光雷达应该不如Velodyne的HDL-64E 。HDL-64E的VFOV是+2°至-24.8°，垂直角分辨率是0.4°，Waymo的VFOV是20°，如果也是64线的话，那么垂直角度分辨率应该是0.3°。

上表为Waymo 5个摄像头参数，最高只有200万像素，而Waymo声称自己的无人车用了500万像素的摄像头，并且有些媒体声称使用了14个500万像素摄像头，显然是夸张了，Waymo不会为测试数据集单独搞一套传感器配置，Waymo无人车的实际像素应该就是200万。

坐标系方面，采用右手规则。全局坐标是East-North-Up体系，车辆姿态与全局坐标系定义为4*4变换矩阵。A vehicle pose is defined as a 4x4 transform matrix from the vehicleframe to the global frame。相机坐标系方面，使用外参矩阵，即从全局（世界）坐标系到相机坐标系的变换。激光雷达使用直角坐标系。

标注方面，每一个3D物体都有7自由度的标注，包括基于中央坐标点的长宽高以及3D Box的长宽高，还有航向角。当然还有物体的ID和分类。对于鸟瞰（BEV）3D目标，设置为5自由度，不需要基于中央坐标点的长宽高。

标注方面，考虑到了人工标注费时费力，和华为一样，Waymo也有半监督学习，也就是伪标签学习，也有叫自动标签系统，这些非人工标注的自然是伪标签，但其也并非完全的毫无根据。首先，在人工标注真值的数据上训练模型，然后使用经过训练的模型来预测无标签数据的标签，从而创建伪标签。此外，将标签数据和新生成的伪标签数据结合起来作为新的训练数据。大量使用自动标签或伪标签就是半监督学习。这样的结果肯定不如全人工标注来得好，可是就算Waymo财大气粗也得考虑成本，这种3D目标标注是需要标注工具的，且异常枯燥无味，至少要理科院校的大一学生才能胜任，同时还要心细，不嫌枯燥，这种人是不好找的，成本不低。

Waymo的3D自动标签管线

与其他家不同的是Waymo使用非板载系统进行自动标签，Waymo认为板载系统资源受到限制，效果不会太好，所以称之为《Offboard 3D Object Detection from Point Cloud Sequences》。

感知WOD有2030个场景，分训练和评估两部分，主要在凤凰城、山景城和旧金山采集，大部分为白天，天气晴好。训练集解压缩后大小为812.7GB，验证集为204.9GB。

感知WOD分4大类，3D目标检测与追踪，2D目标检测与追踪。

单一目标的测试基准线

多目标包含追踪的测试基准线

高于基准线就可算优秀，Waymo对车辆检测IoU设置为0.7，行人为0.5，行人的阈值较低，这也可看出行人检测难度很高。 WOD的感知测试数据集平平无奇，不过动作预测测试数据集可谓独树一帜，非常有水平。它包含103,354 segments，每个segment长度为20s，10Hz，包含object tracks和map data，这些segment又被分成9s的窗口，包括1s历史和8s未来。覆盖6个城市，1750公里的里程，570小时的驾驶时间。

包含场景预测和动作预测的数据集对比，“Ours”就是Waymo，Lyft虽有1118小时，但只有10公里，样本量太少了。Argo的时间太短，只有5秒，前后关联性不明显，缺乏预测的意义。有3D Box标注的只有Waymo和安波福，但安波福的帧率太低了，只有2Hz，就算市区低速场景也太低。综合看只有Waymo的场景预测和动作预测的数据集才真正有意义。Waymo覆盖六个城市，包括凤凰城、旧金山、西雅图、山景城、底特律和洛杉矶。对于无人驾驶来说，最难的就是预测行人或车辆的下一步轨迹，即行为预测或动作轨迹预测。这已经超越了感知那个地步，但需要良好的3D感知和轨迹追踪能力做基础，行为预测通常都使用LTSM，而不是CNN。绝大多数数据集的核心还是感知，而Waymo要更进一步。

数据集中训练占70%，包括未来轨迹真值，validation占15%，测试占15%。每个场景有20秒时间，Scenario代表一个场景，也就是一段时间内的交通情况，包括自动驾驶车自身，其它的交通参与者（车辆、行人），以及交通灯在20s内的轨迹和状态，同时还包括了道路信息即地图。也就是说Scenario是一条数据的最小单元。从20秒内抽出9.1秒的时间窗口，频率为10Hz，即91帧，10个历史样本，1个现在时样本，80个未来帧，也就是说要预测未来8秒的行动轨迹，Waymo认为预测时间越长越安全。标注系统和感知数据集一样，也是别出心裁的自动标签系统。论文为《Auto4D: Learning to Label 4D Objects from Sequential Point Clouds》所谓4D就是加了时间戳。顺便说一句，这篇论文不是Waymo的，而是Uber和多伦多大学的。

4D自动标签系统

Waymo Open Motion Dataset示例

预测评价指标有平均位移误差：Average displacement error（ADE），每个预测位置和每个真值位置之间的平均欧式距离差值。

终点位移误差（Final displacement error，简称FDE）：终点预测位置和终点真值位置之间的平均欧式距离差值。

空间重叠率（Overlap Rate）：总重叠数与进行多模态预测次数的比值。一个样本e对应的一次多模态预测中，最高置信度的预测里，每一个时间步step，一个对象与另一个真实情况或该预测情况的其他对象的3D边界框存在重叠，则重叠数加1。

漏检率（Miss Rate，简称MR）：整个数据集在t时刻的错误比例。对于一个样本，给定t时刻，所有K个联合预测，都存在某个对象a的位置，其指示函数IsMatch(.)为0，则该时刻MR为1。

平均精度期望（mAP）：先对每个对象的真实轨迹按定义的运动方向分为8类（buckets），用上面的IsMatch(.)来定义TP，FP等（但是对于都Match的情况，仅认为置信度高的为TP），在各类内按置信度排序TP、FP后，根据各个TP的准确度（precision）求平均（置信度越高的TP排在前面，对AP的影响越大），再对各个类别的AP求算数平均。

Waymo的Baseline基线成绩，rg代表道路拓扑，ts代表交通信号，hi代表high-order interactions，rg基本可看做高精度地图，这对模型预测很有帮助。mAP的值远低于3D目标检测，显然预测目标轨迹的深度学习还非常不成熟。

交互式interactive的成绩就更差了，显然预测目标轨迹的深度学习还有很长的路要走。

文章来源于:电子工程世界原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。

关于端到端自动驾驶的四个常见误区(2024-05-22)

出我自己对于这些问题的解读。 01 疑惑一：端到端感知，端到端决策规划都可以算作是端到端自动驾驶？首先端到端自动驾驶的定义基本上大家明确了是指从传感器输入开始到规划甚至控制信号输出（马斯克所说Photon......

何小鹏：2025是完全自动驾驶ChatGPT时刻(2024-06-25)

等为代表的整车厂，以及元戎启行、小马智行、鉴智机器人等在内的自动驾驶产业链公司，都在争相研发端到端自动驾驶，以实现更出色的智驾体验。其中小鹏汽车，已经于5月底正式发布了首个量产上车的端到端大模型：神经......

端到端模型真的是自动驾驶的未来吗？(2023-09-07)

端到端模型真的是自动驾驶的未来吗？;特斯拉的FSD V12直播秀又火了，对于特斯拉而言它的每一步动作无不牵动着行业的关注，这次还是完成了端到端自动驾驶的突破。事实上，自动驾驶行业自发展以来，分模......

端到端自动驾驶到底是什么？(2023-09-21)

可以，如果我们能将各个模块用可微分的方式连接起来。类似于传统深度学习，出现误差时，深度自动回传进行权重更新。某种程度上，这就是端到端自动驾驶的概念。 02 理想化的端到端自动驾驶事实上，从自动驾驶......

自动驾驶革命：解密端到端背后的数据、算力和AI奇迹(2024-03-06)

等模块车端代码：V11有30万行代码来处理各类场景，而V12则非常简单，不再针对任何场景定制策略，完全依靠数据编程运行效率：50帧/秒，效率极高这些特征如此炫酷，引领着自动驾驶技术风向。那么究竟什么是端到端自动驾驶......

这个“神奇”的智能驾驶方案，真相到底如何？(2024-07-01)

系统能够作为一个整体，面向最终任务——“开车”进行数据训练和迭代优化，用户感知的驾驶决策轨迹，是完全由模型系统做出的。端到端自动驾驶系统概念示意端到端之前的混合架构由模块化模型+后处理+规则构成，将“开车......

端到端与下一代自动驾驶系统详解(2024-04-21)

端到端与下一代自动驾驶系统详解;最近一个月由于众所周知的一些原因，非常密集地和行业内的各种老师同学进行了交流。交流中必不可免的一个话题自然是端到端与火爆的特斯拉FSD V12。想借此机会，整理......

智能驾驶，驶向赛点(2024-06-12)

、如何落地？特斯拉是端到端自动驾驶的先行者，但并不是唯一的玩家。因为特斯拉的进展，也受到在大洋彼岸的中国同行的密切关注。端到端也成为行业技术、产业进展的热门词汇，一场端到端......

基于BEV(Birds Eye View)的自动驾驶方案(2022-12-15)

框架的出现。 BEV下的自动驾驶技术发展很可能就是端到端的自动驾驶框架的契机。 SelfD里作者利用BEV视角统一了大量行车视频的数据尺度，并进行了规划和决策模块的模型学习。 MP3中......

智能驾驶，要变天了(2024-08-21)

有两种不同的声音，一种是模块化，一种则是端到端。就目前而言，主流的智能驾驶系统普遍应用了模块化，即将自动驾驶任务分解为感知、预测和规划三个独立的模块，随后通过系统集成来实现自动驾驶功能。模块......

平台入驻

我们与500+贴片厂合作，完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页，多渠道推广，SEM/SEO精准营销以及与公众号的联合推广...详细>>

原厂代理商合作

利用葫芦芯平台的卓越技术服务和新产品推广能力，原厂代理能轻松打入消费物联网（IOT）、信息与通信（ICT）、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

闲置物料合作

充分利用其强大的电子元器件采购流量，创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术，不仅可以助你轻松识别与连接到需求方，更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

生态合作

我们的目标很明确：构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前，我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

加工与定制类服务商合作

我们深知加工与定制类服务商的价值和重要性，因此，我们倾力为您提供最顶尖的营销资源。在我们的平台上，您可以直接接触到100万的研发工程师和采购工程师，以及10万的活跃客户群体...详细>>

线上代理合作

凭借我们强大的专业流量和尖端的互联网数字营销技术，我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品，都可以通过我们的平台迅速传达给目标客户...详细>>

邮件营销及广告服务

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环，从引流、宣传到最终销售，全程跟进，确保每一个potential lead都得到妥善处理，从而大幅提高转化率。不仅如此...详细>>