自动驾驶算法技术框架核心分为环境感知、决策规划、控制执行三部分。
环境感知:将传感器数据转换成车辆所处场景的机器语言,具体可以包括:物体检测、识别跟踪、环境建模、运动估计等;
决策规划:基于感知算法输出结果,给出最终行为动作指令,包括行为决策(车辆跟随、停止和超车)、动作决策(汽车转向、速度等)、路径规划等;
控制执行:在决策层的输出结果下,调动底层模块,向油门、刹车等核心控制部件发出指令,推动车辆按照规划线路行驶。
BEV带动算法革命
近年来BEV感知受到了广泛的关注,BEV模型主要提供了一个统一的空间,方便各项任务、传感器的融合。其主要有以下优势:
BEV统一了多模态数据处理维度,使多模态融合更加容易
BEV感知系统可以将多个摄像头或雷达得到的信息转换至鸟瞰视角,再做目标检测、实例分割等任务,能更直观地显示出BEV空间中的物体大小和方向。
2022年北大&阿里提出激光雷达和视觉融合框架——BEVFusion,雷达点云的处理和图像的处理独立进行,利用神经网络进行编码,投射到统一的BEV空间,然后将二者在BEV空间上进行融合。
BEVFusion 框架
来源:arXiv
实现时序信息融合,构筑4D空间
在4D空间内,感知算法能够更好地完成如速度测量等感知任务,并能将运动预测的结果传递到决策和控制模块。
鉴智机器人2022年提出了BEVDet4D,是基于BEVDet增加时序融合的版本。BEVDet4D通过保留过去帧的中间BEV特征来扩展BEVDet,然后通过与当前帧对齐和拼接来融合特征,从而可以通过查询两个候选特征来获取时间线索。
BEVDet4D网络结构
来源:arXiv
“脑补”被遮挡物体,实现物体预测
在BEV空间内,算法可以基于先验知识,对被遮挡的区域进行预测,“脑补”出被遮挡的区域是否有物体。
2021年Wayve联合剑桥大学提出的FIERY是一种端到端,不依赖高精地图,仅基于单目相机的鸟瞰图实现的道路动态物体实例预测算法。
FIERY模型
来源:arXiv
促进端到端的自动驾驶框架发展
在BEV空间内,感知和预测可以在统一的空间中,通过神经网络直接做端到端优化,同时得到结果。不仅是感知模块,基于BEV进行的规划决策模块也是学术界研究的方向。
2022年,上海人工智能实验室自动驾驶团队与上海交通大学严骏驰副教授团队合作的论文ST-P3,提出一种时空特征学习方案,可以同时为感知、预测和规划任务提供一组更具代表性的特征。
ST-P3架构
来源:arXiv
AI大模型推动算法迭代
2012年之后,深度学习算法基本接管了自动驾驶的主要分支领域。为了支撑更大更复杂的AI计算需求,诞生了具有“巨量数据、巨量算力、巨量算法”特性的AI大模型,其加快了算法迭代速度。
大模型及智算中心方面
2021年,毫末智行启动了针对Transformer大模型的研究和落地尝试,随后逐步在包括多模态感知数据融合、认知模型训练等项目中得到了大规模运用。2021年12月,毫末智行发布了自动驾驶数据智能体系MANA(中文名“雪湖”),将感知、认知、标注、仿真、计算等多个环节融合于一体。2023年1月,毫末超算中心——雪湖·绿洲(MANA OASIS)亮相 ,由毫末智行与火山引擎联合打造,每秒浮点运算达67亿亿次,毫末训练平台部署到 OASIS上后,可以运行包括云端大模型训练、车端模型训练、标注、仿真等各类应用。在MANA OASIS的加持下,毫末MANA五大模型迎来全新亮相升级。
毫末超算中心——雪湖·绿洲(MANA OASIS)
来源:毫末智行
毫末五大模型
来源:毫末智行
2022年8月,基于阿里云智能计算平台,小鹏汽车建成自动驾驶智算中心“扶摇”,专用于自动驾驶模型训练。2022年10月,小鹏也宣布引入Transformer大模型。
小鹏汽车智算中心——扶摇
来源:小鹏汽车
2022年11月,百度发布了文心大模型,其自动驾驶感知模型超过10亿的参数规模,具备数千个对象识别能力,大大扩展了自动驾驶语义识别数据。目前主要应用在远视距、多模态和数据挖掘三个方面。
百度文心大模型应用——多模态
来源:百度