引言:
纯视觉方案,马斯克是这样说的:“如果雷达与摄像头传来的信息相互矛盾,智能驾驶系统反而会难以抉择。不如只选其一,做到极致。”相比人眼,车辆摄像头可以同时“看”到每一个方向,视野范围达到360度,探测范围远超人类。各个方向的行人、障碍物,远处的红绿灯、交叉路口一切信息都“尽收眼底”。以特斯拉为代表的车企为了实现降本增效提出了纯视觉的智驾方案,国内汽车行业很快也认识到了纯视觉方案的经济效益,纷纷加入到这一技术路线的探索中。本文将举例分析多家企业的纯视觉智驾方案。
一、特斯拉
特斯拉从第一性原理出发选择“纯视觉”路线,把“看路”的工作完全交给摄像头,通过不断精进算法、强化硬件、训练车辆,全方位提升车辆观察世界、理解交通和处理问题的能力。特斯拉最早做纯视觉方案是比较有底气的,原因主要有几点:
(1)自研FSD芯片
为了更快处理视觉数据实现类似人类大脑的思考能力,特斯拉自主研发算力更强的FSD芯片,既负责图形处理,也负责数据处理和深度学习。
(2)自建Dojo超级计算机
特斯拉专门打造了Dojo超级计算机,突破全行业的算力瓶颈,用全球超百万台特斯拉车辆的真实驾驶数据(数据仅用于自动辅助驾驶功能的优化和升级),不断训练车辆应对各种行驶状况的能力。马斯克认为特斯拉的辅助驾驶技术已经不再受算力限制。
2023Q2特斯拉引入Dojo实现高效率、低成本的神经网络训练,累计里程由2023Q1不到1.5亿英里,到23Q2突破3亿英里;2023Q4引入“端到端”V12版本后,2023Q4突破7亿英里,2024年4月初突破10亿英里。
(3)海量数据优势和数据闭环
在特斯拉自动驾驶方案中,核心算法基本都是由数据驱动的,数据的数量和质量决定了算法的性能。特斯拉拥有海量实时驾驶数据,并构建了一套高效获取、标注及仿真训练的数据闭环。特斯拉数据闭环体系为:数据采集——搭建数据集——自动+人工标注——送入模型训练——部署到车端。
(4)持续迭代算法
经过大量训练和算法迭代,特斯拉的“大脑”会不断进化,更高效地处理摄像头拍摄的画面,做出更准确的判断。其中,HydraNet模型使用RegNet作为Backbone,BiFPN构建多尺度featuremap,并添加taskspecific的Heads。已经实现更精准地识别需要转弯的十字路口、提醒减速的交通标志、红绿灯变化,更熟练地理解其他行人和车辆的行为,更精准地测距等……
基于新一代自动辅助驾驶硬件(HW4.0),让特斯拉的纯视觉辅助驾驶掀开全新篇章。2024年4月,搭载更前瞻的自动辅助驾驶硬件HW4.0后,特斯拉的摄像头探测能力和芯片运算能力又得到了大幅提升,安全实力也获得更高水平的硬件保障:
HW4.0配备的双目摄像头拥有超过行业均值的探测能力,最远探测距离达424米,下个路口、甚至下下路口的路况能够提前掌握。前摄、后视、车周共7个500万像素摄像头组合,360度感知,视野更清晰,成像更精准。当车主停车时,纯视觉驻车辅助还能呈现高清3D图像,车辆周围的障碍物、喷漆路标都被“实时建模”,即使坐在车内,也能掌控全场,盲区死角都能看见。影像清晰度也得到了提升,使得需要处理的数据容量成倍增长,系统算力需求也相应增加。HW4.0芯片算力提升了5倍,复杂的图像情况也能够处理。
二、广汽研究院
广汽研究院于2024年4月12日正式发布无图纯视觉智驾系统,并计划于2026年搭载在量产车上。与目前主流的多传感融合技术相比,广汽无图纯视觉智驾系统不依赖高精地图,并去掉了激光雷达,结合视觉传感器和人工智能算法。
在实际道路测试中,在没有高精地图的情况下,广汽无图纯视觉智驾系统可实现城市NDA和高速NDA零接管,并且在雨中、夜晚也能正常行驶。
在技术层面,广汽无图纯视觉智驾系统在视觉识别上基于自研的道路感知多任务模型XRoadNet,通过多路相机输入的BEV+Transformer感知框架技术,对摄像头拍到的图像特征进行提取、融合,并转换到3D空间里。
三、大疆车载
(1)首先是环境感知预测能力
大疆的“成行平台”利用BEV融合算法,把不同传感器的数据,在特征提取阶段映射到以本车坐标系下,然后进行融合,通过深度学习技术感知车辆周围环境,将输出的环境感知结果直接提供给下游的决策规划环节使用。
BEV算法把传感器输出的环境特征映射到本车坐标系,所以可以根据车辆的位姿,把前后时刻道路特征进行对齐。BEV算法天然对时序特征融合较为友好,而且时序检测对于遮挡场景效果也会更加稳定,因此,在BEV算法下通过对车辆不同时刻位姿的特征,转换到当前本车坐标系下,便可以进行结果预测。BEV感知算法不仅能预测出下游所需的丰富语义信息(如车道线、地面标识、道路边缘、车道中心线、导流带、道路分割等语义信息),还能预测出具有更高语义信息的拓扑信息(如车道分流和合流、路口拓扑等)。将这些道路语义信息,按照前后时序进行拼接融合,便可得到一张可达空间内的在线局部“高精度地图”,为车辆的智能驾驶提供实时的道路动静态高精度信息。
基于BEV感知算法的输出,“成行平台”能在不依赖高精地图情况下,在缺失、磨损的车道线道路上,顺利完成车道保持这样的基础行车辅助功能,也能在领航高速中完成上下匝道及领航城区时的路口左右转等高阶智能驾驶功能,极大地脱离了功能使用需要高精地图覆盖的限制。
(2)局部位姿估计:高精度融合定位
大疆车载“成行平台”的硬件只有一对前视惯导立体双目摄像头、一个后视单目摄像头,以及四个环视鱼眼摄像头。
解决了可达空间内的环境感知预测问题,还需要对车辆的运动轨迹做出稳定的高精度融合定位。大疆的“成行平台”以惯导立体双目为主导的SLAM技术,在拥堵、暴雨、夜间及地下停车场等多个场景,可保持稳定、高精度的车辆轨迹估计,同时支持扩展接入其它周视单目、鱼眼等多种相机,以进一步提升性能。
为了避免这样的情况发生,“成行平台”对车辆运动轨迹的,不仅能够实习轮速和IMU两类传感器的输入,还在线融合了以双目深度估计为主导的视觉信息,即通过利用图像信息,结合3D的视觉原理,便能够直接获取到前后两帧图像的相对位置、姿态信息。
2023年,大疆和奇瑞推出了完全采用纯视觉硬件智驾的iCAR03,最基础的智驾版本仅仅只装配了7颗摄像头,算力低到只有32TOPS。
其中四颗环视摄像头分布在车身前后左右,再加上车身前方一个双目传感器(两个摄像头),车后一个后视单目摄像头,车中一个高性能控制器。
2023年,宝骏云朵搭载大疆第二代贯导双目摄像头智驾方案,采用前置双目800万像素的摄像头的纯视觉方案。
2024年4月,上汽大众和一汽大众宣布在新款途观LPro版和新一代迈腾上采用大疆的7V+100Tops的惯导双目纯视觉智驾方案,成本在7000元左右
大疆目前推出的均为纯视觉方案,但实际上大疆车载并不排斥激光雷达。大疆的下一代方案中,已有激光雷达上车计划。2024年北京车展上,大疆车载发布激目系统,即惯导三目集成一个全链自研的激光雷达。
四、百度
百度ANP3Pro智驾方案基于纯视觉方案,取消了激光雷达,硬件包括1颗算力254TOPs的英伟达芯片、11颗摄像头、3颗毫米波雷达、12颗超声波雷达,总成本仅需万元。在百度Apollo的技术生态中,有超过7000万公里的高质量的Robotaxi原始数据积累,打下了“纯视觉技术方案”的“冷启动”数据基础。百度AI拥有超过170亿参数的视觉大模型、高标准的自动化标注产线实现日均产能过百万(帧)、高质量标注数据BEV+OCC精标训练数据过亿(帧),能够大幅提升数据处理效率和精度。
2024年1月极越01整车OTA升级,与百度Apollo联合研发的OCC占用网络(OccupancyNetwork)。极越01以“BEV+OCC+Transformer”的高阶智驾的完整体系,大幅提升“纯视觉”智驾方案应对异形障碍物识别和场景泛化的能力。OCC占用网络通过一个个像素立方体,将实时变化的真实世界在3D空间里进行实时重建,并将汽车视觉世界里各种不规则的物体,如障碍物、道路、建筑,甚至花草树木,快速、精准地完成等比例复刻,显著增强智能汽车理解周围环境的能力。百度和极越已基于近2EFLOPS高算力训练集群,实现模型高效训练、每周快速迭代。
五、华为
华为ADS2.0在BEV感知能力基础上,使用GOD网络,可以识别通用障碍物白名单外形态各异、大小不一的障碍物。其中ADS2.0纯视觉方案(基础班):使用前视双目摄像头进行感知,不依赖高精地图。它能够检测异形障碍物,具有较低的成本。ADS2.0激光雷达方案:使用激光雷达和毫米波雷达来弥补视觉感知的缺陷,具有精度高、范围大、抗干扰能力强的特性。
智界S7Pro版车型搭载HUAWEIADS2.0基础版,搭载3个毫米波雷达、10个视觉感知高清摄像头组及12个超声波雷达,实现不依赖激光雷达的视觉智驾方案。依靠纯视觉方案收集车辆周围的路况信息,并能在高速、城市快速路中可实现领航辅助驾驶功能,智能泊车也能够实现多场景的泊入功能,用户还可选择车头或车尾泊入。
智界S7Max以上的版本仍然采用的激光雷达方案。因为华为视觉方案目前仅限于高速和城市快速路上使用,如果想要覆盖城市主干道和全国的支路,还是得上激光雷达方案。所以华为这样的智能驾驶巨头,仍然认为激光雷达是必不可少的。
六、小米
2024年3月28日小米SU7的发布会上,正式公布了小米SU7两套智驾系统,分别为:XiaomiPilotPro(纯视觉版)和XiaomiPilotMax(视觉+激光雷达版)。小米SU7纯视觉方案在BEV方面进行了创新,搭载了变焦技术,提高了理解的准确性和分辨率。在占用网络(OCC)部分有所创新,降低了对3D像素识别的依赖。全系标配高速NOA、代客泊车辅助、智能泊车辅助、极窄车位泊车,城市NOA4月开启了用户测试,预计2024年8月全国开通。
目前国内纯视觉方案的车辆都比搭载了激光雷达的便宜好几万,降本增效可能是推出纯视觉方案的主要原因。短期看拿掉激光雷达,降本效果会立即出现。然而从长期看,车企需要为这一选择投入更多的研发资源。要保证纯视觉智驾方案的的安全性,需要在纯视觉技术路线中投入很高的隐性成本,包括算法、路测数据、算力芯片、数据标注、仿真测试等方面。就像我们在海面上看到的冰山,仅仅只是冰山一角罢了,如何保证航行安全,需要再继续挖掘冰山的全部。因此,未来很长一段时间内,基于安全第一的原则,纯视觉技术还需要不断提高升级,切不可因降低成本而置安全不顾。