随着人工智能技术方向迈向大模型阶段,以及智能驾驶在城市场景的落地,自动驾驶技术迎来重大变革机遇,正在进入以数据驱动为核心,以大模型、大数据、大算力为特征的自动驾驶 3.0 时代。
自动驾驶 3.0 时代,是毫末智行 CEO 顾维灏在 2022 年 9 月的 AI DAY 上提出的一个技术概念,是对自动驾驶技术过去二十年技术发展阶段的准确划分,分别是:
以硬件驱动为主的自动驾驶 1.0 时代;
以软件驱动为主的自动驾驶 2.0 时代;
以数据驱动为主的自动驾驶 3.0 时代。
其中,相较于前面两个阶段,3.0 时代的关键是在数据驱动下,AI 算法的训练方式发生了根本性变化:
即从小模型、小数据的任务型训练升级为大模型、大数据的通用型预训练方式,其中所对应需要的智能驾驶真实行驶里程数据规模至少要在一亿公里。
11 月 29 日,毫末宣布其乘用车用户辅助驾驶里程达到一亿公里。
这一数据在 2022 年 9 月时仅 1700 万公里,在 2023 年初接近 2500 万公里,在 4 月时达到了 4000 万公里。
由此可见,随着毫末智驾产品落地规模和用户活跃度的增长,毫末智能驾驶数据积累迎来了加速的曲线增长,为毫末所致力于打造的数据智能体系提供了源源不断的真实场景数据。
获得一亿公里的量产智能驾驶真实场景数据,标志着毫末成为第一个进入自动驾驶 3.0 时代的中国自动驾驶技术公司,也成为毫末打造数据闭环驱动系统的阶段性的里程碑。
01 从 1.0 到 3.0 时代,自动驾驶的两次技术范式变革
自动驾驶作为一项新型技术出现,可以从 2004 年 DARPA 举办第一届自动驾驶挑战赛算起,至今正好将近二十年时间。
之后这二十年中,自动驾驶技术一直在「感知-决策-执行」经典框架下,沿着硬件、算力、算法、数据持续升级的方向前进。
发展至今,一个巨大变量就是人工智能技术的革命性突破,即深度学习算法以及 AI 大模型技术的出现,使得自动驾驶迎来质变时刻。
数据驱动成为推动这场技术质变的关键。
与众多技术范式一样,自动驾驶技术的进展遵循着从量变引发质变的规律。
结合自动驾驶演变历程与发展规律,自动驾驶技术的发展阶段可以从自动驾驶行驶数据规模、感知传感器模式及感知算法实现方式、认知算法实现方式以及数据处理及 AI 算法模型训练方式,这四个维度进行对比。
自动驾驶的 1.0 时代,大致是从 2004 年到 2014 年之间,自动驾驶从始至终以实现无人驾驶为目标,主导者主要是美国高校和谷歌这样的科技公司。
和主机厂在安全性、性价比、车规级等要求下仅实现 L0-L1 的低级别驾驶辅助不同,这一时期的自动驾驶车辆挂满了各种大大小小传感器硬件,简直可以说武装到了牙齿,激光雷达成为自动驾驶汽车必不可少的配置。
车端的感知能力,主要靠激光雷达,比拼的是雷达数量、线束数量,从而实现更可靠的道路障碍物的测距、测速,静态环境则主要依靠高精地图来实现;在认知上,则基本使用人工规则的方式来实现。
由于车辆整体成本比较高,所以车辆数量有限,导致自动驾驶里程规模比较少,数据积累当时在数百万公里左右。因此,此时距离真正安全可靠的无人驾驶的目标还有相当大差距。
自动驾驶 2.0 时代,大致是从 2014 年至 2021 年期间。
这一阶段,大量的自动驾驶初创公司纷纷出现,传统主机厂也尝试以投资、收购等方式卷入自动驾驶,被称为新势力的特斯拉更是在新能源车站稳脚跟之后,在 2014 年开始推出了 Autopilot 智能驾驶系统。
这期间,更大算力的车端计算芯片陆续出现,车规级传感器的数量也在快速增加,终于迎来了深度学习技术在车上的广泛应用。
在感知上,各个传感器各自为战,用一些小模型和少量数据做训练,得到单个传感器的识别结果,然后进行感知结果级的融合;在认知上,依然是人工规则和一些机器学习算法为主。
随着自动驾驶公司运营测试车队的增加和测试范围的扩大,自动驾驶行驶里程也快速在增加,达到数千万公里。
而典型代表的特斯拉,在 2019 年之后,随着特斯拉的量产车型走出产能低谷,搭载其智能驾驶系统给的车辆的行驶里程快速突破上亿公里,快速构筑起特斯拉 FSD 系统的数据闭环系统。
自动驾驶 3.0 时代,从 2021 年肇始,特斯拉无疑成为这场技术变革的推动者,其标志就是以数据驱动的 AI 大模型技术开始应用在车端上,推动自动驾驶技术进入新阶段。
相比较前两阶段中 AI 技术在自动驾驶技术中少量参与,3.0 时代是一个完全不一样的时代,数据驱动意味着利用 AI 大模型使得数据自己可以训练自己。
自动驾驶公司重点投入将要放在数据通道和智算中心的打通和建设上,以此可以更高效地获取数据,并把数据转化为知识。
在感知方向,会采用多个传感器、不同模态传感器的原始数据联合输出感知结果。
在认知方向,通过认知大模型处理真实人驾数据和场景,形成可解释的场景化驾驶策略,再配以 AI 的实时计算,拟人化融入社会交通流。
AI 算法的训练方式也发生了根本变化,就是从小模型、少数据升级为大模型、大数据的训练方式,因此所对应的智能驾驶里程所产出的数据规模至少在一亿公里以上。
当前,行业对于自动驾驶 3.0 时代的阶段特征基本已经达成了共识。
以「自动驾驶 3.0 时代」为关键词,可以发现过去的一年多时间,这一概念频繁出现在行业报告、论坛主题以及行业媒体的各种表述中。
行业普遍认为,随着自动驾驶技术范式向 3.0 时代演进,数据驱动的算法模型的演进和数据闭环成为技术竞争更重要的胜负手,从而更好推动「Transformer+BEV」为主要架构的感知路线的落地,加速了城市场景高阶辅助驾驶的落地,为进化到端到端自动驾驶提供可能。
而提出 3.0 时代概念的毫末智行,则通过量产辅助驾驶的规模化落地,提早布局数据智能闭环体系,大力投入建设云端智算中心,为适应自动驾驶 3.0 时代的技术趋势,做好了充足的准备。
02 3.0 时代,毫末构筑的大模型、大数据、大算力技术范式
2021 年,特斯拉率先将 Transformer 架构引入自动驾驶系统当中,并在其当年的 AI Day 上公布了基于 Transformer 模型的「纯视觉」BEV 感知方案,同时也公布了其以数据驱动 AI 算法进化的数据闭环体系,使其成为自动驾驶 3.0 时代的典型玩家。
同一时期,刚刚成立不到两年的毫末智行,也已经注意到 Transformer 架构在视觉领域的最新成果,认识到 Transformer 架构在自动驾驶的场景中在未来极有可能替代原有的 CNN 算法架构,成为视觉任务的主流神经网络范式。
在当时的感知方案中,毫末智行设计了可进行车道线识别的 BEV Transformer,就是在得到视觉数据后,使用 Resnet+FPN 对 2D 图像进行处理,形成 BEV Mapping,再通过多个 Cross Attention 机制训练,最终组成一个完整的 BEV 空间。
与纯视觉方案不同的是,毫末的方案采用了视觉+激光雷达的多模态感知,BEV 投射与 Lidar 模型融合,再结合 BEV 的时序特征,进一步提升识别的准确率和连续性。
随着对 Transformer 架构能力的不断深入应用,毫末构建起不依赖高精地图而更多依靠激光雷达+视觉的重感知方案,从而构建起更强能力的时空感知的 BEV 空间,完成更准确的车道线输出和一般障碍物的识别。
当 Transformer 架构的不断扩大和参数规模的增长,以及所要处理的感知数据规模快速增长,带来了对于云端计算平台能力的紧迫需求。
为此,经过一年左右的筹备,毫末在 2023 年初推出了自动驾驶行业首个智算中心雪湖·绿洲(MANA OASIS),AI 算力规模达到 67 亿亿次每秒浮点运算,成为当时最大 AI 算力的自动驾驶智算中心。
基于 Transformer 架构,毫末在感知技术上探索建立了多个感知大模型。
比如,针对自动驾驶数据标注的视觉自监督大模型,可以从图片数据过渡到 4D Clips 视频数据形态,对海量 Clips 数据进行预训练,再通过少量人工标注 clips 数据进行 Finetune,训练出检测跟踪模型,从而使得模型具备自动标注能力,然后就可以实现对大量单帧未标注数据向 Clips 标注数据的自动转化,从而节省了 98% 的人工标注成本。
再比如,在场景重建和仿真能力上,毫末将 NeRF 技术应用在自动驾驶场景重建和仿真能力中,构建的 3D 重建大模型可以通过改变视角、光照、纹理材质的方法,生成高真实感数据,从而可以低成本构造大量自动驾驶的 Corner case。
还有构建了多模态互监督大模型,引入了激光雷达作为视觉监督信号,直接使用视频数据来推理场景的通用结构表达,可以完成城市多种异形障碍物等通用障碍物的识别。
此外还构建了动态环境大模型,即在 BEV 的 feature map 基础上,以标精地图作为引导信息,使用自回归编解码网络,将 BEV 特征解码为结构化的拓扑点序列,实现车道拓扑预测,让车端感知能力,能像人类一样在标准地图的导航提示下,就可以实现对道路拓扑结构的实时推断。
这些感知大模型仍然是以不同感知任务的方式来进行训练,而很快毫末意识到应该采用一个更为通用的感知大模型,将多个下游任务集中到一起,形成一个更为基础的预训练大模型的架构,将道路场景环境的三维结构、速度场和纹理分布融合到同一个训练目标里进行训练,适配所有主流视觉感知任务。
在认知决策场景,毫末率先采用类似 ChatGPT 生成式预训练大模型的实现方式,对自动驾驶认知决策模型进行持续优化。为此,毫末构建起人驾自监督大模型,探索使用大量人驾数据,去训练模型做出拟人化的驾驶决策。为了让模型能够学习到人类司机的优秀的驾驶策略。
在此基础上,毫末通过引入驾驶数据,使用 RLHF(人类反馈强化学习)技术,推出了自动驾驶生成式大模型 DriveGPT(雪湖·海若)。
其中,DriveGPT 模型参数规模达到 1200 亿,在预训练阶段引入数千万公里量产车驾驶数据,在 RLHF 阶段引入数万段人工精选的困难场景接管 Clips 数据,从而保证大模型在预训练阶段以及 RLHF 阶段的数据量规模和数据的泛化性能。
基于生成式预训练大模型所建立的技术范式,毫末很快将 DriveGPT 大模型进行了进一步的升级,也就是围绕通用感知、通用认知能力,建立起一个统一的大模型,探索端到端自动驾驶的技术新范式。
在感知阶段,DriveGPT 通过构建通用感知大模型来实现对真实物理世界的学习,并通过与 NeRF 技术整合,将真实世界建模到三维空间,再加上时序形成 4D 向量空间。
在构建对真实物理世界的 4D 感知基础上,毫末进一步引入开源的图文多模态大模型,实现 4D 向量空间到语义空间的对齐,实现跟人类一样的「识别万物」的能力。
在认知阶段,基于通用感知大模型构建的「识别万物」能力的基础上,DriveGPT 通过构建驾驶语言(Drive Language)来描述驾驶环境和驾驶意图,再结合导航引导信息以及自车历史动作,并借助外部大语言模型 LLM 的海量知识来辅助给出驾驶解释和驾驶建议。
DriveGPT 的认知大模型借助大语言模型 LLM,将世界知识引入到驾驶策略中,使得自动驾驶认知决策获得了人类社会的常识和推理能力,也就是具备世界知识,从而大幅度提升自动驾驶策略的可解释性和泛化性。
毫末智行 CEO 顾维灏在 AI DAY 上对这一通用的自动驾驶大模型有一段精辟的论述:
「未来的自动驾驶系统一定跟人类驾驶员一样,不但具备对三维空间的精确感知测量能力,而且能够像人类一样理解万物之间的联系、事件发生的逻辑和背后的常识,并且能基于这些人类社会的经验来做出更好的驾驶策略。」
03 新范式迈向 3.0 时代
总体来看,自动驾驶 3.0 时代的技术升级不再是简单的算法的叠加,不是传感器的堆料,也不是场景的简单复制,而是自动驾驶技术方式的重构,也就是以数据驱动和大模型的方式重塑自动驾驶的技术路线。
顾维灏也给出了 3.0 时代的技术架构的技术演进模式:
当前先是在云端实现感知大模型、认知大模型的能力突破,并将车端各类小模型逐步统一到感知模型和认知模型,同时将控制模块也模型化。
下一阶段,车端智驾系统的演进路线一方面是会逐步全链路模型化,另一方面是逐步大模型化,即小模型逐渐统一到大模型内。云端大模型也可以通过剪枝、蒸馏等方式逐步提升车端的感知能力。最终阶段,在未来车端、云端都是端到端的自动驾驶大模型。
可以预计,伴随自动驾驶 3.0 时代技术变革同时到来的趋势,量产智能驾驶开始走向城市场景。
而随着量产辅助驾驶乘用车的大规模上路,又会快速积累开放道路环境下的海量数据以及人驾接管数据,会带来类型丰富的真是场景数据。
这将真正实现以数据驱动的方式,推动自动驾驶技术发生质的飞跃,最终在 3.0 时代抵达完全自动驾驶这一应许之地。