基于神经网络/大模型的自动驾驶算法

2023-07-19  

1、 自动驾驶——数据驱动下的算法迭代

1.1、 自动驾驶算法是感知、预测、规划、控制的结合体

自动驾驶算法反应了工程师们根据人的思维模式,对自动驾驶所需处理过程的 思考。通常包含感知、预测、规划模块,同时辅助一些地图、定位等模块,实现自 动驾驶功能的落地。


1.1.1、 感知:感知外部世界

感知模块主要解决四类任务:(1)检测:找出物体在环境中的位置;(2)分类: 明确对象是什么,如分辨不同类别交通标志;(3)跟踪:随着时间的推移观察移动 物体,通常采用跨帧追踪对象(将不同帧中检测到的对象进行匹配)、BEV 加入时序 信息等实现;(4)语义分割:将图像中的每个像素与语义类别匹配,如道路、天空、 汽车等,用于尽可能详细了解环境。 以 Apollo 感知算法框架为例,其算法包含预处理、神经网络模型、后处理等模 块。首先图像预处理主要是对图像进行调整、畸变校正等,使之更符合机器学习的 要求。其次分别对红绿灯、车道线、障碍物等特征进行检测,其中红绿灯通过检测 边框、颜色等进行进一步的识别;障碍物则经过 2D 到 3D 的转换,得出真实的信息 坐标,再融合车道线检测信息、外部传感器信息等得出真实世界的障碍物信息。该 部分通常采用全卷积神经网络或者 YOLO 等算法实现。


1.1.2、 预测:理解外部环境和当前状态

预测模块实际上是算法对外部环境和自车状态的理解。预测模块首先收集感知 模块输入的车道线、障碍物、红绿灯、地图、定位等信息对主车的状况进行判断。 其次场景感知模块对外部障碍物的优先级、路权等外部环境对主车的影响进行感知。 评估器则会根据场景信息和障碍物信息判断出障碍物的轨迹或意图。预测器则根据 短期的预测轨迹和意图判断障碍物等外部环境相对长期的轨迹。这将为未来汽车的 规划提供重要的参考。算法层面通常以 RNN 为主。

69b7dcce-1ffb-11ee-962d-dac502259ad0.png

1.1.3、 规划:思考如何行动

规划指找到合理路径来到达目的地。规划通常分为全局路径规划、行为规划与 运动规划几个部分。其中,全局路径规划指智能汽车依靠地图规划出理想状态下到 达目的地的路径。行为规划则是主车在实际行驶的过程中,面临实时的交通环境, 做出的各类驾驶行为,如跟车、换道、避让等。运动规划生成与驾驶行为对应的驾 驶轨迹,包含路径规划和速度规划。最后再采用一些优化方式让变道加速等行为变 得平顺以满足舒适性要求。算法层面,通常采用基于规则的规划决策算法,前沿的 玩家也开始引入机器学习等方式,以提升决策效能。


1.2、 数据:算法的养料,现实与虚拟的交织

算法、算力和数据是人工智能的三大要素,数据在模型训练中拥有不可忽视的 影响。一方面,Transformer 等大模型在大体量数据集训练下才能表现更佳的特性带 来其对训练端数据的要求激增,特斯拉在 2022 年 AI DAY 上曾表示,训练其占用网 络采用了 14 亿帧图像数据。另一方面,由于自动驾驶面临的场景纷繁复杂,诸多长 尾问题需要在现实或虚拟场景中获取。因此数据闭环在自动驾驶领域弥足重要。毫 末智行将数据作为“自动驾驶能力函数”的自变量,认为是决定能力发展的关键, Momenta 也曾表示,L4 要实现规模化,至少要做到人类司机的安全水平,最好比人 类司机水平高一个数量级,因此需要至少千亿公里的测试,解决百万长尾问题。


数据挖掘和针对性的训练能显著减少 Corner Case。以特斯拉为例,在面临一个 看起来像临时停车但实际上是永久停车的场景时,最初算法会将其判定为临时停车。 当特斯拉通过数据挖掘在训练集中增加了 1.4 万个类似场景的视频并训练模型后,神 经网络便理解了这辆车里面没有司机,将其判别为永久停车。


2、 大模型横空出世,自动驾驶奇点来临

早期自动驾驶方案采用激光雷达+高精度地图为主。早期市场以传统计算机视觉 和专家系统为基础构建辅助驾驶功能,随后人工智能的蓬勃发展让深度学习在自动 驾驶领域被广泛使用,以 waymo 为代表的自动驾驶先驱玩家开创了激光雷达+高精 度地图的感知范式,Cruise、百度等巨头纷纷效仿。该方案中,对道路结构、车道线 等静态环境元素的感知强依赖高精度地图,而实时的动静态障碍物信息则强依赖激 光雷达。高精地图成为一项“基础设施”,将很多在线难以解决的问题提前存储到地 图数据中,行车时作为一项重要的感知数据来源,减轻传感器和控制器的压力。由 于该方案只能在有图地区行驶,也被一些人形象的称为“有轨电车”。


高昂的单车成本和高精度地图成为自动驾驶大规模推广瓶颈。Robotaxi 成本高 昂(Yole 统计早期 Waymo 为代表的的自动驾驶汽车改装成本约为 20 万美元),高精 度地图采集制作以及合规要求繁杂(量产落地过程中,高精度地图面临:采集成本 高;人工修图制图费时费力;地图鲜度不足;国内法规严格等困难),带来该方案的 泛化性较差。经过数十年的发展,Robotaxi 的使用范围仍被限制在特定区域,使用 对象也仅局限在商用车领域。市场亟待出现一种单车性能强大、成本低廉的自动驾 驶解决方案。


2.1、 BEV+Transformer 横空出世,大模型推动自动驾驶迈向普及

2021 年特斯拉推出 BEV+transformer、重感知轻地图的自动驾驶解决方案,开启 了自动驾驶行业新的篇章。


2.1.1、 BEV 感知助力成为感知外部世界标准范式

BEV 全称为 Bird’s Eye-View(鸟瞰图),即通过神经网络将各个摄像头和传感器 获取的信息进行融合,生成基于俯视的“上帝视角”的鸟瞰图,同时加入时序信息, 动态的对周边环境进行感知输出,便于后续预测规划模块使用。正如人类一样,驾 驶行为需要将各处观察到的信息综合到统一的空间中,来判别什么地方是可以行驶 的区域。究其原因,驾驶行为是在 3D 空间中的行为,而鸟瞰图则是将 2D 的透视空 间图像转换为 3D 空间,不存在距离尺度问题和遮挡问题,使得算法可以直观的判断 车辆在空间中的位置以及与其他障碍物之间的关系。


2.1.2、 Transformer 大模型为构建 BEV 空间提供最优解

2021 年特斯拉在 AI Day 上第一次将 BEV+transformer 的算法形式引入到自动 驾驶,开启了自动驾驶的崭新时代。首先 BEV 空间的构建,实际上就是寻找一种恰 当的方式,将多个 2D 的图像和传感器信息综合转化成为一个 3D 的向量空间。经过 多次尝试,特斯拉最终引入了 Transformer 大模型来实现这一转换。 Transformer 大模型是近年人工智能领域的热门算法,其主要通过注意力机制来 分析关注元素之间的关系进而理解外部世界。早年被应用于自然语言处理领域,后 续延展到计算机视觉等多个方向。算法的优势显著:

具有更好的全局信息感知能力:Transformer 模型更关注图像特征之间的关 系,因此会跟多关注整个图像的信息,卷积神经网络更多关注固定大小区 域的局部信息,因此 Transformer 在面对图像中长程依赖性的问题拥有更好 的表现。


天花板高企适用于大规模数据训练场景:在图像识别能力方面,Transformer 拥有更高的上限,随着训练数据量的增长,传统 CNN 模型识别能力呈现饱 和态势,而 Transformer 则在数据量越大的情况下拥有更好的表现。而自动 驾驶洽洽为面向海量的数据场景,要求有足够好的精度的场景。

拥有多模态感知能力:Transformer 可实现多模态数据的处理,应对图像分 类、目标检测、图像分割功能,并实现对 3D 点云、图像等数据的融合处理。

灵活、较好的泛化性能:Transformer 可适用于不同大小的输入图像,同时 外部环境包含扰动的情况下仍能保持较好的检测性能。

但 CNN 网络在提取底层特征和视觉结构方面有比较大的优势,而在高层级的视 觉语义理解方面,需要判别这些特征和结构之间的如何关联而形成一个整体的物体, 采用 Transformer 更加自然和有效。同时 CNN 也拥有更好的效率,可以采用更低的 算力实现效果。因此业界通常会将 CNN 和 Transformer 结合来进行物体识别。


2.1.3、 特斯拉引领打开自动驾驶天花板

特斯拉的自动驾驶算法结构中,首先将摄像头信息无损采集,送入卷积神经网 络 Regnet 来提取不同尺度的图像特征,接着使用 BiFPN 进行特征融合,然后将这些 特征送入 Transformer 模块,利用 Transformer 中的多头注意力机制来实现 2D 图像特 征到三维向量空间的转换和多摄像头特征系信息的融合,之后接入不同的“头”如 交通标志检测、障碍物检测等,来实现不同任务的处落地,形成一套优雅的,可完 美实现数据驱动的感知算法。由于不同的“头”之间采用了共享的特征提取网络, 因此被特斯拉起名为“九头蛇”算法架构。


特斯拉的 BEV+Transformer 算法中两个环节尤为关键:

(1)2D 图像到 3D 空间的转换以及图像融合: 在 2D 图像到 3D 向量空间转换的环节,特斯拉在行业内首次引入了 Transformer。 具体而言,先构建一个想要输出的三维的栅格空间,并对其进行位置编码成为查询 向量(Query),然后将每个图像和自己的特征输出相应的查询键码(Key)和值(Value), 最终输入到注意力机制中输出想要的结果。类似于每个图像中的特征都广播自己是 什么物体的一部分,而每个输出空间的位置像素像拼图一样,寻找对应的特征,最 终构建出希望输出的向量空间。(Query、Key、Value 分别为 Transformer 算法中的参 数,通过将外部世界转化为参数而实现信息处理和任务输出)

(2)加入时序信息,让算法拥有“记忆”: 为了让自动驾驶算法拥有类似一段时间内“记忆”的能力,特斯拉在感知网络 架构中加入了时空序列特征层。通过引入惯性导航传感器获取的包含速度和加速度 等自车运动的信息,算法模型可获取时间和空间的记忆能力。具体而言,特斯拉给 算法加入特征队列模块(Feature Queue),他会缓存一些特征值(包含历史帧的 BEV 特征、惯导传感器信息等),便于了解车辆行动,这个序列包含时间和空间记忆。然 后引入视频模块(Video Module)使用空间循环神经网络(Spatial RNN)/transformer 等算法将前述缓存的特征进行融合,关联前后时刻信息,使得模型具有记忆能力, 让自动驾驶汽车将同时能够记住上一段时间和上一段位置的检测信息。

69f17650-1ffb-11ee-962d-dac502259ad0.png

2.1.4、 BEV+Transformer 大模型提供远强于传统自动驾驶算法的感知能力

(1)改善 2D-3D 空间转换过程中深度预测难点,感知性能大幅提升

引入 BEV+Transformer 后,模型对于 2D 空间向 3D 空间转换的精度大幅提高。 构建 BEV 模型一大重要任务是实现 2D 图片到 3D 空间的转换,通常业内有四大类 方式实现 2D-3D 视角转换:早期通常以基于相机内外参数(焦距、光芯、俯仰角、 偏航角和地面高度)的几何变换的 IPM(逆透视变换)实现,由于该方式基于地面 纯平、俯仰角一定的假设,约束条件实现难度高;后续英伟达推出 BEV 行业的开山 之作LSS算法,但由于其计算量庞大以及精度仍然有限,难以支撑BEV的真正落地; 其后学界业界探索了众多方案,包含基于神经网络,通过监督学习数据驱动实现 BEV 空间构建等方式,但深度估计的精度均不尽人意。2021 年,特斯拉首次将 Transformer 应用于 BEV 空间的构建,在多摄像头视角下,相比传统感知方式,大幅提升了感知 精度,该方案推出后也迅速被业界广泛追捧。

(2)完美实现多摄像头、多传感器的信息融合,极大方便后续规控任务

BEV+Transformer 实际上引入“特征级融合”(中融合)方式。通常自动驾驶汽 车拥有 6-8 个摄像头以及其他多种传感器,在感知过程中,需要将各类传感器的信息 进行融合。传感器融合大体可分为几大类:

数据级融合(前融合):直接将传感器采集的数据如图像和点云融合。该方 案优势在于数据损失少,融合效果好,但时间同步、空间同步要求达到像 素级别,难度较高,需要对每个像素计算,对算力消耗大,目前少有使用。

目标级融合(后融合):将每个传感器采集信息并处理后的目标进行融合。 该方案是此前自动驾驶主流采用的方案,被广泛应用于摄像头之间、不同 传感器之间的信息融合。优势在于算法简单、解耦性好即插即用。但也存 在致命问题,由于融合前的处理损失了大量关键信息,影响感知精度,融 合结果容易冲突或错误。此外后融合中的融合算法仍然基于规则,无法进 行数据驱动,存在局限性。

特征级融合(中融合):则将原始传感器采集的数据经过特征提取后再将特 征向量进行融合。该方案的优势在于,数据损失少、将目标“分解”为特 征,更容易在不同相机和传感器之间关联,融合效果好。在 BEV+transformer 算法中实际上均采用中融合的方式。

以路过大型卡车场景为例,障碍物某个时刻在 5 个摄像头中同时出现,且每个 摄像头只能观察到车的某个部分。传统算法通常会分别在每个摄像头内完成检测, 再融合各摄像头的结果。通过部分信息识别出卡车整体的特征及其困难,且一旦完 成物体检测,相当于“脑补”了看不到的部分,误差较大拼接困难,经常会识别为 多个目标或漏检。而 BEV+Transformer 通过特征级融合,完美生成鸟瞰视角下的场 景,并且识别精度更高。

(3)更易融入时序信息,模型拥有“记忆”,避免遮挡等问题

感知算法中,时序融合能够大幅提升算法连续性,对障碍物的记忆可解决遮挡 问题,更好的感知速度信息,对于道路标志的记忆可提升驾驶安全和对汽车车辆行 为预测的准确度,增强算法的可靠性和精度。在 BEV+transformer 算法中,由于所有 的感知被统一到 3D 鸟瞰图空间,通过将不同时间和不同位置的特征关联可很容易的 实现时序信息的融合。如在面对遮挡场景时,带有时序信息的自动驾驶算法感知效 果远优于基于单帧图像感知的算法。同时也更便于下游的规划控制算法实现对障碍 物的追踪。

(4)汽车拥有实时建图能力,摆脱对高精度地图的依赖

BEV+Transformer 算法可在车端实时构建媲美高精地图的高精度局部地图,能够 在任意常规道路条件下,实现自动驾驶所需的静态场景深刻理解,然后以此为基础, 端到端的输出障碍物的轨迹和速度、车道线信息等,实现复杂场景下的自动驾驶应 用,而不需要依赖高精地图。使得算法的泛化性大幅提升,成本也大幅下降。


2.2、 占用网络提供 3D 世界感知,形成通用障碍物识别能力

占用网络构建通用障碍物感知体系,提升对未知物体感知效果。直接在矢量空 间产生统一的体积占用数据,对于车子周围任意的一个 3D 位置,它预测了该位置被 占用的概率,对每个位置它还会产生一定的语义信息比如路边、汽车、行人、或者路上的碎片等等,用不同的颜色标出,同时观测速度信息,形成“占用栅格”+“栅 格流(描述速度信息)”+弱语义的表达形式。对特斯拉而言,即将原有 Transformer 算法输出的 2DBEV+时序信息的向量空间增加高度信息,形成 3DBEV+时序信息的 4D 空间表达形式。网络在 FSD 上每 10ms 运行一次,即以 100FPS 的速度运行,模 型检测速度大幅提升。

占用网络优势显著:(1)其改变了神经网络算法先“认识”才能“识别”的特 性,形成了动静态物体统一的障碍物感知方式,可大幅减少 Corner case,提升安全 性。(2)摆脱检测框的约束,对不规则外形障碍物的感知能力大大增强。(3)对特 斯拉来说,通用障碍物感知能力可以复用到其他产品如机器人上,形成了统一的算 法框架。

占用网络的构建并非单独算法上得演进,而是体系能力的提升。3D 空间的距离 真值获取实际上较为困难,即使拥有激光雷达,其稀疏的点云信息仍然难以满足占 用网络的训练需求,而由于仿真环境中距离真值信息可以直接获取,因此占用网络 的构建几乎和强大的仿真场景构建相辅相成。


2.3、 规控算法由基于规则迈向基于神经网,大模型开始崭露头角

2.3.1、 人工智能逐步渗透进入规控算法

发力安全性、舒适性和效率,规控算法成为当前头部玩家主攻方向。人能够基 于非常有限的感知信息完美实现驾驶行为,很大程度因为人类拥有强大的“规控” 能力。对自动驾驶而言,采取一种让安全性、舒适性和效率都达到最大化的驾驶策 略无疑是各大厂商不懈追求的目标。而该环节也直接决定了自动驾驶功能的消费者 体验,目前头部玩家已经将主攻方向转移到规控算法领域。

6a17c24c-1ffb-11ee-962d-dac502259ad0.png

“拟人化”、强泛化性,人工智能推动自动驾驶“老司机”上线。规控算法的难 度较高,存在诸多非确定(如辅路与干道没有绿化带隔离,辅路的车辆可随时进入 干道)、强交互(如多个物体在同一场环境下决策会相互影响,存在一定博弈性)、 强主观(如驾驶员的驾驶风格,很难用有限标准量化表示)的场景。同时涉及交通 法规等一系列问题。早年的算法通常采用基于专家知识和规则的模式为主,由于基 于规则的系统需要不断补充新的规则以实现对各类环境的良好应付,日积月累代码 量庞大,占用算力资源,且不易维护。因此依靠数据驱动的基于人工智能的规控算 法日益走向台前。面对复杂的外部环境,人工智能模型能够更加平滑的以“类人”的 方式对驾驶行为进行处理,泛化能力强、舒适性好,应对复杂场景的能力大幅提升。


兼顾“安全”和“性能”,神经网络和基于规则结合有望成为一段时期内规控算 法的主流。小鹏汽车自动驾驶负责人吴新宙曾表示,基于大数据和深度学习的算法 在规控领域的渗透会越来越深,预计未来整个框架都将基于深度学习为基础,但基 于规则的算法也会长期存在,因为规控算法的可解释性很重要。基于神经网络的规控算法有诸多优势,但目前如训练过程中数据的清洗、一致性;面向一些小场景特 定的算法调整;可解释性差等问题仍客观存在。因此诸多玩家目前仍采用以人工智 能和基于规则结合的方式来部署规控算法,制定一些规则来对人工智能产生的行为 进行兜底,实现较好的规控效果,未来随着人工智能能力的提升,规控算法人工智 能化已经成为大势所趋。 交互搜索+评估模型,特斯拉规控算法行止有效。在规控方面,特斯拉采用交互 搜索+评估模型的方式实现舒适、有效以及传统搜索算法和人工智能的结合的算法。 具体如下:(1)决策树生成:首先根据车道线、占用网络、障碍物等得到候选目标, 生成一些候选目标;(2)轨迹规划:通过传统搜索和神经网络的方式同步构建抵达 上述目标的轨迹;(3)交互决策:预测自车以及场景中其他参与者之间的相互作用, 形成新的轨迹,经过多次评估选择最后轨迹。在轨迹生成阶段,特斯拉采用了基于 传统搜索算法和基于神经网络两种形式,之后根据碰撞检查、舒适性分析、驾驶员 接管可能性和与人的相似程度等对生成的轨迹打分,决定走哪条路线。基于这种方 式有效的将道路参与者的博弈考虑在内,同时完美将基于规则和基于人工智能结合, 呈现出强大竞争力。


2.3.2、 大模型赋能,车道线预测等复杂任务得以实现

复杂道路的车道拓普结构识别难度较高。自动驾驶车辆在行驶过程中需要明确 自车的道路情况和车道线拓扑情况,以此来决定如何规划自己的行驶轨迹。但当车 道线模糊,或者十字路口等场景下,需要算法自己计算出车道线情况,来指导自身 的自动驾驶行为。我们看到一些玩家针对这样的场景做出了优化,来完美应对各类 突发情况,产业算法不断进化和成熟。


特斯拉采用训练语言模型的形式来训练车道线网络模型。车道线网络实际上是 嫁接在感知网络上的一个 Transformer 的解码器(Decoder)。参考自然语言处理任务 中的形式,让模型用自回归(综合上个环节的结果输出下个环节的内容)的方式输 出车道线的预测结果。具体而言,将车道线包含节点位置、节点属性(起点、终点、 中间点等)、分叉点、交叉点等进行编码,形成类似语言模型中单词的属性,输入 Transformer 解码器中,将信息转化成为“车道线语言”,去生成下个阶段的结果,进 而形成整个路网的车道线的拓扑结构。


理想汽车在理想家庭日上也展示了其用于增强路口性能的算法 NPN 神经先验 网络。为了解决大模型在十字路口不稳定的问题,对复杂路口,提前进行路口的特 征提取和存储,当车辆再次行驶到路口时刻,将过去提取好的特征和 BEV 感知大模 型融合,形成更加完美的感知结果。


2.4、 端到端(感知决策一体化):大模型为自动驾驶彻底实现带来希望

2.4.1、 回归自动驾驶第一性原理,端到端自动驾驶成为市场远期共识

模块化的自动驾驶算法设计存在诸多问题。前述文章中提到的感知、预测、规 划等环节的算法称为模块化算法设计,这些方案中每个模块独立负责单独的子任务, 这种方案具备简化研发团队分工,便于问题回溯,易于调试迭代等优点。但由于将 不同任务解耦,各个模块之间容易产生信息损失问题,且多个模块间优化目标不一 致,最后模块间产生的误差会在模型中传递。 端到端自动驾驶解决方案回归自动驾驶第一性原理。因此业界也一直在探索端 到端的自动驾驶算法形式,即设计一个算法模型,直接输入传感器感知的信息,输 出控制结果。端到端的自动驾驶算法拥有非常明显的优势:(1)其遵循了自动驾驶 的第一性原理:即无论感知、规划、决策模块如何设计,最终是为了实现更好的自 动驾驶效果,因此现有的方法聚焦单独某个模块的优化,对整体的效果提升未必有 效。(2)端到端的方式可避免极联误差,去掉冗余信息,提升视觉信息的表达。(3) 传统模块化的算法中需要面临模型之间的多个编解码环节,带来的计算的冗余浪费。 (4)规则驱动彻底转变为数据驱动,理想状态下让汽车自动驾驶模型训练变得简洁。


2.4.2、 工业界已经开启探索,迈向完全自动驾驶

目前全球无论学术界还是工业界均对该方案进行了不懈探索。如英伟达 2016 年 即提出端到端的自动驾驶解决方案,而 Uber 更多次发相关的论文探索有关算法。最新的 CVPR2023 上商汤、OpenDriveLab、地平线等联合发布的端到端的自动驾驶算 法 UniAD,获得了当年的最佳论文。其采用 Transformer 将感知、决策、规划、控制 模块都融入到一个模型中,端到端的处理自动驾驶问题,能够呈现出最佳的运行效 果。

目前英国初创公司 Wayve 亦致力于开发端到端的自动驾驶系统,致力于让汽车 通过自己的计算机视觉平台“自己看世界”,同时可以根据它所看到的东西做出自己 的决定。马斯克也曾在推特上表示,其 FSD V12 版本将是一个端到端的自动驾驶模 型。


2.4.3、 大模型的思考,自动驾驶或许并非终点

通识知识和强泛化能力助力人类轻松学会驾驶。人类可以在短时间内学会驾驶, 但机器则需要海量的数据和训练。可能的原因在于人类在学习驾驶之前就已经充分 对整个世界有了全面的认知,并可以将这些认识泛化到各类场景下。如在学校附近 应该减速、遇到老人应当小心等,面对形状怪异的红绿灯人类几乎不加思考就可理 解其想表达的意思。通识知识,强泛化能力可以对自动驾驶行为产生重大帮助。 GPT 受到市场追捧,也引发了自动驾驶界对模型构建方式的思考。前文提到的 英国公司 Wayve 亦在尝试构建一个世界模型,通过使用与驾驶本身无关的数据,如 一些文本数据预训练模型进而提升模型的驾驶性能。此外,公司亦在尝试将自动驾 驶模型和自然语言结合,让自动驾驶模型能够描述自己的行为,进而增强模型的性能和可解释性。国内毫末智行等也在做出相应的尝试,建立大参数的模型,并将海 量驾驶场景编码成语料,投喂给模型进行无监督学习,接着再加入人类反馈强化学 习帮助其掌握驾驶员的行为,进而让模型拥有接近人的自动驾驶能力。大语言模型 的风靡也让市场对自动驾驶模型构建的方式有了新的想象空间,DriveGPT 未尝不是 一种可以尝试的方向。

6a35b4d2-1ffb-11ee-962d-dac502259ad0.png

世界模型浮上水面,面向通用场景,解决通用问题。在最新的 CVPR2023 会议 上,特斯拉提出了世界模型,即构建一个模型,可观察所有需要观察的事物,并将 其转化为向量空间,链接各类丰富的下游任务。该模型不止用于汽车,还可用于机 器人等等嵌入式人工智能场景。通过该模型可预测未来、构建仿真场景,通过语言 提示,让它生成各类场景如直行、向右变道等。

文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。