近日,OpenAI宣布推出生成式人工智能模型Sora,外界普遍认为,这是AI视频生成的全新里程碑时刻。仅需只言片语,Sora就可以给你输出一段最长60秒的视频,并且能够全程保持高度的流畅性与稳定性,实现了对Runway、Stable Video、Pika等生成式AI的超越。值得一提的是,Sora还能够根据静态图像扩展成一段视频或补充缺失的动态帧。真赋能也好,蹭热度也罢,一时间整个行业都在围着AI转,也在开始认真思考,更先进的AI技术能够为他们带来什么不一样的应用场景。站在汽车行业的角度,Sora等更超前的大模型是否能助力智能驾驶的真正落地,其中最先从大模型获益的当属感知模块,本文想从大模型助力感知的表达来一探Sora将带给智驾领域的革命。
感知表示的多样性
感知的表达形式是多种多样的,在现如今的主流自动驾驶框架中,感知物体的表达形式往往分为以下几类:
一是通过bounding box的形式来表示。对于常规物体例如交通流中的车辆,行人,自行车等等,Box的表达已经完全可以胜任,且具备高度抽象和简洁的优势。但当我们谈论到高级别自动驾驶,我们需要关心的是一切不可碰撞物体,其包含了栅栏、非刚体车、异形/未知类别物体、遗落的木头块等,Box并不能总适应这样的物体,尤其在狭窄路段,box的表示往往会过于保守,导致车辆行为笨拙。
那么如果用polygon的形式是否就可以呢?相较于box,polygon的表达可以几乎不丢信息地完成障碍物的形状表达,同时兼备了抽象和简洁的性质,但与此同时由于其是在连续空间中的表达,对算力的要求非常高,因此较难以落地。
那么是否可以结合一下离散空间与连续空间的表达形式,对两方都有一定的妥协呢?Tesla的Occupancy Network便给出了一个很好的结合样例。基于Grid的表示,能从本质上解决目前感知完备性的问题,从激进的角度,甚至可能代替掉Box的表示。而这一形式的推出,也立即成为了各家自动驾驶企业的效仿对象,不仅在论文刷榜中取得了优异的成绩,也在实车落地上取得了迄今为止最好的表现。但与此同时我们不禁想问,Occupancy Grid已然是最好的感知表达形式了吗?难道这个讨论了十几年的问题已经有了最终答案,没有再改进的空间了吗?
下游规控的易用性
我们知道,感知想要完备地从各个传感器的输入中,提取出想要的物体,并将其进行语义上的融合是一项非常困难的任务,也在困扰着诸多的业界从业人员。其中非常大的一项挑战便是,在信息的处理传递过程中,肯定会存在信息的损失。而这种信息的损失最终也会造成下游决策规控的出错。而要想解决这一问题,最好的方式便是以规控的目标作为代价函数,来优化感知的输出形式。
一直以来,模块化处理复杂问题的最大劣势便是信息的丢失问题,而端到端想要解决的便是彻底消除此间丢失的信息。通常,模块化系统被称为中间范式,并被构建为离散组件的管道,连接传感器输入和运动输出。模块化系统的核心过程包括感知、定位、建图、规划和车辆控制。模块化流水线首先将原始传感器数据输入到感知模块,用于障碍物检测,并通过定位模块进行定位。随后进行规划和预测,以确定车辆的最佳和安全行程。最后控制器生成安全操纵的命令。
另一方面,直接感知或端到端驱动直接从传感器输入输出自车运动。它优化了驾驶管道,绕过了与感知和规划相关的子任务,允许像人类一样不断学习感知和行动。端到端驾驶基于传感器输入输出自车运动,这种运动可以是各种形式的。然而,最突出的是相机、LiDAR、导航命令、和车辆动力学,如速度。这种感知信息被用作主干模型的输入,主干模型负责生成控制信号。自车运动可以包含不同类型的运动,如加速、转弯、转向和蹬踏。此外,许多模型还输出附加信息,例如安全机动的成本图、可解释的输出或其他辅助输出。但整个系统过于庞大,并缺少一个整体的优化目标,使得端到端无法真正落地产生效果。随着UniAD的提出,以planning的目标作为整个系统的优化导向,并分模块对各个子系统进行打分,给从业者们一个新的思考方向。
Sora助力端到端落地
OpenAI表示,Sora在训练当中表现出了与其它模型不同的涌现能力,通过涌现学习到了物品的时间与空间的相关性,以及与周围世界互动的能力等。简单来说,Sora不单止是拥有感知世界运行法则的能力,它还可以判断不同事物之间的关系,拥有发散思考的技能。智能汽车当中的智能驾驶能力也是训练AI模型得出的结果。当前汽车智能驾驶分为感知、定位、决策、规划、控制几个模块,每个部分紧密配合,最终实现精确的智能驾驶。智能驾驶的不同模块,目前都需要单独训练,训练量庞大,研发人员要通过不断地“喂数据”优化迭代,所带来的沉没成本自然巨大。
人在驾驶汽车的时候,很多判断都是基于对这个世界的理解,比如对方的速度、会否发生碰撞、碰撞的严重性如何。这就是当前智能驾驶与真人司机之间的区别。
但Sora对世界的感知和交互能力,并不是单纯的数据堆叠就能实现的。想要提高自动驾驶的研发和运行效率,人为优化迭代是必须,更重要的还是要让AI具备自主发散,缩短迭代周期,将交互能力赋能到现有的智驾模型当中,更接近人类的驾驶体验或许就此诞生。
但与此同时,端到端的落地也伴随着相当多的挑战。首先是神经网络的可解释性问题。可以想象,如果自动驾驶的车辆调试时出现安全问题,工程师们在排查问题时可不能说一句:“需要多采集点数据,问题便可能得到解决”就能够应付的。事关性命安全问题,需要的是像汽车行业几百年累积的经验一般,要保障每辆车的安全性,这里容不得概率与可能性作祟。
其次便是用户的接受程度。在自动驾驶的过程中,用户肯定希望能看到这辆车的行为,好对行进状况有个心理预期。而传统的分模块方案,感知的表达可以通过各种各样的形式可视化出来,但端到端却不具备这样的能力,其更像是一个黑盒。在这种情况下,销售如何向用户保证这套系统的安全都是没有说服力的,用户的接受程度将会成为落地上真正困难的一环。
在过去的几年里,由于与传统的模块化自动驾驶相比,端到端自动驾驶的设计简单,人们对它产生了浓厚的兴趣。在端到端驾驶研究呈指数级增长的推动下,越来越多的感知表达形式被提出,人们也希望在端到端的框架下,实现一种更加完备的感知表示方案,在保障规控接收到足够信息的同时,也减轻感知对于算力的依赖负担。而Sora的爆火相信也会给智驾行业指明一条全新的道路。
相关文章