爆火的Sora将给自动驾驶带来怎样的改变?

发布时间:2024-03-01  

近日,OpenAI宣布推出生成式人工智能模型Sora,外界普遍认为,这是AI视频生成的全新里程碑时刻。仅需只言片语,Sora就可以给你输出一段最长60秒的视频,并且能够全程保持高度的流畅性与稳定性,实现了对Runway、Stable Video、Pika等生成式AI的超越。值得一提的是,Sora还能够根据静态图像扩展成一段视频或补充缺失的动态帧。真赋能也好,蹭热度也罢,一时间整个行业都在围着AI转,也在开始认真思考,更先进的AI技术能够为他们带来什么不一样的应用场景。站在汽车行业的角度,Sora等更超前的大模型是否能助力智能驾驶的真正落地,其中最先从大模型获益的当属感知模块,本文想从大模型助力感知的表达来一探Sora将带给智驾领域的革命。


感知表示的多样性


感知的表达形式是多种多样的,在现如今的主流自动驾驶框架中,感知物体的表达形式往往分为以下几类:


一是通过bounding box的形式来表示。对于常规物体例如交通流中的车辆,行人,自行车等等,Box的表达已经完全可以胜任,且具备高度抽象和简洁的优势。但当我们谈论到高级别自动驾驶,我们需要关心的是一切不可碰撞物体,其包含了栅栏、非刚体车、异形/未知类别物体、遗落的木头块等,Box并不能总适应这样的物体,尤其在狭窄路段,box的表示往往会过于保守,导致车辆行为笨拙。


那么如果用polygon的形式是否就可以呢?相较于box,polygon的表达可以几乎不丢信息地完成障碍物的形状表达,同时兼备了抽象和简洁的性质,但与此同时由于其是在连续空间中的表达,对算力的要求非常高,因此较难以落地。


那么是否可以结合一下离散空间与连续空间的表达形式,对两方都有一定的妥协呢?Tesla的Occupancy Network便给出了一个很好的结合样例。基于Grid的表示,能从本质上解决目前感知完备性的问题,从激进的角度,甚至可能代替掉Box的表示。而这一形式的推出,也立即成为了各家自动驾驶企业的效仿对象,不仅在论文刷榜中取得了优异的成绩,也在实车落地上取得了迄今为止最好的表现。但与此同时我们不禁想问,Occupancy Grid已然是最好的感知表达形式了吗?难道这个讨论了十几年的问题已经有了最终答案,没有再改进的空间了吗?


下游规控的易用性


我们知道,感知想要完备地从各个传感器的输入中,提取出想要的物体,并将其进行语义上的融合是一项非常困难的任务,也在困扰着诸多的业界从业人员。其中非常大的一项挑战便是,在信息的处理传递过程中,肯定会存在信息的损失。而这种信息的损失最终也会造成下游决策规控的出错。而要想解决这一问题,最好的方式便是以规控的目标作为代价函数,来优化感知的输出形式。


一直以来,模块化处理复杂问题的最大劣势便是信息的丢失问题,而端到端想要解决的便是彻底消除此间丢失的信息。通常,模块化系统被称为中间范式,并被构建为离散组件的管道,连接传感器输入和运动输出。模块化系统的核心过程包括感知、定位、建图、规划和车辆控制。模块化流水线首先将原始传感器数据输入到感知模块,用于障碍物检测,并通过定位模块进行定位。随后进行规划和预测,以确定车辆的最佳和安全行程。最后控制器生成安全操纵的命令。


另一方面,直接感知或端到端驱动直接从传感器输入输出自车运动。它优化了驾驶管道,绕过了与感知和规划相关的子任务,允许像人类一样不断学习感知和行动。端到端驾驶基于传感器输入输出自车运动,这种运动可以是各种形式的。然而,最突出的是相机、LiDAR、导航命令、和车辆动力学,如速度。这种感知信息被用作主干模型的输入,主干模型负责生成控制信号。自车运动可以包含不同类型的运动,如加速、转弯、转向和蹬踏。此外,许多模型还输出附加信息,例如安全机动的成本图、可解释的输出或其他辅助输出。但整个系统过于庞大,并缺少一个整体的优化目标,使得端到端无法真正落地产生效果。随着UniAD的提出,以planning的目标作为整个系统的优化导向,并分模块对各个子系统进行打分,给从业者们一个新的思考方向。


Sora助力端到端落地


OpenAI表示,Sora在训练当中表现出了与其它模型不同的涌现能力,通过涌现学习到了物品的时间与空间的相关性,以及与周围世界互动的能力等。简单来说,Sora不单止是拥有感知世界运行法则的能力,它还可以判断不同事物之间的关系,拥有发散思考的技能。智能汽车当中的智能驾驶能力也是训练AI模型得出的结果。当前汽车智能驾驶分为感知、定位、决策、规划、控制几个模块,每个部分紧密配合,最终实现精确的智能驾驶。智能驾驶的不同模块,目前都需要单独训练,训练量庞大,研发人员要通过不断地“喂数据”优化迭代,所带来的沉没成本自然巨大。


人在驾驶汽车的时候,很多判断都是基于对这个世界的理解,比如对方的速度、会否发生碰撞、碰撞的严重性如何。这就是当前智能驾驶与真人司机之间的区别。


但Sora对世界的感知和交互能力,并不是单纯的数据堆叠就能实现的。想要提高自动驾驶的研发和运行效率,人为优化迭代是必须,更重要的还是要让AI具备自主发散,缩短迭代周期,将交互能力赋能到现有的智驾模型当中,更接近人类的驾驶体验或许就此诞生。


但与此同时,端到端的落地也伴随着相当多的挑战。首先是神经网络的可解释性问题。可以想象,如果自动驾驶的车辆调试时出现安全问题,工程师们在排查问题时可不能说一句:“需要多采集点数据,问题便可能得到解决”就能够应付的。事关性命安全问题,需要的是像汽车行业几百年累积的经验一般,要保障每辆车的安全性,这里容不得概率与可能性作祟。


其次便是用户的接受程度。在自动驾驶的过程中,用户肯定希望能看到这辆车的行为,好对行进状况有个心理预期。而传统的分模块方案,感知的表达可以通过各种各样的形式可视化出来,但端到端却不具备这样的能力,其更像是一个黑盒。在这种情况下,销售如何向用户保证这套系统的安全都是没有说服力的,用户的接受程度将会成为落地上真正困难的一环。


在过去的几年里,由于与传统的模块化自动驾驶相比,端到端自动驾驶的设计简单,人们对它产生了浓厚的兴趣。在端到端驾驶研究呈指数级增长的推动下,越来越多的感知表达形式被提出,人们也希望在端到端的框架下,实现一种更加完备的感知表示方案,在保障规控接收到足够信息的同时,也减轻感知对于算力的依赖负担。而Sora的爆火相信也会给智驾行业指明一条全新的道路。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>