爆火的Sora将给自动驾驶带来怎样的改变?

发布时间:2024-03-01  

近日,OpenAI宣布推出生成式人工智能模型Sora,外界普遍认为,这是AI视频生成的全新里程碑时刻。仅需只言片语,Sora就可以给你输出一段最长60秒的视频,并且能够全程保持高度的流畅性与稳定性,实现了对Runway、Stable Video、Pika等生成式AI的超越。值得一提的是,Sora还能够根据静态图像扩展成一段视频或补充缺失的动态帧。真赋能也好,蹭热度也罢,一时间整个行业都在围着AI转,也在开始认真思考,更先进的AI技术能够为他们带来什么不一样的应用场景。站在汽车行业的角度,Sora等更超前的大模型是否能助力智能驾驶的真正落地,其中最先从大模型获益的当属感知模块,本文想从大模型助力感知的表达来一探Sora将带给智驾领域的革命。


感知表示的多样性


感知的表达形式是多种多样的,在现如今的主流自动驾驶框架中,感知物体的表达形式往往分为以下几类:


一是通过bounding box的形式来表示。对于常规物体例如交通流中的车辆,行人,自行车等等,Box的表达已经完全可以胜任,且具备高度抽象和简洁的优势。但当我们谈论到高级别自动驾驶,我们需要关心的是一切不可碰撞物体,其包含了栅栏、非刚体车、异形/未知类别物体、遗落的木头块等,Box并不能总适应这样的物体,尤其在狭窄路段,box的表示往往会过于保守,导致车辆行为笨拙。


那么如果用polygon的形式是否就可以呢?相较于box,polygon的表达可以几乎不丢信息地完成障碍物的形状表达,同时兼备了抽象和简洁的性质,但与此同时由于其是在连续空间中的表达,对算力的要求非常高,因此较难以落地。


那么是否可以结合一下离散空间与连续空间的表达形式,对两方都有一定的妥协呢?Tesla的Occupancy Network便给出了一个很好的结合样例。基于Grid的表示,能从本质上解决目前感知完备性的问题,从激进的角度,甚至可能代替掉Box的表示。而这一形式的推出,也立即成为了各家自动驾驶企业的效仿对象,不仅在论文刷榜中取得了优异的成绩,也在实车落地上取得了迄今为止最好的表现。但与此同时我们不禁想问,Occupancy Grid已然是最好的感知表达形式了吗?难道这个讨论了十几年的问题已经有了最终答案,没有再改进的空间了吗?


下游规控的易用性


我们知道,感知想要完备地从各个传感器的输入中,提取出想要的物体,并将其进行语义上的融合是一项非常困难的任务,也在困扰着诸多的业界从业人员。其中非常大的一项挑战便是,在信息的处理传递过程中,肯定会存在信息的损失。而这种信息的损失最终也会造成下游决策规控的出错。而要想解决这一问题,最好的方式便是以规控的目标作为代价函数,来优化感知的输出形式。


一直以来,模块化处理复杂问题的最大劣势便是信息的丢失问题,而端到端想要解决的便是彻底消除此间丢失的信息。通常,模块化系统被称为中间范式,并被构建为离散组件的管道,连接传感器输入和运动输出。模块化系统的核心过程包括感知、定位、建图、规划和车辆控制。模块化流水线首先将原始传感器数据输入到感知模块,用于障碍物检测,并通过定位模块进行定位。随后进行规划和预测,以确定车辆的最佳和安全行程。最后控制器生成安全操纵的命令。


另一方面,直接感知或端到端驱动直接从传感器输入输出自车运动。它优化了驾驶管道,绕过了与感知和规划相关的子任务,允许像人类一样不断学习感知和行动。端到端驾驶基于传感器输入输出自车运动,这种运动可以是各种形式的。然而,最突出的是相机、LiDAR、导航命令、和车辆动力学,如速度。这种感知信息被用作主干模型的输入,主干模型负责生成控制信号。自车运动可以包含不同类型的运动,如加速、转弯、转向和蹬踏。此外,许多模型还输出附加信息,例如安全机动的成本图、可解释的输出或其他辅助输出。但整个系统过于庞大,并缺少一个整体的优化目标,使得端到端无法真正落地产生效果。随着UniAD的提出,以planning的目标作为整个系统的优化导向,并分模块对各个子系统进行打分,给从业者们一个新的思考方向。


Sora助力端到端落地


OpenAI表示,Sora在训练当中表现出了与其它模型不同的涌现能力,通过涌现学习到了物品的时间与空间的相关性,以及与周围世界互动的能力等。简单来说,Sora不单止是拥有感知世界运行法则的能力,它还可以判断不同事物之间的关系,拥有发散思考的技能。智能汽车当中的智能驾驶能力也是训练AI模型得出的结果。当前汽车智能驾驶分为感知、定位、决策、规划、控制几个模块,每个部分紧密配合,最终实现精确的智能驾驶。智能驾驶的不同模块,目前都需要单独训练,训练量庞大,研发人员要通过不断地“喂数据”优化迭代,所带来的沉没成本自然巨大。


人在驾驶汽车的时候,很多判断都是基于对这个世界的理解,比如对方的速度、会否发生碰撞、碰撞的严重性如何。这就是当前智能驾驶与真人司机之间的区别。


但Sora对世界的感知和交互能力,并不是单纯的数据堆叠就能实现的。想要提高自动驾驶的研发和运行效率,人为优化迭代是必须,更重要的还是要让AI具备自主发散,缩短迭代周期,将交互能力赋能到现有的智驾模型当中,更接近人类的驾驶体验或许就此诞生。


但与此同时,端到端的落地也伴随着相当多的挑战。首先是神经网络的可解释性问题。可以想象,如果自动驾驶的车辆调试时出现安全问题,工程师们在排查问题时可不能说一句:“需要多采集点数据,问题便可能得到解决”就能够应付的。事关性命安全问题,需要的是像汽车行业几百年累积的经验一般,要保障每辆车的安全性,这里容不得概率与可能性作祟。


其次便是用户的接受程度。在自动驾驶的过程中,用户肯定希望能看到这辆车的行为,好对行进状况有个心理预期。而传统的分模块方案,感知的表达可以通过各种各样的形式可视化出来,但端到端却不具备这样的能力,其更像是一个黑盒。在这种情况下,销售如何向用户保证这套系统的安全都是没有说服力的,用户的接受程度将会成为落地上真正困难的一环。


在过去的几年里,由于与传统的模块化自动驾驶相比,端到端自动驾驶的设计简单,人们对它产生了浓厚的兴趣。在端到端驾驶研究呈指数级增长的推动下,越来越多的感知表达形式被提出,人们也希望在端到端的框架下,实现一种更加完备的感知表示方案,在保障规控接收到足够信息的同时,也减轻感知对于算力的依赖负担。而Sora的爆火相信也会给智驾行业指明一条全新的道路。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    化功能。随着汽车获得更多的自主权,它们需要具备理解道路情况及其所有复杂性的能力,以确保安全行驶。 这就是为什么自动驾驶汽车开发用的时间比预期要长的主要原因之一。在传统汽车中,人类预先配备了一个视觉系统(眼睛......
    多数情况下,自动驾驶汽车与人类驾驶员的反应方式相同,特别是当其试图“避开危险或困难路段”,以及执行其他导航和路线规划任务时。该公司表示,目前没有办法确认自动驾驶汽车如何影响其他驾驶员。 正如......
    一些“另类”研究,试图让自动驾驶汽车能模仿人类。 L5自动驾驶为什么遥不可及? 2018年,谷歌旗下Waymo称,利用神经网络技术自动驾驶汽车能够像人脑一样思考,母公......
    老司机驾车技术解析:为什么自动驾驶不是无人驾驶?;  最近,身边许多不明真相但是却比较土豪的朋友都在问我一个类似的问题,那就是在买车的时候,总是看到一些类似于辅助驾驶自动驾驶一类的概念。如果......
    是今年还被称为激光雷达元年,可见传感器如今在自动驾驶中的特殊地位,那么自动驾驶汽车究竟需要怎与的传感器呢? 01 自动驾驶汽车所需要的传感器 想要知道自动驾驶汽车所需要怎样的传感器,首先就得弄清楚它需要哪些传感器,而想......
    自动驾驶汽车如何上路?北京出招了!;国际电子商情9日讯 近日,北京市经信局就《北京市自动驾驶汽车条例(征求意见稿)》(以下简称《征求意见稿》)对外征求意见。北京拟支持自动驾驶汽车用于城市公共电汽车......
    制电源、总体消耗和散热。 03 自动驾驶汽车的五大挑战 今天,经过50多年的不断研发,我们看到无人驾驶汽车已经成为现实。尽管如此,在为无人驾驶汽车设计一个完全自主的系统方面仍有很多挑战。 1.道路......
    还需要在日常行驶时做出道德决策。 例如,如果每辆车的车速都超出限速10公里,自动驾驶汽车是否也应该超速?自动驾驶汽车如何知道何时需要主动汇入没有让行的繁忙车流?如果两辆自动驾驶汽车在树林里相撞,在没......
    高语速加有趣图文的短片解释一个小概念而出名。最近他以一条名为“解决塞车的简单方法”短片,为大家详细介绍了关于塞车和自动驾驶汽车的小知识。 ▲ 完整动画解说,附有详尽的中文字幕 为什么会塞车? 塞车有很多原因形成,排除......
    高语速加有趣图文的短片解释一个小概念而出名。最近他以一条名为“解决塞车的简单方法”短片,为大家详细介绍了关于塞车和自动驾驶汽车的小知识。 ▲ 完整动画解说,附有详尽的中文字幕 为什么会塞车? 塞车有很多原因形成,排除......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>