自动驾驶大模型,千万别入戏太深

发布时间:2024-02-06  

美国的CES展,长久以来都是人们观察全球科技风向的一个重要风向标。在2024年的CES展上,两位人工智能领域的专家,李飞飞和吴恩达做了一场对谈,在这场谈话中,他们提及了一个足以影响自动驾驶行业的关键点。


自动驾驶大模型,千万别入戏太深


那就是,AI大模型开始从“大语言模型”向“大视觉模型”的转变,AI大模型不但能理解语言,还能生成图像,还有对图像进行分析,让计算机更好地理解图像的含义,从而给自动驾驶带来质的飞跃。


对此,本文分为两部分:


为什么李飞飞和吴恩达会说“大视觉模型”将给自动驾驶带来质的飞跃?


为什么我们对自动驾驶的AI大模型别入戏太深?


大视觉模型会带来颠覆性革命吗?


当一个人驾驶车辆时,不是简单地把着方向盘,控制着油门和刹车,还要处理很多复杂的事情。


你要看交通信号,你要看各种路边的标志物,你要判断路上有什么东西。如果前面路上有一只小鸭子在慢慢走,你得踩刹车;但是如果是一只鸟,你可以想象车开过去它就会飞走,你就不用减速。如果路上有个塑料袋,你可以直接碾压过去;但如果那是个石头,你就必须绕着走。


你对路面状况有深刻的理解,这种理解和你的生活阅历、和你平时积累的经验有关。最起码你得知道塑料袋是什么,石头是什么,鸟是什么,但汽车并不知道。


要想让汽车知道这些东西,那这背后涉及的技术可太难了。现有的图形识别能力,哪怕把障碍物换个角度,计算机都看不出来。更何况人的路面知识无穷无尽,你根本就没办法把每个知识都告诉计算机,而它自己根本没有思考能力。


当下,自动驾驶搞的都是狭义AI,走的是机器学习的路线。计算机把路上的所有物体,包括建筑物、其他的车、行人都当成是三维模型,它不再试图理解这些物体。


自动驾驶大模型,千万别入戏太深


计算机只关心这些物体的移动趋势,估算每个物体的速度,预测它的路线,看看跟车的路线会不会发生冲突,如果有冲突就踩刹车或者绕着走。


然而,真实的路面上会有各种意外。Google一直在训练自动驾驶技术,他们遇到过各种各样奇怪的情况。有一次有几个小孩在高速公路上在玩青蛙。还有一次,一个残疾人,坐着电动轮椅,在路中间追逐一只鸭子,鸭子绕圈跑,她也绕着圈追。那你说像这种情况你能一下子就准确预测这些人的行动路线吗?自动驾驶汽车识别路边的物体,都是靠把激光打到各种东西上再反射回来。可如果在下雪或者下雨,激光可能打到雪花或者雨滴上反射,汽车就可能对周围物体有重大误判。


计算机能不能保证看懂路边标记限速、慢行的交通标志牌?图形识别技术非常难,曾经,Google自动驾驶技术把奥巴马夫人米歇尔给识别成一只猩猩,贻笑大方,而且假如标志牌有损坏,或者上面被人贴了小广告,那汽车就很可能无法识别。


2016年,一个特斯拉车主违反规定,把车完全交给自动驾驶,结果因为汽车没有识别出来前面的一辆白色卡车,它可能以为那是天上的白云或者别的什么东西,司机当场死亡。当然这是司机犯了错误,但这恰恰也说明自动驾驶技术非常容易遭遇意外。


但是,“大视觉模型”却可能改变这一切 。


2023年9月,OpenAI发布了测试版的GPT—4V,能看懂图片,能解读电子竞技比赛。也就是说,GPT对图像和视频中的各种事物有了很强的理解能力,在测试中,让GPT—4V看不同驾驶场景的图像和视频都获得了惊人的突破,表现出了超越现有自动驾驶系统的潜力。

自动驾驶大模型,千万别入戏太深


而且,不只是识别数据,大模型还能生成自动驾驶数据。比如,一家来自英国的自动驾驶公司Wayve就做出了尝试,他们开发了一个名叫GAIA-1的生成式AI模型,人们输入视频和文本,AI就会根据需求创建逼真的驾驶视频。


GAIA-1可以学习和理解有关驾驶的很多概念,包括汽车、行人、道路布局、交通灯、建筑物等等,能够生成很多复杂路况,对走视觉路线的自动驾驶系统非常有帮助。


值得一提的是,来自UC伯克利和约翰斯·霍普金斯大学的研究人员,提出了一种全新的建模方法,可以在不使用任何语言数据的情况下,训练大视觉模型。


简单来说,就是大视觉模型只需看图训练,就能理解和处理复杂的视觉信息,不用依赖语言数据。可见,大视觉模型的进程才刚刚开始,它有巨大的潜能尚待挖掘,这对特斯拉的自动驾驶纯视觉方案是个巨大的利好。


为什么我劝你别太高估大模型了


今天,在自动驾驶领域,各种概念层出不穷,每当有新技诞生,都会有人惊呼,全新的时代要诞生了!


但实际上,大部分人没有人意识到,自动驾驶的边界就是人工智能的边界,而人工智能的边界是数学的边界,没错,数学是有边界的。


1931年,数学家哥德尔认为,许多数学家试图构建一个既完备又一致的数学体系,这样的的努力方向,是错误的,数学体系不可能既完备又一致。也就是说,保证了完备性,结论就会矛盾;保证了一致性,就会有很多结论无法用逻辑推理的方法证明。这提醒人们,让人们知道,数学不是万能的,世界上很多问题不是数学问题。


比如,你正在以很快的速度开车,突然发现前边有一群小学生在马路上打闹。要避让这些小学生,你就会撞到路边的建筑物墙上,而如果撞墙,你的生命安全就面临危险。请问在这种情况下,你是选择撞墙还是选择撞向小学生呢?


自动驾驶大模型,千万别入戏太深


如果汽车厂商告诉你,我们这个车就是讲道德的,我们的自动驾驶系统在这种情况下一定会首先确保行人的安全,请问这样的车你会买吗?


你会让汽车做决定,牺牲你自己吗?可见,这是一个伦理道德问题,没有标准答案,人工智能再强大,也无法计算这样的问题。


其次,许多情况,无论用什么模型,用多么强的算力,也都算不出来。


在数学上,还有一个经典命题,1900年,数学家希尔伯特就提出过一个疑问:对于某一类数学问题,有没有一个方法,通过有限步,就能判断它有没有解?根据希尔伯给出的结论,很多数学问题,就算有算法,但有没有解是不知道的。


实际上,自动驾驶就属于这类问题,到底有没有解,我们不知道。


今天,所有专家都在说,只要数据够多,自动驾驶大模型早晚能成熟,实际上,对自动驾驶系统来说,大部分情况下,能用2%的数据就能训练一个能解决路面80%的情况的自动驾驶系统,但是剩下那20%的情况,你就是再用再多的数据也未必能解决。


比如马斯克的纯视觉FSDV12,在想象中,纯视觉方案有现成的AI算法可以模仿,但实际量产过程中有无数的细节需要完善,想象中,只要在逻辑上做到完美的算法就行了,但实际上算法需要大规模的数据喂养。


要知道,马斯克对特斯拉FSD倾斜了无数资源,比如,在FSD的开发过程中,特斯拉积累了超过90亿英里使用里程,这是全球最大的自动驾驶数据来源;为了利用这些数据,特斯拉不断扩充其超算集群,到处挖顶级AI工程师,自研算法、芯片和大算力GPU。


但即便如此,你也未必能喂得出来,要知道,马斯克曾公开表示,他低估了纯视觉方案的难度,他感到非常抱歉。


自动驾驶大模型,千万别入戏太深


为什么会这样?比方说,美国50个州都有各自的交通法规,各地的气候条件和路况都不一样,这还不算美国和中国更不一样。这意味着什么呢?这意味着在一个地区训练出来的自动驾驶方案,换一个地方就完全没用了。所以任何自动驾驶大模型其局限性都很大,不能通用,你必须在每一个地区都采集大量的数据才行。


进一步说,即便算力增加也无法解决自动驾驶大模型的普适性问题,计算能力增加,原来可以计算的问题会算得更快,甚至瞬间解决,但是不可算的还是不可算。


我们打个比方,你如果有一台制冷机,可以将温度降低。如果你有一个超大功率的制冷机,温度降低得会快得多。但是,用再多、再大的制冷机也不可能将温度降到绝对零度以下,因为那是物理学的一条边界。


总结而言,由于数学的边界无法被突破,所以今天任何的自动驾驶方案,大家可千万别入戏太深。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>