世界模型,智驾有望跨越L3?

发布时间:2024-08-06  

最近,在蔚来NIO IN和理想智驾系统发布会上,都提到了“世界模型”这个概念。


蔚来智能驾驶研发副总裁任少卿判断,传统的端到端方案+“世界模型”才能将自动驾驶推进到下一个阶段——端到端并非自动驾驶技术路线的终局。


理想也认为,数据驱动的端到端只能实现L3,要继续迈向L4,需要+基于知识驱动的视觉语言模型/世界模型。


其实何小鹏也曾提出过相似观点,端到端是“L3的最佳路线,但一定不是L4的优选。端到端+大模型才能最终实现L4”。


经过大半年的探索和初步实践,目前本土玩家纷纷发布或量产了各自的端到端方案,后者的价值也得到了自动驾驶行业的一致认可。但它并不是宇宙的尽头。


所以,更进一步的“世界模型”到底是什么?目前发展到了什么阶段?更值得思考的一个问题是,它是智驾大模型的最优解吗?


“世界模型”的启源


还得是特斯拉


2023年的CVPR会议(即IEEE国际计算机视觉与模式识别会议)上,特斯拉自动驾驶负责人Ashok Elluswamy用15分钟,介绍了以车道网络和占用网络为主要内容的FSD基础模型(Foundation Model)。


Ashok抛出了引人深思的问题:把车道网络、占用网络这些东西结合在一起,就足以全面地描述驾驶场景吗?基于这些场景描述就能规划安全、高效且舒适的轨迹了吗?


图片

图片来源:特斯拉


答案当然是不能。


因为在空间层面,OCC空间的颗粒度不够精细,算法检测不到比网格单位尺寸更微小的障碍物,也不包含天气、光照、路面情况等对行车安全性和舒适性,有密切影响的语义信息。时间层面,规划算法是以定长的时间节拍进行信息融合和推演,所以自动建模长时序信息能力的相对匮乏,很难基于当前的场景和车辆动作,精确预测未来一段时间内对汽车驾驶安全性和效率至关重要的场景变化。


怎么办?


特斯拉给出的答案是通过海量数据学习出一个“世界模型”的神经网络,它可以“以过去或其他输入为条件,预测未来。”


图片

图片来源:特斯拉


是的,“世界模型”是一年前由特斯拉正式提出的。


可是因为害怕被友商逐帧学习而不再召开AI Day的特斯拉,在“世界模型”上坚持保持着语焉不详的神秘画风,只用了一句哲思意味的“以过去预测未来”来概括,让人听君一席话,如听一席话。


图片

图片来源:蔚来汽车


蔚来在解释它的世界模型NVM时,让这个概念更清晰、具体起来。概要来说,其两大核心能力是空间认知和时间认知。


空间认知能力可以理解物理规律,进行想象重建;时间认知能力可以生成符合物理规律的未来场景,进行想象推演。


所以在空间理解能力上,NVM作为生成式模型,能全量理解数据,从原始传感器数据中重建场景,减少传统端到端方案从传感器数据到BEV和OCC特征空间转换过程中的信息损耗。


而在时间理解能力上,NVM具备长时序推演和决策能力,通过自回归模型自动建模长时序环境,具有更强的预测能力。


图片

图片来源:蔚来汽车


说人话就是——在空间理解上,“世界模型”采用生成模型架构,天然具备全量提取传感器输入信息的能力,可以提取雨雪风霜天气、暗光逆光炫光光照条件,积雪水坑坑洼路面条件等与驾驶密切相关的泛化信息,避免了BEV和占用网络抽取信息的损失。


在时间理解上,“世界模型”是一种自回归模型。可通过当前(时刻为t)视频和车辆动作生成下一帧(时刻为t+0.1)视频,再基于下一帧(t+0.1)视频和当时的动作,生成下下一帧(时刻为t+0.2)的视频。就这么循环往复,通过对未来场景的深层次理解和模拟,规划决策系统在可能发生的场景中进行推演,寻找到安全、舒适、高效三要素最大公约化的最优路径。


“世界模型”走到了什么阶段


其实,“世界模型”的雏形概念最早可以追溯到1989年。不过由于它和人工智能、神经网络的发展史深度绑定说起来实在太啰嗦,我们也没必要把时间拉那么远。


我们直接快进到2024年2月,从OpenAI甩出王炸Sora。后者以生成长时序且具备高度一致性视频的能力,引起一波大争论开说。


支持者认为Sora具备了对物理世界规律的理解能力,标志着OpenAI的能力开始从数字世界走向物理世界,从数字智能走向空间智能。


而以杨立昆为代表的反对者认为:Sora只是符合“直观物理学”而已,它生成的视频骗骗人眼还行,但没法生成对机器人的传感器具有高度一致性的视频,只有世界模型才真正具备理解物理规律、重建并推演外部世界的能力。


因为没有拿到OpenAI控制权最终与OpenAI闹掰的马斯克当然不会错失这场大论战,他傲娇表示,特斯拉在大约一年前就能以精确的物理规律生成真实世界的视频。而且,特斯拉视频生成能力远超OpenAI,因为它可以预测极其准确的物理特性,这对于自动驾驶至关重要。


根据马斯克的发言和2023 CVPR会议上的介绍,可以得出特斯拉的“世界模型”,可以在云端生成用于模型训练和仿真的驾驶场景。更重要的是还可以压缩部署到车端,将车端运行的FSD基础模型升级为世界模型。


结合特斯拉10月即将发布的,理论上应该具备L4能力的Robotaxi的消息,以及国内车圈大佬们一致认为端到端+大模型才能实现L4的重要判断,特斯拉的世界模型大概率已经在车端量产部署了。


而国内绝大部分自动驾驶玩家训练的世界模型,都还只是部署在云端,用于自动驾驶仿真场景生成的阶段。


比如,理想的世界模型,利用3D高斯模型做场景重建,利用扩散模型做场景生成,以重建+生成相结合的方式,共同组成理想汽车自动驾驶系统的考试方案。


华为和小鹏探索使用大模型生成仿真场景,也符合自动驾驶世界模型的概念。


不过,它们的世界模型生成场景的时序一致性如何,时长能有多久,这三家都没有公开过具体数字。


图片

图片来源:理想汽车


蔚来汽车则选择了云端+车端同时攻关的技术路径。


在云端,蔚来的Nsim可以推演万千平行世界,辅助真实数据加速进行NVM的训练。目前,NVM可以生成时间长达120秒的预测。相较之下,OpenAI被吹上天的Sora只能生成60秒的视频。


而且和Sora只有一个简单运镜不同的是,蔚来NVM产生的场景更加丰富多变,可以给出多个指令动作,推演万千平行世界。


图片

图片来源:蔚来汽车


在车端,蔚来NVM可以在0.1秒内推演216种轨迹下的平行世界,从中选择最优路径。然后在接下来0.1秒的时间窗口内,再次根据外部世界收入重新更新内在时空模型,预测216种可能发生的轨迹,依次循环往复,跟随驾驶轨迹持续预测,始终选择最优解。


智驾大模型的最优解在哪里?


我们再折回来说,通过大模型赋能端到端,已经成了继续提高智能驾驶系统能力的一致共识。不过如何在车端部署大模型,头部智驾车企蔚来、理想和小鹏给出了三种不同的答案。


小鹏汽车利用LLM(大语言模型)增强对复杂场景的语义理解能力,综合多源信息有效理解场景中的复杂模糊语义,更好地识别复杂路口、左转等待区、潮汐车道、交通标志。


理想汽车使用的是VLM(视觉语言模型)——直接输入原始传感器数据,建立对当前驾驶场景的全面整体理解,应对传统端到端方案因存在从原始传感器数据到特征空间的信息损失而无法有效处理的复杂场景。


蔚来汽车使用WM(世界模型)改造端到端,直接输入原始传感器数据,并在0.1秒内生成216种驾驶轨迹,从中筛选最优轨迹。


大语言模型LLM、视觉语言基础模型VLM和世界模型WM,哪一个才是自动驾驶大模型的最优解?


我们其实可以等到自动驾驶等级接近L4时,再事后诸葛亮一把。也可以基于一个基本的逻辑给出初步的判断,即LLM、VLM和WM,能多大程度发挥或者利用大模型的能力?


众所周知,大模型带来了两个关键能力的根本性提升:超强的理解能力和超强的生成能力。


图片

图片来源:华为


小鹏的大语言模型利用大模型的理解能力,理想的视觉语言模型和蔚来的世界模型,既能充分发挥大模型的理解能力,又可以利用大模型的生成能力。


而在以生成能力助力自动驾驶决策规划方面,视觉语言模型适用于生成非实时性的车道建议、车速建议等中间决策。蔚来的世界模型更近一步,可以直接规划轨迹,生成行车路线。


不过我也不是半仙,没法预测世界模型是不是就注定比视觉语言模型的效果好。但是,提醒大家注意一点,行业第一标兵特斯拉的选择,也是世界模型。


写在最后


用一句话总结世界模型的能力:它具备对信息的全景理解力,理解物理规律,并且可以在想象的维度重建当前的世界,推演未来的世界。它能对应生成式AI的“理解+生成”能力上,想象重建对应大模型的理解能力,想象推演对应大模型的生成能力。


而作为本土首个以世界模型赋能端到端的技术架构,蔚来全新智能架构NADArch2.0给人的想象空间是巨大的,也是值得期待的。


据说今年第四季度就能量产上车了,到时再体验体验吧!


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    宝马智驾战略初露真容;宝马集团也要推L3智能驾驶了——L3意味汽车真正自动驾驶,你可以尽情玩手机、刷视频,只是车辆在需要你接管时,才会让你重新掌控方向盘。 时间点是今年底或明年初;首搭车型......
    从车企的品牌影响力,L3也有可能改变智能驾驶的商业模式,强化用户为智能驾驶付费的意愿。如特斯拉的FSD,其6.4万元的定价在其车型中可以占到整体售价的约20%,而更强、更高阶的功能将有可能拉升用户对付费意愿。与国内的车......
    完善政策体系,L3级别智能驾驶落地有望取得突破。 与此同时,如今多款带有自动驾驶功能的新车销售表现亮眼,自动驾驶从无足轻重进化为消费者购买汽车的重要参考,带有强智驾能力的车型中屡屡出现现象级产品如小鹏G6......
    ,小鹏汽车成为国内首个上线城市NOA功能的车企,并在广州进行试点; 2022年10月,毫末智行首席交付官甄龙豹与魏牌副总经理乔心昱在保定市区的繁华街道进行高阶智能驾驶测试,全长17公里,行驶40分钟......
    拉FSD是否会引进国内,以及入华之后是否会对市场的路线选择产生影响,也有待考量。 毫末智行董事长张凯表示,技术的演进会带来智能驾驶功能的日趋成熟,同时也带来了成本的不断下降。对智能驾驶供应商来说,只有......
    ,40万以上的车型搭载城市NOA功能最多,为12.1万辆,渗透率为8.6%。在这些搭载城市NOA功能的汽车品牌中,理想汽车的份额最大,达到81.7%。在智能驾驶芯片方案中,英伟达的双Orin-X方案......
    配L2级功能的车型中,传感器方案以5V1R/5V3R方案为主,具备NOA功能的新车则大多增加了激光雷达传感器,增强车辆的感知能力。 小鹏、问界等品牌的城市NOA智能驾驶产品已证实,激光......
    在乘用车中的销量占比预测,随着搭载 NOA 功能的车型逐渐下探到 15 万左右的价格区间,预计 2025 年 NOA 搭载量将突破 400 万辆,届时 L3 功能渗透率将达 5%。 L3 自动驾驶系统将负责驾驶操作,实现......
    提升约10pct。智驾功能性能和搭载率的提升将带动智 驾域控制器的增长。拥有智能驾驶功能的车型中以域控架构为主,域控制器作为车端处理感知信息、 进行决策规划的重要零部件,用量有望随着智驾功能......
    性能和搭载率的提升将带动智 驾域控制器的增长。拥有智能驾驶功能的车型中以域控架构为主,域控制器作为车端处理感知信息、 进行决策规划的重要零部件,用量有望随着智驾功能渗透率的提升而增长。   NOA......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>