2024 年最重要的技术趋势,非端到端自动驾驶莫属。这还要从特斯拉端到端上车说起。今年 1 月,特斯拉向美国用户推送了 FSD V12 测试版本。在这一版本中,FSD V12 将城市街道驾驶的软件栈升级为端到端神经网络。
特斯拉 FSD V12.2.1 版本今年 2 月 19 号向 1.5 万名员工推送,还新增了 0.5%—2% 的用户推送量,估算下来约 1 万人可以体验到这一版本。预计在今年上半年,V12 版本将完成向美国全量 FSD 用户推送。这引发了大量真实车主测评,FSD V12 面对各类复杂场景都展现出了更加接近人的驾驶逻辑。
FSD V12 上线,也引起了行业的思考:端到端会不会成为高阶智驾的未来?
「只有端到端才能做到真正驾驶行为上的 Human like,理解那些无法穷尽的 Corner cases。」这一声音也越来越成为一种共识。换句话说,无论是实际路测还是底层技术架构,端到端才是自动驾驶的最终解。
01、端到端模型,为何让人着迷?
基于传统自动驾驶算法,智能汽车在走向高阶智驾的过程中,出现了三大挑战:开城瓶颈、体验瓶颈、成本瓶颈。
车企大规模开城是以人工规则为核心的高精地图打底,这意味着高精地图的鲜度必须以天为单位。一旦遇到维修施工就需要人工接管,这为车企实现 100% 开城带来了挑战。体验瓶颈表现得更明显,在许多车企推送城市 NOA 后,不少用户发现会遇到系统还无法处理的 Corner cases,同时还会存在智驾不灵活的顿挫感。而对高精地图、更大算力芯片的需求,也在加重车企成本压力,动辄 4 颗 Orin-X、12 颗传感器使得硬件内卷变得更疯狂。
传统模块化自动驾驶向左,端到端自动驾驶向右。端到端之所以吸引众多企业入局,在于它是比传统模块化系统更好用的技术指南。需要指出,端到端模型与大模型有着本质区别。大模型,是指数据容量大小。大模型是把双刃剑,传统模块化系统导入大模型,巨量数据会导致规则越变越多,进而影响智驾体验。端到端,指的是自动驾驶可达到一端输入感知数据、一端输出决策的效果。端到端利用大模型巨量数据,反而会培育出更加聪明的神经网络。
大模型时代下,端到端才是与之更加匹配的解题思路。
究其根本——端到端与传统模块化方案在开发训练、规则设定、模型部署上有本质区别。在开发训练上,传统自动驾驶是感知、预测、规划三个模块独立开发训练。模块之间的通信协议是工程师凭个人经验抽象出来的结构化数据。在这种分裂的模块化架构下,信息传递会出现减损。
端到端是则是将感知、规划、决策、控制融合为一个神经网络架构。在规则设定上,传统自动驾驶使用的是人为定义规则,仅能通过有限的规则处理有限场景。端到端利用神经网络,无需定义规则,同步也降低了人工代码的数量。马斯克就透露,特斯拉 FSD V12 通过神经网络,人工编程的 C++控制代码由 30 万行缩减到了 3000 行。
类似地,元戎启行做过统计,如果手动处理 case,一位工程师一天只能处理 10 多个,但端到端模型可以用 AI 的方式去解决问题,系统性学习老司机。在模型部署上,传统自动驾驶需要多任务、多模型部署,相应地,算力和功耗的负担就越重。端到端,破解了算力的无限游戏。在元戎启行 CEO 周光看来,现阶段,与基于人工规则驱动的传统方案相比,端到端反而会减少对车端算力的需求。由于可以使用同一个模型完成目标检测跟踪与轨迹预测,这种将感知和预测模块绑定在一起的方案,减少算力消耗的同时,还能提升目标轨迹预测精度。
元戎启行基于一颗英伟达 Orin-X 芯片做过测试,同样的芯片端到端上车在城市道路的流畅感明显优于传统的模块化自动驾驶。但未来如果想要继续优化达到更高程度的类人自动驾驶,仍需提升对算力的需求。据悉,在英伟达主办的 GTC 大会上,元戎启行和英伟达达成合作,将于 2025 年使用英伟达的 DRIVE Thor 芯片适配端到端智能驾驶模型。
而这些端到端「反常识」的优点,就是在为车企降本增效。现阶段减轻对车端算力的需求,只是其中一点。除此之外,端到端并不需要高精度地图。
本质上,高精地图就是巨大的规则体系,通过人工标注好道路结构和场景信息,把底层信息提前交给系统来识别道路。端到端,不需要这样的巨量、精密的基于规则的信息,在为自动驾驶「减负」的同时,还能提升系统的性能与体验。从底层技术架构的角度看,端到端已经展现出效率提升、性能上限更高、泛化能力和拓展能力更强的优势。马斯克就曾透露特斯拉 FSD V12 的运行功耗只有 100 多瓦,这相当于行驶 100 公里耗电只在 0.1 度左右,而且 V12 的计算性能还在提升,能够以 50 帧/秒的计算效率高效运行。端到端的出现,为智驾上车、提升消费者体验,带来了「双赢」的可能性。
02、端到端打响军备赛,先有技术嗅觉才有技术选择
一场围绕端到端模型的军备赛,已经展开。布局端到端自动驾驶有两大门派,学术派与一线技术派,二者互为养分。
全球计算机视觉盛会 CVPR 2023 的最佳论文《Planning-oriented Autonomous Driving》提出了端到端的感知决策一体化框架,而这篇论文由上海人工智能实验室、武汉大学、商汤科技合作完成,是学界和业界合作的典型成果。学界给行业注入技术灵感,而真正开启端到端时代的是车企和自动驾驶公司。
特斯拉是全球第一个将深度学习模型 Transformer 应用于自动驾驶中的车企。由特斯拉引发的「技术地震」,也让国内许多车企也开始探索端到端。最激进的是新势力。去年 12 月底,理想 AD MAX3.0 系统在端到端架构下,整合了 BEV 模型、MPC 模型预测控制以及时空联合规划等能力。蔚来将在今年上半年上线「基于端到端」的主动安全功能。接近蔚来内部的人士透露,半年前蔚来就为端到端的研发投入了几十人规模的团队。小鹏的下一步也是实现端到端模型全面上车。可以看到,新势力都在争分夺秒争抢量产端到端自动驾驶的桂冠。
但现在看来,比新势力更有可能先得到桂冠的是自动驾驶企业。新势力主要在去年下半年开始投入研发,但目前还没有更具体的计划表。据汽车之心观察,早在一年多前,元戎启行就已经将技术重点转向端到端。2023 年年初,元戎启行就向英伟达高层交流、展示了端到端技术,这个时间远早于马斯克公开宣布采用端到端模型。
2023 年 8 月,元戎启行的端到端模型上车,进行了路测。最为关键的是,在商业化量产阶段元戎也持续保持了研发时的快节奏。
周光透露,搭载端到端模型的车型,将在今年面向市场量产。不出意外,元戎将是继特斯拉之后,国内最早量产端到端自动驾驶公司之一。在周光看来,能在时间上抢占部署端到端模型,是因为技术嗅觉总是先于技术选择。
纵观科技史上伟大的技术变革,其实都是先有技术嗅觉再有技术选择。明星公司 Open AI,就是依靠技术敏感度得以引领行业。2020 年,Open AI 发表了一篇论文《Sacling Laws for Neural Language Models》,验证了模拟神经语言模型的模型性能与模型数据、数据集大小以及训练数据量的关系。
这个函数关系被称为比例定律(Sacling Laws),它验证了随着模型大小、数据集大小和浮点数计算量的增加,模型的性能会可预测地提高。涌现能力就是 Sacling Laws 中的特殊节点,一旦达到某个临界点时,性能就会出现急剧提升。
Sacling Laws 帮助科学家在数据资源有限的情况下作出合理的模型选择。而涌现能力告诉我们,类人的人工智能可以在越过阈值后实现。选择端到端,就是选择把大语言模型验证过的涌现能力,最大化结合 Sacling Laws 重新在自动驾驶领域做一遍。现在,元戎启行就是希望找到智能驾驶的 Sacling laws——在小模型、小数据验证下确认「公式」,以最低的实验成本设计出更大的训练模型。
对此,元戎建立了一套循序渐进的端到端「两部曲」:
第一步:打造端到端模型。将后融合感知技术,变成多传感器前融合感知。同时,将过去由规则驱动的预测和规划,变成数据驱动。对应的是 2019 年,元戎发布多传感器融合感知算法、2023 年 3 月元戎发布了不搭载高精地图的智能驾驶解决方案 DeepRoute-Driver 3.0。
第二步:端到端模型上车。对应的是 2023 年 8 月,元戎成功完成端到端上车路测,并将端到端模型应用到量产车上。2024 年下半年,伴随着量产车下线,将端到端模型推入消费者市场。
元戎之所以能在国内率先建立起端到端方法论,在于掌舵人对技术风向的洞察。周光本科毕业于清华大学基础科学班,博士毕业于德克萨斯大学达拉斯分校人工智能和机器人方向,扎实的数学与物理学基础理论与人工智能实践学习,使其更敏感地察觉到了端到端技术趋势。早在两年前,他就表示机器学习很多逻辑与数学密不可分,本质上就是通过数据的方式去寻找规律。这也使得元戎更早看清,智驾驶向深水区,更需要借助端到端这股东风。
03、逃不开误解的端到端,却是高阶智驾的最终解
目前,高阶智驾正在以超乎想象的速度推进。极氪智能科技副总裁陈奇曾提到:2023 年 12 月,国内头部厂商高阶智驾选装率达到了 48.73%,这相当于头部车企每卖出两台智能车,其中一台都具备城市 NOA。
再过一个季度,头部车企们将会城市 NOA 进行全量推送,这将会是一场史上规模最大、难度最高的智驾检验:多数消费者与机器共驾的默契还有待提升,同时也要求车企能够用高阶智驾在复杂的城市道路中为用户安全兜底。
现阶段,从国内目前多家车企的城市 NOA 体验来看,多数遇到施工或道路有所更新的路段,几乎都需要接管。这也意味着,目前用户尚未享受到高阶智能驾驶尚未达到用户眼中的「可用」「好用」。
一个完善的端到端模型,将会在消费端为用户智驾体验带来质的改变。这里存在两个有些「反常识」的知识点。一方面,过去以深度学习为基本盘的端到端模型,被外界诟病「就像一个黑箱系统,性能很好,但缺乏解释性。」但这种「不可解释性」,并不代表不安全。
这就像人类面对复杂场景时产生的大多数驾驶行为也存在不可解释性。元戎启行在最开始端到端模型上车时,会采用基于规则的安全兜底策略保证驾驶安全。比如系统如果检测将要发生碰撞,将会尽早进入保守策略,启动安全模式,避免端到端模型出现安全事故。
另一方面,端到端模型即使是底层技术架构,其实在消费端也是可以被察觉的。这种「可察觉」,是把「数码味」变成真正人类司机驾驶。
今天,已经量产的传统方案,在直行、加塞、变道时会有明显的顿挫感,感觉还有不同的系统切换。但端到端模型上车的体验,会更拟人化。底层原因是,如果单纯基于人工规则,包括道路施工、压实线、应对违停车辆等等在内的每种场景都需要单独的规则,这样的系统并不好用。
现在,端到端大模型的魔盒已经打开:马斯克直播路测特斯拉 V12 版本 45 分钟内仅接管一次、蔚小理陆续宣布投入端到端研发......甚至还有一个小细节,最初特斯拉采用纯视觉端到端被外界认为不可靠、不安全,但当今年 1 月特斯拉举办 2023 年财报会时,马斯克被问到特斯拉是否会在今年举办 AI Day 活动。
马斯克对此表示,今后谨慎透露技术,因为竞争对手已经开始模仿创新。一个行业走向爆发前夕,往往会信息封锁,迎来最为紧张的时刻。进入 2024 年,周光认为,「端到端是打开物理世界通用人工智能大门的一把钥匙。」
本质上,Chat GPT、Sora、Midjourney,仍然属于互联网世界的生成式人工智能,所收集、生成的数据都是网络虚拟数据。这就意味着,仍没有针对物理世界的通用人工智能。要让人工智能具备物理常识,就需要大量物理世界的真实数据。在这种情况下,智能驾驶就是最佳解。
正如地平线 CEO 余凯所言,「手机是击穿物联网的关键,智能驾驶是击穿物理世界通用人工智能的关键。」这也让自动驾驶趋势愈发清晰:以模块化为主导的原始人工智能时代终结了,物理世界通用人工智能时代正拉开帷幕。