大模型上车的淘金热
过去这年最大的技术潮,非大模型莫属。
2023年初,由ChatGPT掀起的浪花,迅速地演变成了席卷全球的AI科技浪潮。汽车行业在其中也不可避免。各大车企纷纷投入与大模型相关的布局。
长城官宣成立了AI Lab,到2023年9月AI Lab已经有超过400人规模,这支团队由长城智能化副总裁吴会肖带队,并由AI Lab负责人杨继峰领衔。长城的AI Lab又称智能空间实验室。很明显长城的大模型发力的首站会是智能座舱空间。
吉利在汽车研究院下也成立了类似的机构,AI智能研究部。吉利汽车集团CEO淦家阅在这年中期透露,吉利已经具备全栈自研的大模型技术。吉利自研大模型最早上车的车型,可能是马上要上市的银河E8。
理想则在2023年6月份公布了大模型MindGPT,其原有的座舱人工智能助手理想同学将基于大模型打造新一代的多模态人机交互技术体系。MindGPT所展示的功能,在理想最近更新的OTA 5.0上刚刚落地兑现。
尽管由于车端算力的限制,千亿级参数规模的大模型还未被搬上车,但「BEV + Transformer」的框架在这年中几乎统一了所有厂商的智驾感知系统。无论在智能驾驶还是智能座舱上,更大规模、更为通用的模型正在替代此前多个专用小模型的格局。
「AI大模型不是普通的技术和创新,而是技术范式级的创新。」北大光华管理学院组织与战略管理系副教授王铁民在最近的一次分享中这样总结。
什么叫「范式级的创新」?科学哲学家托马斯·库恩早在1962年给了一个定义,是指「那些公认的科学成就,在一段时间里为实践共同体提供典型的问题和解答」。
简单来说,在未来相当长一段时间内,AI大模型将是很多技术问题的答案。
大模型上车,首先从座舱语音开始
关于大模型上车给车端带来什么,在过去一年中有很多讨论与实践。
腾讯智慧出行副总裁钟学丹,在近期腾讯与北大光华联合举办的「AI+出行」产业沙龙上,这样总结AI赋能下的汽车新智能:
第一,它重新定义了汽车的人机交互方式;
第二,明年或者在未来一段时间内,无论是高速还是城区的自动驾驶,将涌现越来越多的端到端的技术;
第三,舱驾一体的趋势将加快落地;
第四,汽车将变成开放的平台,将接入更多的服务和体验内容,来帮助用户解决实际的问题。
座舱领域,尤其是语音交互,可能是过去这年用户感知变化最为明显的领域。
钟学丹认为,当前结合大模型,语音正在发生新的变化。交互方式正从规则模式是转变为更自然的方式;交互场景,从过去单一任务的交互,转变为基于多任务的应用;座舱也正从单一语音交互向多模态交互转变。
iPhone开启了消费电子的触控交互时代,目前绝大部分消费电子的交互都是以触控为主,汽车也延续了这样的交互方式。
但差别在于无论是手机、iPad还是电脑,都属于大部分时间是一个人使用的私人设备,汽车是比较少见的一对多的设备。所以,汽车当前以触控为主、语音为辅的交互方式未必是最佳方案。
理想汽车智能空间副总裁勾晓菲认为,大模型的出现让语言的理解能力迈上了一个新的高度。因此,从智能空间的角度,理想希望推动未来车内的主要交互形态,从触控为主、对话为辅,逐步向以对话为主、触控为辅转变。
因为对话式的交互,用户是完全开放式的输入,所以下个阶段行业面临的很大挑战是,座舱一端的输出也要变成开放式的——即所有的UI都会变成生成式的,UI的布局要根据用户的语言逻辑自动生成,高度匹配用户的语义。
与此同时,今天座舱应用提供的能力都是基于各个公司的垂直领域相互独立的。比如用户要去吃望京的美食,需要跨美团和地图两个应用。未来不同的科技企业都会有属于自己的Agent,它代表了各自公司的通用能力和私域能力,这些Agent可能会像人与人一样组建成社会网络。在数字世界里,Agent组成的社会网络,通过这种全新的接口形式把各家的能力联通起来。
大模型驱动的下一代自动驾驶
理想汽车有一组内部数据,60%的出行场景下,只有驾驶员一个人在车内。所以如果不能通过自动驾驶把驾驶员解放出来,智能座舱是无法发挥价值的。
与高度个性化的座舱服务不同,自动驾驶是极度标准化的功能。勾晓菲甚至认为,「自动驾驶一旦实现,是没有什么想象空间的,但座舱的人机交互背后有强大的生态和非常多的服务,背后有无限的想象空间。」
自动驾驶目前所处的阶段,无论从技术研发还是市场占有率上,都在高速增长。
由于城区自动驾驶功能的快速推进,「BEV + Transformer + 占用网络 + 无图化」是过去这年头部车企的主力研发方向。「BEV 上车」,以具备鸟瞰视角(Bird's Eye View)的大模型实现了多摄像头的融合感知,从而大幅提高了智驾感知的数据驱动比例。
在上一年的CVPR 2023上,还提出了UniAD的论文工作,将感知、决策、规控等模块整合到一个端到端的网络。以一个深度神经网络为基础,以提升最终的驾驶体验为目标进行端到端的优化,可以极大地提升智驾系统的开发效率。
特斯拉FSD的下一个大版本,V12也将引入端到端的网络。
钟学丹认为,过去业界在开发自动驾驶系统时,做的是感知与规划分离,这种分离的方式是不符合用户的驾驶行为和体验的。而如何实现端到端的自动驾驶全链路的模型,更多关注到最终达成更好驾驶体验的目标,是更重要的解决路径。
除了对自动驾驶端到端技术架构的影响,大模型也在帮助提升针对训练需要的海量数据标注。
在Mind GPT发布之后,李想就曾经表示,理想内部一年要做大概1000万帧的自动驾驶图像的人工标定,外包的价格大概6元到8元钱一张,一年成本接近一亿元。当使用大模型进行自动化标定,过去需要用一年完成的工作基本上3个小时就能搞定,效率提升千倍。
从车端到云端,大模型正全面推动自动驾驶的体验进化。
掘金大模型的挑战
除了智能驾驶、智能座舱这两大最常见的智能化领域,汽车从生产、制造、营销、服务的全链条,也可能被大模型改造。
腾讯智慧出行副总裁钟学丹提出了一些案例,比如在设计研发领域,腾讯云AI代码助手的能力已经可以帮助开发团队完成编码的编制、测试以及质量提升。
通过AIGC生成的数字化营销内容,可以帮助销售团队更好地理解用户。比如在卖车的过程中,每个用户对车的需求和想法都不一样,如何为TA创造独特的内容,如何让内容的表述更好地切中潜在车主的需求,将对销售转化有很大帮助。
长城汽车AI Lab的负责人杨继峰也告诉我们,内部已经开始使用AI长做在做造型设计,并且其使用AI的作品与人工设计的作品拿来做图灵测试,目前已经很难辨认出来是否是由AI设计的。
钟学丹也提到,大模型要在全产业链条上落地,目前有三大挑战,模型挑战、数据挑战以及算力挑战。
算力挑战最容易理解,当前高算力的GPU对全行业而言都是稀缺资源。
HiEV获悉一家互联网巨头在年初向英伟达下了10亿美元的GPU订单,但随着对高算力计算平台的出口限制,GPU越发稀缺,尤其在去年9/10月之后,不少企业的供应链团队都在加班加点解决算力的缺口问题。
而数据挑战,源于对数据合规与数据安全的要求,尤其在自动驾驶领域,车辆感知的数据处理不当直接影响地理信息安全,而用户车内的数据则涉及隐私安全。
目前虽然通用大模型正上演「百模大战」,但对于垂直行业应用而言,其准确率仍达不到应用要求,大模型如何针对行业应用开发调教,以及对应行业训练数据的质量提升,仍任重道远。
互联网巨头们是这波「百模大战」最积极的参与方和推动者,无论从模型训练、算力建设还是数据挖掘上,他们都有丰厚的储备。
通用大模型可以帮助行业开发者快速建立行业大模型的基础。以腾讯为例,腾讯的混元大模型有超千亿级的参数规模,预训练语料超过2万亿Token。目前在腾讯云上,已经有超过300个应用接入混元大模型,用在广告、营销、游戏、社交等场景。
腾讯也对外提供大模型的一站式商店——MaaS平台(模型即服务),帮助企业快速打造专有的模型应用。在底层设施上,提供大规模训练集群和高性能计算网络,带来业界最高3.2Tbps带宽,算力性能提升3倍,为大模型训练提供智算能力支撑。在面向大模型的特殊数据场景上,向量数据库可以帮助系统在数据访问效率带来10倍提升。
不少人将2023年称为大模型元年,大模型的技术盛宴才刚刚开始,而汽车作为当前最大的消费电子单品,可能会成为从中技术获益最大的一支。