几个月的时间,以ChatGPT为代表的大模型飞速蹿红,狂飙迭代,大有席卷各行各业之势。当这股热风吹进智能驾驶领域,带来了一些恐慌,也带来了新的方向。
一个是在云上满足泛化性多任务的语言类模型,一个是在公共交通环境下运行的智能驾驶系统,在智己汽车智驾中心软件高级经理殷玮看来,二者是通往AGI(Artificial General Intelligence通用人工智能)雏形的两条不同路径,ChatGPT从“云”出发走向“可信任”,智能驾驶从“端”出发走向“泛用”。
在通向AGI的路上,它们会有哪些交集?大模型对于智能驾驶的发展有什么指导意义?未来智能驾驶又会朝着什么方向演进?
在2023中国(亦庄)智能网联汽车科技周暨第十届国际智能网联汽车技术年会(CICV2023)上,殷玮分享了他的思考。
以下根据殷玮演讲速记整理,略有删减:
1、大模型和智能驾驶在何处交集?
智己汽车智驾中心软件高级经理殷玮
1)感知融合预测
ChatGPT和智能驾驶都属于系统范畴,而任何系统的研究,讨论的就是两个问题:一个是泛用性(指一个模型经过训练后,应用到新数据并做出准确预测,实现广泛场景覆盖的能力),一个是可靠性。通过泛用性来维持自己的不确定性,通过可靠性来维持确定性。
目前,智驾领域从原来只有图像感知使用模型、其它则使用规则算法的方式,到现在除了规控以外,感知融合预测已经可以全模型化。
研究车端大模型对于整个软件泛化性的控制,对corner case的处理有非常积极的意义,也是发展趋势。
2)数据引擎
数据闭环是ChatGPT和智能驾驶都必不可少的。不过,过去谈数据闭环,模型的变更还很多,但最近讨论的重点变成了看怎么用模型去得到结果,再用结果得到模型,循环套娃。
其实ChatGPT也类似,从1.0到4.0,整个数据结构就像脑子里的神经元,基本结构没发生多大变化,只是每次教育改革训练我们脑子的学习资料变化很大,让脑子变得很快。
3)Transformer
Transformer即为GPT的T,在智能驾驶领域里也被广泛提及。它是一种利用注意力机制来提高模型训练速度的深度学习模型,由编码和解码两部分组成。
智能驾驶系统和大模型在没有商量的情况下,高度一致地选择了Transformer,看似巧合,背后却有一定客观规律存在。Transformer对于时空逻辑带有一些因果推理过程,至少当前情况下正在统一化整个智能系统研发的策略。
智能驾驶系统现在处于一种大编码器的研发策略,对于解码器的使用还是在研状态,但是大模型已经进入到了解码器阶段,这对于智能驾驶往后做Transformer开发是有借鉴意义的。
4)多模态
现在,语言类、文字类的大模型火出圈,图片类、视频类、语音类开始流行起来,还没有出圈的模态就是行为类的大模型,跟机器人的结合。一旦大模型走到行为这一步,就开始跟智能驾驶进入统一的讨论范畴了。
但是智能驾驶系统的发展会有点区别,现在更多讨论的是相机、激光雷达等感知的BEV模型,也讨论地图预测过程中,怎么用模型来进行原来高精度地图做的一些拓扑映射,这些对于智能驾驶的规划决策都是输入。在这个维度上,语言模型的突破,对于智能驾驶系统规划接下来的发展,有很强的借鉴意义。
5)平权
这个词最近智能驾驶和大模型都在提,但是两者平权逻辑不太一样。
智能驾驶谈平权,大部分都跟降本有关,要保证高迭代情况下还要降本,整个集中化架构要怎么做,还有软件边际成本的降低。在适配新车型、新算法、新业务状态的时候,要保证软件的变更最低,模型化对于这件事情确实有极大贡献。
当然它也会带来新的问题,如果模型输入源发生变化,可能带来成本的极大增加。
但从大模型领域出发,平权更多谈论的是所有权问题,这么恐怖的生产力掌握在谁手上的问题。
2、在确定性和不确定性之间反复横跳
要研究大模型和智能驾驶的工作流状态,就要理解它们在处理泛化性和可靠性时,都经历了怎样的过程。
ChatGPT的业务天生就是自解释的,面向多任务场景,高容错。它的整个训练过程,从最开始对数量要求最大的无监督学习,到结构化的微调、有监督学习过程,再到强化学习,训练完产生的结果到这个阶段其实已经可以用了。
但是要能真正用于工作流的话,还是要到达提示词工程(用AI听得懂的提示语言,帮助AI高效理解需求,实现功能)这个级别才能发挥生产力价值。
ChatGPT整个发展过程是从泛化性、高容错,转化到一些看上去很像智能汽车的价值观,如控制时延、少算力,增强交互的真实性、可控性。属于更强调不确定性的范式,要求从这个过程中得到一些答案和新的思考,人只是给到一个指引,但是不会去强行控制它的结果。
但纵观整个智能汽车的发展阶段,以及后面想做的事情,其实是跟ChatGPT是反过来的。
在智能汽车上,一开始无论系统多小,它其实已经是一个在公共交通环境下运行的机器人了,关系到生命安全,因此一定要强调安全性和可靠性。智能驾驶系统属于更强调确定性的范式,一个模型要先到达一个安全系数,再进行控制。
两种方法之间差异非常大,习惯了确定性做法或习惯了规则的人,和习惯了不确定性做法的人,他们之间可能完全无法相互理解。但智能驾驶系统的实现过程,就是在确定性和不确定性之间反复横跳的过程。
确定性的工作流,它在产品里最大的作用是确保短期的产品质量,为量产兜底,同时,也为不确定性的工作流提供了“差异识别”的能力。有一个确定性的方法或者安全系统,控制边界,给深度学习一点空间,这是量产比较好操作的方案。
不确定性的工作流,对产品的长期迭代有很深的影响,能帮助确定性工作流提升效率,缓解压力。
这种在确定性和不确定性之间的反复横跳是一种螺旋式上升,两者的变化会带来对智能驾驶系统认知维度的跃迁。
3、未来跳向何方?
ChatGPT在用户中有很高的付费意愿,产品迭代也很快,而智能驾驶商业化落地相比之下就慢多了,也导致很多资本从智能驾驶涌入ChatGPT。
两者在发展轨迹上注定是不同的,虽然都要走向广泛信任的终点,但以ChatGPT为代表的AIGC经历的是从广泛到广泛信任,智能驾驶经历的则是从信任到广泛信任。
虽然AIGC在这段时间的爆发异常迅猛,从语言,到多模态,到专业领域的定制化,到很多工具的调用,再到最后机器人的介入,速度会非常快,但AIGC的发展速度也不会一直这么快,总有慢下来的一天。
它会在什么时候慢下来?会在面临一些跟智能驾驶同样问题的时候慢下来。当进入到一些高敏感领域决策的问题,比如在一些机器人进入到公共安全领域时,它肯定会慢下来。
ChatGPT和智能驾驶之间,可能会经历三个阶段。
第一个阶段是恐慌,就是现在的感觉。
第二个阶段,LLM(大语言模型)类业务会开始指导智能驾驶的工程师实践,现在智能驾驶很多工作流也是朝这个方向去做,从万物感知,到预测、规划,到自解释的过程。
越往后会发现ChatGPT和智能驾驶在做的研究越像,很多时候会成为一些共性的问题。虽然现在的差距从工程上来说还比较大,两者联系并没有那么密切,但是未来这种趋势会变得越来越明显。最后,肯定会朝着AGI共同目标驱同演进。