张亚勤：预训练、生成式大模型，将带来自动驾驶技术范式新变革

以GPT为代表的生成式大模型的出现，让人工智能技术再次发生跃迁，AI技术正在经历从判别式到生成式的技术范式变革过程。随着生成式、预训练、多模态等大模型技术的引入也在为自动驾驶技术走向成熟的无人化提供了可能。

来自全球领先的人工智能研究机构清华智能产业研究院（AIR）与国内领先的自动驾驶AI技术公司毫末智行，在对大模型的技术趋势上及应用上有着惊人的一致判断。同时，双方也已经在基于数据驱动决策优化方向上展开深入探索，共同推动全方位、多层次的产学研深度合作，加速AI技术在自动驾驶领域的落地应用。

2023年10月11日，中国工程院院士、清华大学教授、清华智能产业研究院（AIR）院长张亚勤现场出席毫末智行举办的第九届HAOMO AI DAY，发表了题为《智能驾驶新进展——Big Model, Generative Al and Intelligent Driving》的主题演讲，分享了他对生成式AI大模型应用于自动驾驶技术的最新思考，以及介绍了清华AIR在构建Real2Sim2Real基础模型平台、自动驾驶仿真平台等最新成果。

以下是张亚勤院士的演讲全文：

这么美丽的天气，这么漂亮的地方，很高兴参加HAOMO AI DAY，也感谢张凯董事长和维灏的邀请。

今天是第九届HAOMO AI DAY，首先我要祝贺毫末在不到4年的时间里取得了很大的成绩，特别是走出一条自己的路。我印象当中毫末是最先在自动驾驶方面发布了生成式大模型DriveGPT，也很快地走向规模化，在这么短的时间就能够成为自动驾驶领域的领军企业。

今天我想谈一下在智能驾驶方面新的进展，这些年我一直用同样的题目，但是每一次会发现里面的内容都完全不同，特别是最近生成式AI出来之后，对自动驾驶有了很大的推进。

我们一直讲新的“四化”——网联化、智能化、共享化、电动化，其中最重要的是两化——电动化、智能化。电动化可以理解成是新能源，现在中国已经是全球最活跃、最大的新能源市场，不管是在用户规模或者出口规模都是全球第一，这是新汽车的上半场。下半场最重要的是智能驾驶，未来5-10年全球竞争的热点和制高点就是自动驾驶。人工智能是自动驾驶核心的技术驱动力，毫末从一开始成立就以AI作为公司的技术引擎，所以HAOMO AI DAY十分重要。

为什么这么多的企业都在做智能驾驶？包括传统汽车厂商、新势力、高科技企业都在进入自动驾驶市场？其实，这里面有很多的技术挑战，首先从AI的角度来看，自动驾驶是高度复杂的，需要很多算力、新算法，是最具有挑战的AI垂直领域问题，其次，自动驾驶也是目前看到的聚生智能、边缘智能、自主智能的交集。刚刚毫末的测试视频里可以看到自动驾驶面对这么多的复杂场景和变化，确实有很多的挑战。

但是，我认为自动驾驶是完全可以实现的，其中有一些关键的问题，有一些是市场的因素，有一些是非市场的力量。市场的因素包括技术是否可行？用户有没有真正需求？产业生态及商业模式。非市场因素也很重要，需要行业有技术突破，也需要有政府产业方面的支持，以及与政策法规突破。

在技术方面，一开始很多人在讲无人驾驶是否可行，特别是L4以上是否可行？我从一开始认为就是可行的。最近看到一些数据，无人驾驶比有人驾驶安全10倍左右，在去年我还在讲是3倍，今年已经到了10倍。这说明技术突破已经完成。在商业化路线图上，目前也有各种各样的方式，有一些是用单车智能，有一些车路协同，还有渐进式、跳跃式的路线，开源、封闭的路线，不同企业都在探索不同的路线图，没有说哪一个是完全正确的，产业在用不同的方式尝试自动驾驶。我知道毫末选择了渐进式，我觉得这些都很好，大家用不同的方式去探索。

张亚勤：预训练、生成式大模型，将带来自动驾驶技术范式新变革

最近在AI方面有很多新的突破。我们看到新的算法、新的框架，特别是预训练、多模态、多监督学习、大模型成为主流。在Transformer之前，ResNeT曾经是作为非常广泛应用的视觉算法框架，我之所以特别提到ResNeT，这个算法其实是中国的年轻科学家在中国完成的，因此中国科学家对于人工智能有着很大的贡献。我听到很多的说法，认为AI的核心主要是从欧洲来的，基本的理论是从那里来的，但是中国科学家在人工智能领域也做出了很多的贡献。

大模型很重要的一点是要突破技术限制。过去六、七十年中主要有三个重要的理论：摩尔定律、冯·诺依曼架构、香农三定律，现在那这三个理论都在被突破。如果不突破，大模型不可能实现，这其中需要有新的传感方式，新的感知方式，需要有新的计算机体系架构的突破，包括芯片新框架等，现在主流的Transformer和CNN卷积神经网络也都不一样。目前，数字技术产业主要还是基于硅片的计算，未来可能会有生物科学、光计算、量子计算。

当前，很重要的一点就是大模型带来生成式的AI，过去AI讲的是分类，也就是判别式的AI。现在可以完全生成新的内容创意、数据的创意，也可以在场景方面有很多新的创意。下面我稍微讲一下在这方面的工作。

大模型走向了新方向。首先是多模态，不仅仅是自然语言、图像、视频，也包括传感信号、激光雷达等从所有车机发出的物理感知、生物感知信号。大家看到GPT-4大模型就是多模态的，其功能很强大，不过效率很低，大致比人大脑的计算和决策效率至少要低1000倍，所以还需要有新的算法，我觉得5年之后就会有新的算法出现。其次是自主智能，可以去自动的完成任务，包括边缘计算，把很复杂的大模型怎么样放在手机、汽车、机器人边缘上，还有具身智能和物理世界连在一块，我认为自动驾驶是最重要的具身智能场景。未来是脑机智能阶段，大模型将面临怎么样用到生物的世界、生命的世界，怎样让人和脑更好的连接。

新技术架构都会用到大模型，就像新的AI操作系统一样，上面会有很多垂直的模型，包括做自动驾驶或者其他像生命科学垂直的模型。

我这里再简单讲一下清华智能产业研究院（AIR），这是我从百度退休之后创立的人工智能产业研究院，3年的时间发展速度很快，也很幸运能够找到一批有很深产业背景，同时有很深学术造诣的科学家和企业CTO。现在差不多加上博士后、学生有300人左右，自动驾驶是其中的一个方向，大概有100人左右。

每一次讲到AIR研究院，都会想起25年前我回国创立微软亚洲研究院。下个月会庆祝微软亚洲研究院25周年，这个研究院本身相当的成功。我刚刚讲的大模型就是在微软研究院所开发的，希望能够打造面向中国产业的研究院。

我们在从事各种研究的时候希望有一个大的框架，比如智能驾驶方面要先确定一些技术路线。首先我认为多模态的感知很重要，从原多尺度、多维的数据很重要。因为做无人驾驶、智能驾驶，机器人的优势首先就是要求数据比较多，这个数据优势不能仍掉，所以我不同意马斯克所说的只用摄像头，我们需要用更多的数据源。其次是现在很多的自动驾驶会用到很多高精地图，但是我们认为未来是轻地图，不能完全依赖于地图。

自动驾驶达到最后的安全、可靠阶段一定是端到端方式实现的，这个也非常难，这里面有更详细的技术因素，包括生成式AI、强化学习、大语言模型，我们有两个平台：数据大模型平台、仿真平台。

AIR也提出了自己的自动驾驶基础模型。首先模型提出了怎么样获取不同数据，包括真实世界数据和仿真数据。数据要经过受控管道进行清理，然后再经过两个大模型：感知模型、决策模型，包括在一些云端和车端的关键场所做出决策，有一些模块是提供信息，有一些是统计的，也有一些是基于规则的模块。

我在里面专门把“强化学习”拿出来，因为强化学习我从百度开始的时候就在用到的，但是很难用。因为自动驾驶安全性很重要，用起来相当困难，但是我认为这个是我们唯一真正达到更高安全的方式，强化学习可以学到新的东西，现在泛化的方式要靠强化学习去学习，最近也有很多新的进展。怎么样把强化学习用到很多模拟和决策，用到真正驾驶的行为当中。左边模型是垂直大数据，怎么样用强化学习去调整模型。

另外是生成式AI怎么样能用到仿真、决策当中？这里面有一个小的例子，大模型和深度学习都有透明度的问题，所以我们也做了这方面的研究，我到底为什么做这个决定？左转、右转、刹车，告诉我看到什么东西了，以及我为什么要做这个决定，它可以引导怎么样做决定。这个是用真实数据、仿真数据、垂直模型、大模型生成语意深度场景，包括交通和行人的信息。

另外是人脑和机器的融合，我们要去研究一下人是怎么开车的。人有的时候决策很好，有的时候决策不好，把这些信息通过传感器收集起来。一方面在很长时间人和机器要共驾，无人驾驶要慢慢理解人的驾驶。另一方面把模型用到算法当中，改善算法的效率。

最后，我们非常高兴能和毫末在技术方面有深度的合作，这个合作是关于怎么样把强化学习用到认知决策里面？怎么样用真实的数据和实车场景用强化学习把它融合起来，当前，强化学习有很多的问题，在线或者离线的方式，包括函数定义的问题、策略模糊性的问题，所以我们做了很多这样的研究。过去一年多，在国际顶会发表了很多的论文，同时也有专利，最重要的是现在开始用到车里面，刚刚看到物流的小车已经开始用这些算法。

总结一下，如果看智能驾驶和自动驾驶经历的不同阶段，一开始的时候更多是用激光雷达和硬件驱动，更多是基于人工的规则。2.0是软件和算法的驱动，这个阶段有更多的传感器，也要靠机器学习和规则。现在走到3.0的时代，就是大模型的驱动，这个阶段有多传感器用到端与端的算法，也会用到强化学习，可以更大程度地实现自动驾驶在真实的世界落地。