张亚勤:预训练、生成式大模型,将带来自动驾驶技术范式新变革

发布时间:2023-10-12  

以GPT为代表的生成式大模型的出现,让人工智能技术再次发生跃迁,AI技术正在经历从判别式到生成式的技术范式变革过程。随着生成式、预训练、多模态等大模型技术的引入也在为自动驾驶技术走向成熟的无人化提供了可能。


来自全球领先的人工智能研究机构清华智能产业研究院(AIR)与国内领先的自动驾驶AI技术公司毫末智行,在对大模型的技术趋势上及应用上有着惊人的一致判断。同时,双方也已经在基于数据驱动决策优化方向上展开深入探索,共同推动全方位、多层次的产学研深度合作,加速AI技术在自动驾驶领域的落地应用。


张亚勤:预训练、生成式大模型,将带来自动驾驶技术范式新变革


2023年10月11日,中国工程院院士、清华大学教授、清华智能产业研究院(AIR)院长张亚勤现场出席毫末智行举办的第九届HAOMO AI DAY,发表了题为《智能驾驶新进展——Big Model, Generative Al and Intelligent Driving》的主题演讲,分享了他对生成式AI大模型应用于自动驾驶技术的最新思考,以及介绍了清华AIR在构建Real2Sim2Real基础模型平台、自动驾驶仿真平台等最新成果。


以下是张亚勤院士的演讲全文:


这么美丽的天气,这么漂亮的地方,很高兴参加HAOMO AI DAY,也感谢张凯董事长和维灏的邀请。


今天是第九届HAOMO AI DAY,首先我要祝贺毫末在不到4年的时间里取得了很大的成绩,特别是走出一条自己的路。我印象当中毫末是最先在自动驾驶方面发布了生成式大模型DriveGPT,也很快地走向规模化,在这么短的时间就能够成为自动驾驶领域的领军企业。


今天我想谈一下在智能驾驶方面新的进展,这些年我一直用同样的题目,但是每一次会发现里面的内容都完全不同,特别是最近生成式AI出来之后,对自动驾驶有了很大的推进。


我们一直讲新的“四化”——网联化、智能化、共享化、电动化,其中最重要的是两化——电动化、智能化。电动化可以理解成是新能源,现在中国已经是全球最活跃、最大的新能源市场,不管是在用户规模或者出口规模都是全球第一,这是新汽车的上半场。下半场最重要的是智能驾驶,未来5-10年全球竞争的热点和制高点就是自动驾驶。人工智能是自动驾驶核心的技术驱动力,毫末从一开始成立就以AI作为公司的技术引擎,所以HAOMO AI DAY十分重要。


为什么这么多的企业都在做智能驾驶?包括传统汽车厂商、新势力、高科技企业都在进入自动驾驶市场?其实,这里面有很多的技术挑战,首先从AI的角度来看,自动驾驶是高度复杂的,需要很多算力、新算法,是最具有挑战的AI垂直领域问题,其次,自动驾驶也是目前看到的聚生智能、边缘智能、自主智能的交集。刚刚毫末的测试视频里可以看到自动驾驶面对这么多的复杂场景和变化,确实有很多的挑战。


但是,我认为自动驾驶是完全可以实现的,其中有一些关键的问题,有一些是市场的因素,有一些是非市场的力量。市场的因素包括技术是否可行?用户有没有真正需求?产业生态及商业模式。非市场因素也很重要,需要行业有技术突破,也需要有政府产业方面的支持,以及与政策法规突破。


在技术方面,一开始很多人在讲无人驾驶是否可行,特别是L4以上是否可行?我从一开始认为就是可行的。最近看到一些数据,无人驾驶比有人驾驶安全10倍左右,在去年我还在讲是3倍,今年已经到了10倍。这说明技术突破已经完成。在商业化路线图上,目前也有各种各样的方式,有一些是用单车智能,有一些车路协同,还有渐进式、跳跃式的路线,开源、封闭的路线,不同企业都在探索不同的路线图,没有说哪一个是完全正确的,产业在用不同的方式尝试自动驾驶。我知道毫末选择了渐进式,我觉得这些都很好,大家用不同的方式去探索。


张亚勤:预训练、生成式大模型,将带来自动驾驶技术范式新变革


最近在AI方面有很多新的突破。我们看到新的算法、新的框架,特别是预训练、多模态、多监督学习、大模型成为主流。在Transformer之前,ResNeT曾经是作为非常广泛应用的视觉算法框架,我之所以特别提到ResNeT,这个算法其实是中国的年轻科学家在中国完成的,因此中国科学家对于人工智能有着很大的贡献。我听到很多的说法,认为AI的核心主要是从欧洲来的,基本的理论是从那里来的,但是中国科学家在人工智能领域也做出了很多的贡献。


大模型很重要的一点是要突破技术限制。过去六、七十年中主要有三个重要的理论:摩尔定律、冯·诺依曼架构、香农三定律,现在那这三个理论都在被突破。如果不突破,大模型不可能实现,这其中需要有新的传感方式,新的感知方式,需要有新的计算机体系架构的突破,包括芯片新框架等,现在主流的Transformer和CNN卷积神经网络也都不一样。目前,数字技术产业主要还是基于硅片的计算,未来可能会有生物科学、光计算、量子计算。


当前,很重要的一点就是大模型带来生成式的AI,过去AI讲的是分类,也就是判别式的AI。现在可以完全生成新的内容创意、数据的创意,也可以在场景方面有很多新的创意。下面我稍微讲一下在这方面的工作。


大模型走向了新方向。首先是多模态,不仅仅是自然语言、图像、视频,也包括传感信号、激光雷达等从所有车机发出的物理感知、生物感知信号。大家看到GPT-4大模型就是多模态的,其功能很强大,不过效率很低,大致比人大脑的计算和决策效率至少要低1000倍,所以还需要有新的算法,我觉得5年之后就会有新的算法出现。其次是自主智能,可以去自动的完成任务,包括边缘计算,把很复杂的大模型怎么样放在手机、汽车、机器人边缘上,还有具身智能和物理世界连在一块,我认为自动驾驶是最重要的具身智能场景。未来是脑机智能阶段,大模型将面临怎么样用到生物的世界、生命的世界,怎样让人和脑更好的连接。


新技术架构都会用到大模型,就像新的AI操作系统一样,上面会有很多垂直的模型,包括做自动驾驶或者其他像生命科学垂直的模型。


我这里再简单讲一下清华智能产业研究院(AIR),这是我从百度退休之后创立的人工智能产业研究院,3年的时间发展速度很快,也很幸运能够找到一批有很深产业背景,同时有很深学术造诣的科学家和企业CTO。现在差不多加上博士后、学生有300人左右,自动驾驶是其中的一个方向,大概有100人左右。


每一次讲到AIR研究院,都会想起25年前我回国创立微软亚洲研究院。下个月会庆祝微软亚洲研究院25周年,这个研究院本身相当的成功。我刚刚讲的大模型就是在微软研究院所开发的,希望能够打造面向中国产业的研究院。


我们在从事各种研究的时候希望有一个大的框架,比如智能驾驶方面要先确定一些技术路线。首先我认为多模态的感知很重要,从原多尺度、多维的数据很重要。因为做无人驾驶、智能驾驶,机器人的优势首先就是要求数据比较多,这个数据优势不能仍掉,所以我不同意马斯克所说的只用摄像头,我们需要用更多的数据源。其次是现在很多的自动驾驶会用到很多高精地图,但是我们认为未来是轻地图,不能完全依赖于地图。


自动驾驶达到最后的安全、可靠阶段一定是端到端方式实现的,这个也非常难,这里面有更详细的技术因素,包括生成式AI、强化学习、大语言模型,我们有两个平台:数据大模型平台、仿真平台。


AIR也提出了自己的自动驾驶基础模型。首先模型提出了怎么样获取不同数据,包括真实世界数据和仿真数据。数据要经过受控管道进行清理,然后再经过两个大模型:感知模型、决策模型,包括在一些云端和车端的关键场所做出决策,有一些模块是提供信息,有一些是统计的,也有一些是基于规则的模块。


我在里面专门把“强化学习”拿出来,因为强化学习我从百度开始的时候就在用到的,但是很难用。因为自动驾驶安全性很重要,用起来相当困难,但是我认为这个是我们唯一真正达到更高安全的方式,强化学习可以学到新的东西,现在泛化的方式要靠强化学习去学习,最近也有很多新的进展。怎么样把强化学习用到很多模拟和决策,用到真正驾驶的行为当中。左边模型是垂直大数据,怎么样用强化学习去调整模型。


另外是生成式AI怎么样能用到仿真、决策当中?这里面有一个小的例子,大模型和深度学习都有透明度的问题,所以我们也做了这方面的研究,我到底为什么做这个决定?左转、右转、刹车,告诉我看到什么东西了,以及我为什么要做这个决定,它可以引导怎么样做决定。这个是用真实数据、仿真数据、垂直模型、大模型生成语意深度场景,包括交通和行人的信息。


另外是人脑和机器的融合,我们要去研究一下人是怎么开车的。人有的时候决策很好,有的时候决策不好,把这些信息通过传感器收集起来。一方面在很长时间人和机器要共驾,无人驾驶要慢慢理解人的驾驶。另一方面把模型用到算法当中,改善算法的效率。


最后,我们非常高兴能和毫末在技术方面有深度的合作,这个合作是关于怎么样把强化学习用到认知决策里面?怎么样用真实的数据和实车场景用强化学习把它融合起来,当前,强化学习有很多的问题,在线或者离线的方式,包括函数定义的问题、策略模糊性的问题,所以我们做了很多这样的研究。过去一年多,在国际顶会发表了很多的论文,同时也有专利,最重要的是现在开始用到车里面,刚刚看到物流的小车已经开始用这些算法。


总结一下,如果看智能驾驶和自动驾驶经历的不同阶段,一开始的时候更多是用激光雷达和硬件驱动,更多是基于人工的规则。2.0是软件和算法的驱动,这个阶段有更多的传感器,也要靠机器学习和规则。现在走到3.0的时代,就是大模型的驱动,这个阶段有多传感器用到端与端的算法,也会用到强化学习,可以更大程度地实现自动驾驶在真实的世界落地。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    考虑进去,所以模型预测控制在无人车控制中具有很高的应用价值。 在本结我们概述了无人驾驶系统的基本结构,无人驾驶软件系统通常被划分为三层:感知,规划和控制。从某种程度上而言,无人......
    行的时候已经存在一定的延迟,PID算法无法满足无人车控制中的要求。   模型预测控制(MPC)是一种致力于将更长时间跨度、甚至于无穷时间的最优化控制问题,分解为若干个更短时间跨度,或者有限时间跨度的最优化控制......
    加强硬件系统的可靠性和安全性设计,以便更好地应对各种故障和异常情况。 在软件方面,应采用更为智能、高效、稳定的决策和控制算法,例如深度学习、强化学习、模型预测控制等技术,以便使无人驾驶汽车更准确、安全地预测......
    用更为智能、高效、稳定的决策和控制算法,例如深度学习、强化学习、模型预测控制等技术,以便使无人驾驶汽车更准确、安全地预测、规划和执行行驶任务。同时,还应加强软件系统的安全性和稳定性设计,采用形式化验证、安全......
    ,设计了融合IMU、GNSS接收机和里程表的组合导航控制算法。导航控制算法将预期路线划分为多段,并根据电子地图的经纬度、航向角和关键点序列来进行计算,最终得到无人驾驶车辆......
    《Engineering》 该研究解决了自动驾驶决策和运动规划的关键问题,旨在提高安全性和效率。研究团队开发出混合数据和模型驱动的方法,将用于决策的深度强化学习(DRL)与用于运动规划的模型预测控制(MPC......
    周围环境的约束条件(如道路宽度、障碍物位置等),以确保车辆能够平稳、安全地行驶。 技术特点 :运动规划需要实时更新车辆状态并预测未来可能的行驶轨迹,以应对复杂多变的交通环境。 算法实现 :常用的运动规划算法包括模型预测控制......
    障碍物的移动。根据预测,战略运动规划器检查自动驾 驶车辆是否违反了安全边际。如果不是,它会检查初始长期预测轨迹 Pref 是否由于障碍物 的运动需要被修复。如果发生任何这些情况,Pref 将被更新。最后,基于模型预测控制......
    自身价值的体现,如果车内一直去不掉安全员,那么自动驾驶也便失去了意义。 然而从现实来说,很长一段时间,安全员仍是自动驾驶车辆运行过程中的标配。这背后除了有自动驾驶企业对技术不成熟的担心,还在于监管方面并未允许无人驾驶车辆......
    无人驾驶汽车是通过车载传感系统感知道路环境,自动规划行车路线并控制车辆到达预定目标的智能汽车。 它是集自动控制、体系结构、人工智能、视觉计算等众多技术于一体,是计......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>