李晓华:多模态大模型 打造下一代座舱大脑

发布时间:2024-09-03  

由中国汽车技术研究中心有限公司、中国汽车工程学会、中国汽车工业协会、中国汽车报社共同主办,天津经济技术开发区管理委员会特别支持,日本汽车工业协会、德国汽车工业协会、中国汽车动力电池产业创新联盟、新能源汽车国家大数据联盟联合协办的第二十届中国汽车产业发展(泰达)国际论坛(以下简称“泰达汽车论坛”)于2024年8月29日至9月1日在天津滨海新区举办。本届论坛以“风雨同舟二十载 携手并肩向未来”为年度主题,邀请重磅嘉宾展开深入研讨。


在9月1日“科技生态方向圆桌论坛一:20年新引擎——深化人工智能技术的垂直化应用”中,商汤绝影创新中心高级总监李晓华发表题为“多模态大模型 打造下一代座舱大脑”的演讲。


2024泰达论坛 | 李晓华:多模态大模型 打造下一代座舱大脑


商汤绝影创新中心高级总监  李晓华


以下为演讲实录:


大家上午好!我是来自商汤绝影的李晓华。大模型在车领域,无论是大语言模型还是多模态模型,都带来了许多新的体验。


首先,我想播放一个小视频,来展现多模态大模型在车行业中所带来的全新体验。(播放视频)


刚刚播放的这个视频主要展示了多模态大模型如同一个助手,时刻关注着座舱内以及车外发生的事情。例如,它能判断车辆是否在公交车道行驶,是否有交警指挥,并能给出更好的建议。


接下来,我将为大家介绍一张多模态大模型的业务图。我们可以将这张图分为三层,最下面一层橙色部分是模型层,其中包括车端侧的模型和云端的模型。车端侧的模型可根据需求部署 2.1B、8B等规模的模型,用于进行端侧的多模态大模型推理。


在云端,则可以部署更大规模的模型,如 20B、100多B的模型。此外,云端除了多模态大模型外,还包括一些其他云类模型,如车书、医疗方面的模型,这些都适用于车领域的场景。上面蓝色部分是引擎层,考虑到底层模型,包括记忆、推理框架等,使用起来相对复杂,因此我们构建了引擎层。引擎层主要有两个产品:


第一个是座舱大脑,它主要有以下几个能力:


1.能够很好地感知座舱内的情况,例如识别人的穿着、性别,细致观察座舱内的细节特征,包括物品,如手机、宠物、帽子、眼镜等,都能识别出来。


2.能够感知一些行为,如打电话、吃东西等,并能有效地输出。


3.能够进行环境推理和意图推理,例如识别出两个人在交流、在讨论高兴的事情等。


4.具有跨时空的记忆能力,能够很好地记住座舱内的人员以及共同经历的事情。就像刚才的 Demo 中第一个场景提到的 “去我们上次去的那个咖啡馆”,它能记住上次与谁一起去的咖啡馆,并且能识别出这次的人员是否与上次相同,这种能力可以作为座舱内产品的输出。


第二个产品是全时驾驶辅助,它利用多模态大模型的能力感知车外场景,包括道路条件,如是否有积水、挖坑、道路是否坑洼等,并能做出相应推荐,例如车辆应如何调节以适应路况,以及光照、逆光等情况,它都可以作为行驶策略的辅助。此外,它还能提供决策辅助,感知周围路况,如识别出众多电动车、路边摊贩、救护车等,并做出决策辅助。最后,它还能提供一些判断条件,包括司机的状态、通行障碍等。这个产品主要感知车外能力,为驾驶提供辅助推荐。


下面,我将从技术角度介绍端云参考架构。这张图展示了我们的多模态模型可以单独部署在端侧,也可以部分部署在端侧,部分部署在云侧,而语言类模型可以纯粹部署在云侧。从最左边开始,用户发出声音后,通过语音转成 SR 文本,包括 OMS 摄像头等数据,都将经过数据处理模块,对图片、文字、声音以及车的信号进行处理。然后进入触发器模块,该模块主要考虑端云结合的情况,根据一些触发信号,如开关门或用户提问来进行触发。如果是纯端侧算力方案,则可以不断触发。接下来是进入任务调度模块,然后到端侧模型。如果是端云一体的模型,我们会在端侧主要对图像进行图像特征向量化的提取,将端侧的特征送到云端进行推理生成。在云端做出推荐后,它可以进入到行动词,该行动词具有车辆插件的能力以及其他智能体的配合,构建了一个工作流。


接下来,我想讲一下大模型在座舱合作的模式。首先,在部署方面,我们刚才提到可以部署在纯云端,也可以采用端和云结合的方式。云端可以通过自研的推理框架,支持 100 多个算子库,能够高效地进行端侧模型计算。在生态开发方面,可以实现服务应用的便捷开发,并且通过安全沙箱实现端侧与云侧隐私安全的隔离。下一步是持续更新,通过数据闭环,将用户反馈的数据通过闭环进行训练,通过私有化的 SFT 进行微调,以加强大模型的能力。最后,在合作模式上,我们前面介绍过,从模型层、产品引擎层到上层的应用层,都可以进行不同方式的合作。


最后,我想谈一谈车类产品离不开芯片平台的支持。在过去的一年,我们在高通、英伟达的 Orin 基础上完成了端侧框架的联调适配。今年,我们主要在 MTK8678 平台上进行模型算子的调节。后面,我们还会在英伟达的 Sora、Intel 等芯片上进行多模态模型的部署。


今天我的分享就到这里,谢谢大家!


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>