李晓华：多模态大模型打造下一代座舱大脑

由中国汽车技术研究中心有限公司、中国汽车工程学会、中国汽车工业协会、中国汽车报社共同主办，天津经济技术开发区管理委员会特别支持，日本汽车工业协会、德国汽车工业协会、中国汽车动力电池产业创新联盟、新能源汽车国家大数据联盟联合协办的第二十届中国汽车产业发展（泰达）国际论坛（以下简称“泰达汽车论坛”）于2024年8月29日至9月1日在天津滨海新区举办。本届论坛以“风雨同舟二十载携手并肩向未来”为年度主题，邀请重磅嘉宾展开深入研讨。

在9月1日“科技生态方向圆桌论坛一：20年新引擎——深化人工智能技术的垂直化应用”中，商汤绝影创新中心高级总监李晓华发表题为“多模态大模型打造下一代座舱大脑”的演讲。

2024泰达论坛 | 李晓华：多模态大模型打造下一代座舱大脑

商汤绝影创新中心高级总监李晓华

以下为演讲实录：

大家上午好！我是来自商汤绝影的李晓华。大模型在车领域，无论是大语言模型还是多模态模型，都带来了许多新的体验。

首先，我想播放一个小视频，来展现多模态大模型在车行业中所带来的全新体验。（播放视频）

刚刚播放的这个视频主要展示了多模态大模型如同一个助手，时刻关注着座舱内以及车外发生的事情。例如，它能判断车辆是否在公交车道行驶，是否有交警指挥，并能给出更好的建议。

接下来，我将为大家介绍一张多模态大模型的业务图。我们可以将这张图分为三层，最下面一层橙色部分是模型层，其中包括车端侧的模型和云端的模型。车端侧的模型可根据需求部署 2.1B、8B等规模的模型，用于进行端侧的多模态大模型推理。

在云端，则可以部署更大规模的模型，如 20B、100多B的模型。此外，云端除了多模态大模型外，还包括一些其他云类模型，如车书、医疗方面的模型，这些都适用于车领域的场景。上面蓝色部分是引擎层，考虑到底层模型，包括记忆、推理框架等，使用起来相对复杂，因此我们构建了引擎层。引擎层主要有两个产品：

第一个是座舱大脑，它主要有以下几个能力：

1.能够很好地感知座舱内的情况，例如识别人的穿着、性别，细致观察座舱内的细节特征，包括物品，如手机、宠物、帽子、眼镜等，都能识别出来。

2.能够感知一些行为，如打电话、吃东西等，并能有效地输出。

3.能够进行环境推理和意图推理，例如识别出两个人在交流、在讨论高兴的事情等。

4.具有跨时空的记忆能力，能够很好地记住座舱内的人员以及共同经历的事情。就像刚才的 Demo 中第一个场景提到的 “去我们上次去的那个咖啡馆”，它能记住上次与谁一起去的咖啡馆，并且能识别出这次的人员是否与上次相同，这种能力可以作为座舱内产品的输出。

第二个产品是全时驾驶辅助，它利用多模态大模型的能力感知车外场景，包括道路条件，如是否有积水、挖坑、道路是否坑洼等，并能做出相应推荐，例如车辆应如何调节以适应路况，以及光照、逆光等情况，它都可以作为行驶策略的辅助。此外，它还能提供决策辅助，感知周围路况，如识别出众多电动车、路边摊贩、救护车等，并做出决策辅助。最后，它还能提供一些判断条件，包括司机的状态、通行障碍等。这个产品主要感知车外能力，为驾驶提供辅助推荐。

下面，我将从技术角度介绍端云参考架构。这张图展示了我们的多模态模型可以单独部署在端侧，也可以部分部署在端侧，部分部署在云侧，而语言类模型可以纯粹部署在云侧。从最左边开始，用户发出声音后，通过语音转成 SR 文本，包括 OMS 摄像头等数据，都将经过数据处理模块，对图片、文字、声音以及车的信号进行处理。然后进入触发器模块，该模块主要考虑端云结合的情况，根据一些触发信号，如开关门或用户提问来进行触发。如果是纯端侧算力方案，则可以不断触发。接下来是进入任务调度模块，然后到端侧模型。如果是端云一体的模型，我们会在端侧主要对图像进行图像特征向量化的提取，将端侧的特征送到云端进行推理生成。在云端做出推荐后，它可以进入到行动词，该行动词具有车辆插件的能力以及其他智能体的配合，构建了一个工作流。

接下来，我想讲一下大模型在座舱合作的模式。首先，在部署方面，我们刚才提到可以部署在纯云端，也可以采用端和云结合的方式。云端可以通过自研的推理框架，支持 100 多个算子库，能够高效地进行端侧模型计算。在生态开发方面，可以实现服务应用的便捷开发，并且通过安全沙箱实现端侧与云侧隐私安全的隔离。下一步是持续更新，通过数据闭环，将用户反馈的数据通过闭环进行训练，通过私有化的 SFT 进行微调，以加强大模型的能力。最后，在合作模式上，我们前面介绍过，从模型层、产品引擎层到上层的应用层，都可以进行不同方式的合作。

最后，我想谈一谈车类产品离不开芯片平台的支持。在过去的一年，我们在高通、英伟达的 Orin 基础上完成了端侧框架的联调适配。今年，我们主要在 MTK8678 平台上进行模型算子的调节。后面，我们还会在英伟达的 Sora、Intel 等芯片上进行多模态模型的部署。

今天我的分享就到这里，谢谢大家！

李晓华：多模态大模型 打造下一代座舱大脑

李晓华：多模态大模型打造下一代座舱大脑