由中国汽车技术研究中心有限公司、中国汽车工程学会、中国汽车工业协会、中国汽车报社共同主办,天津经济技术开发区管理委员会特别支持,日本汽车工业协会、德国汽车工业协会、中国汽车动力电池产业创新联盟、新能源汽车国家大数据联盟联合协办的第二十届中国汽车产业发展(泰达)国际论坛(以下简称“泰达汽车论坛”)于2024年8月29日至9月1日在天津滨海新区举办。本届论坛以“风雨同舟二十载 携手并肩向未来”为年度主题,邀请重磅嘉宾展开深入研讨。
在9月1日“科技生态方向圆桌论坛一:20年新引擎——深化人工智能技术的垂直化应用”中,商汤绝影创新中心高级总监李晓华发表题为“多模态大模型 打造下一代座舱大脑”的演讲。
商汤绝影创新中心高级总监 李晓华
以下为演讲实录:
大家上午好!我是来自商汤绝影的李晓华。大模型在车领域,无论是大语言模型还是多模态模型,都带来了许多新的体验。
首先,我想播放一个小视频,来展现多模态大模型在车行业中所带来的全新体验。(播放视频)
刚刚播放的这个视频主要展示了多模态大模型如同一个助手,时刻关注着座舱内以及车外发生的事情。例如,它能判断车辆是否在公交车道行驶,是否有交警指挥,并能给出更好的建议。
接下来,我将为大家介绍一张多模态大模型的业务图。我们可以将这张图分为三层,最下面一层橙色部分是模型层,其中包括车端侧的模型和云端的模型。车端侧的模型可根据需求部署 2.1B、8B等规模的模型,用于进行端侧的多模态大模型推理。
在云端,则可以部署更大规模的模型,如 20B、100多B的模型。此外,云端除了多模态大模型外,还包括一些其他云类模型,如车书、医疗方面的模型,这些都适用于车领域的场景。上面蓝色部分是引擎层,考虑到底层模型,包括记忆、推理框架等,使用起来相对复杂,因此我们构建了引擎层。引擎层主要有两个产品:
第一个是座舱大脑,它主要有以下几个能力:
1.能够很好地感知座舱内的情况,例如识别人的穿着、性别,细致观察座舱内的细节特征,包括物品,如手机、宠物、帽子、眼镜等,都能识别出来。
2.能够感知一些行为,如打电话、吃东西等,并能有效地输出。
3.能够进行环境推理和意图推理,例如识别出两个人在交流、在讨论高兴的事情等。
4.具有跨时空的记忆能力,能够很好地记住座舱内的人员以及共同经历的事情。就像刚才的 Demo 中第一个场景提到的 “去我们上次去的那个咖啡馆”,它能记住上次与谁一起去的咖啡馆,并且能识别出这次的人员是否与上次相同,这种能力可以作为座舱内产品的输出。
第二个产品是全时驾驶辅助,它利用多模态大模型的能力感知车外场景,包括道路条件,如是否有积水、挖坑、道路是否坑洼等,并能做出相应推荐,例如车辆应如何调节以适应路况,以及光照、逆光等情况,它都可以作为行驶策略的辅助。此外,它还能提供决策辅助,感知周围路况,如识别出众多电动车、路边摊贩、救护车等,并做出决策辅助。最后,它还能提供一些判断条件,包括司机的状态、通行障碍等。这个产品主要感知车外能力,为驾驶提供辅助推荐。
下面,我将从技术角度介绍端云参考架构。这张图展示了我们的多模态模型可以单独部署在端侧,也可以部分部署在端侧,部分部署在云侧,而语言类模型可以纯粹部署在云侧。从最左边开始,用户发出声音后,通过语音转成 SR 文本,包括 OMS 摄像头等数据,都将经过数据处理模块,对图片、文字、声音以及车的信号进行处理。然后进入触发器模块,该模块主要考虑端云结合的情况,根据一些触发信号,如开关门或用户提问来进行触发。如果是纯端侧算力方案,则可以不断触发。接下来是进入任务调度模块,然后到端侧模型。如果是端云一体的模型,我们会在端侧主要对图像进行图像特征向量化的提取,将端侧的特征送到云端进行推理生成。在云端做出推荐后,它可以进入到行动词,该行动词具有车辆插件的能力以及其他智能体的配合,构建了一个工作流。
接下来,我想讲一下大模型在座舱合作的模式。首先,在部署方面,我们刚才提到可以部署在纯云端,也可以采用端和云结合的方式。云端可以通过自研的推理框架,支持 100 多个算子库,能够高效地进行端侧模型计算。在生态开发方面,可以实现服务应用的便捷开发,并且通过安全沙箱实现端侧与云侧隐私安全的隔离。下一步是持续更新,通过数据闭环,将用户反馈的数据通过闭环进行训练,通过私有化的 SFT 进行微调,以加强大模型的能力。最后,在合作模式上,我们前面介绍过,从模型层、产品引擎层到上层的应用层,都可以进行不同方式的合作。
最后,我想谈一谈车类产品离不开芯片平台的支持。在过去的一年,我们在高通、英伟达的 Orin 基础上完成了端侧框架的联调适配。今年,我们主要在 MTK8678 平台上进行模型算子的调节。后面,我们还会在英伟达的 Sora、Intel 等芯片上进行多模态模型的部署。
今天我的分享就到这里,谢谢大家!