思必驰:大模型下的智能座舱交互体验

发布时间:2024-01-03  

从人机交互、语音交互的角度来划分智能座舱等级,可分为:L1车机智能、L2全车智能、L3情感智能、L4数字生命、L5灵魂伴侣五个等级。


2023年12月13日,在2023第五届智能座舱与用户体验大会上,思必驰智能汽车事业部研发总监甘津瑞谈到,从最初的车能“听到”,到后来的车能“理解人”,再到未来的车能“理解你”,以及最终的车“为你服务”,每一个等级的提升都与自动驾驶等级的提升相一致。


目前,智能座舱的语音交互与自动驾驶程度一致,正处于L2阶段。甘津瑞表示:“要达到L3,我们仍需面对几个挑战。首先,需要解决情感化输入的口语理解问题。其次,需要解决情感化输出的NLG生成问题,以及当前的人为设计的可穷举的情感交互问题。这些问题在大模型面前似乎轻而易举,因此大模型有望为智能座舱的交互体验带来颠覆性提升。”


思必驰:大模型下的智能座舱交互体验


甘津瑞 | 思必驰智能汽车事业部研发总监


以下为演讲内容整理:


智能座舱交互的L1-L5


从人机交互、语音交互的角度来划分智能座舱等级,可分为:L1车机智能、L2全车智能、L3情感智能、L4数字生命、L5灵魂伴侣五个等级。从最初的车能听到,到后来的车能理解人,再到未来的车能理解“你”,以及最终的车为你服务,每一个等级的提升都与自动驾驶等级的提升相一致。在交互过程中,需要融合的信息和参与决策的参数都在大幅增加,相应的底层核心能力、基础算法、工程架构以及算力需求也是指数级提升,对交互体验来说,也是颠覆性的提升。

思必驰:大模型下的智能座舱交互体验


图源:演讲嘉宾素材


在未来的L4和L5阶段,智能座舱需要处理海量数据的强大能力,需要依靠大模型的超强推理能力和插件化能力来完成体验的提升。大模型擅长于沟通万物、打理万事。在这个阶段,所有的信息和能力都将被原子化,并以插件的形式提供。例如,当前使用的小模型以及各种生态,如互联网、物联网和车联网,都将以原子化的能力参与大模型的决策和信息抽取。


智能座舱当前处于哪个阶段?与智能驾驶一样,目前智能座舱处于L2+的状态。大家都在努力往L3的情感智能阶段进行突破。


要达到L3,目前仍需面对几个挑战。首先,需要解决情感化输入的口语理解问题。其次,需要解决情感化输出的NLG生成问题,以及当前的人为设计的可穷举的情感交互问题。这些问题在大模型面前似乎轻而易举,因此大模型有望为智能座舱的交互体验带来颠覆性提升。这已经成为大模型在智能座舱中的行业共识,同时,也必须面对一些实际落地过程中的挑战和难点。首先,通用大模型在俯身进场下会出现水土不服的情况。例如,当大模型接到车上,可能会出现设计出来的场景不够“刚”或大模型速度较慢的问题,或者用户体验可能与网页上的体验存在差异,以及在L2阶段遇到的痛点似乎还未得到解决。


另一个挑战是在落地过程中遇到的困境,比如说用户注意力受限下的场景围栏。基于我们的统计数据,不管大家在L2阶段怎么推陈出新,高频使用场景始终是车控、导航、音乐和天气等几个方面。随着智能驾驶L3的到来,用户驾驶过程中的注意力将得到释放。新的高频场景,如娱乐诉求、工作诉求以及一个人开车时的交谈诉求将涌现出来。


此外,大模型的到来将对智能座舱的质量体系提出挑战,即怎么能够客观地认定这个版本的语音交互是能够达到量产水平的。随着新场景的涌现,不能再像以前那样对每个功能进行全量测试。随着娱乐场景、工作场景带来新的诉求,例如对于车载会议的需求,我们需要重新设计一个测试体系来判定车载会议的体验是否良好。


思必驰及DFM大模型


在此背景下,我向大家介绍思必驰,以及我们今年推出的DFM大模型。近十年,思必驰一直专注于对话式AI平台的建设。基于我们自主研发的全链路语音交互技术,思必驰已成为行业里坚持对话式AI交互的供应商之一。自2017年发布DUI平台以来,近六年的时间里,我们不断地在整个全链路各个环节开放定制化、差异化的能力,为多家车企提供覆盖感知层面、认知层面以及知识图谱层面等的支持。

思必驰:大模型下的智能座舱交互体验


图源:演讲嘉宾素材


今年,我们发布了DFM-2大模型,这是一个具有通用智能且针对垂直领域的行业语言大模型。在各种客观评测中,该模型在百亿级大模型性能方面处于领先地位。


基于DUI平台和DFM-2大模型,我们正在进行一系列创新优化。目前,我们正在使用DFM-2大模型全面升级DUI的每一个算法链路,实现从面向车企的差异化定制到面向车主用户级的差异化定制的升级。


新一版的DUI2.0平台,我们将开放以下五个关于大模型的定制化能力:包括外部信源增强的精准推理决策、基于深度认知的通用语义理解、基于文档理解的可信主动知识问答、面向用户个性化的多人设交互、面对复杂任务的自动规划与执行。

思必驰:大模型下的智能座舱交互体验


图源:演讲嘉宾素材


为了确保大模型以及人机交互方案,从设计阶段到最终量产阶段、以及后续OTA阶段的顺利推进,我们将开放全链路的定制、快速训练、效果评估以及持续优化的平台给车企,帮助他们实现快速且质量保证的平台建设。


大模型上车,智能座舱体验升级


今年是天琴5.0批量量产的一年。在天琴5.0中,我们为车企提供了覆盖感知层、认知层和知识体系层的新功能。例如,多人同时交互、全车全时免唤醒、动态VAD、两字唤醒以及语义层面的离在线趋同、流式多意图、主动交互等。

思必驰:大模型下的智能座舱交互体验


图源:演讲嘉宾素材


即将首发量产的天琴6.0是基于5.0版本,结合大模型技术使大模型快速上车的一个版本。天琴6.0将融合大模型的六大能力,实现快速赋能车载人机交互的解决方案,具体包括以下方面。


出行场景。在导航需求的基础上,利用大模型的赋能实现更复杂的出行规划功能,形成个性化的出行方案。在出行规划过程中,我们将打通导航、天气、网络资源等多源信息,为用户提供综合性的解决方案。


关怀场景。通过在输入维度增加用户信息和车内外多维度信息,利用大模型的预测能力实现情感化的交互关怀体验。我们将根据用户需求和情境,提供更加贴心和个性化的关怀体验。


多人设。天琴6.0将突破传统的“固定模式化人设”设定方式。基于用户输入的各种维度和任务需求,通过大模型进行综合决策并生成不同的NLG结果,甚至调用不同的TTS音色来达到更加多元化和自由化的人设效果。这将使用户能够根据自己的喜好和需求进行个性化设置,提升语音交互的个性化和用户体验。

思必驰:大模型下的智能座舱交互体验


图源:演讲嘉宾素材


大模型下的多意图。在天琴5.0我们推出流式多意图的亮点功能,在天琴6.0中会升级为大模型多意图,基于实测场景进行更加复杂任务的定制。例如,之前的自定义指令需要用户在车机或手机上设定条件和执行动作。在大模型加持下的多意图将实现更加智能的任务设定,用户只需要简单说出自己的需求和条件,系统就能够自动进行设定和任务管理。这将大大简化用户操作流程并提高语音交互的智能化水平。


在“汽车大师”这一部分,我们的升级版综合了汽车售前、售中、售后的知识体系,构建了汽车领域的百科专家。确保车主在任何情况下都可以通过语音交互获取车辆使用相关的各种信息。


DFM大模型赋能的未来天琴


天琴6.0方案是为了迎接智能座舱L3等级的到来而设计的,同时我们也为L4和L5做了量产规划。在天琴7.0阶段,大模型将在整个链路上全面深度参与人机交互。

思必驰:大模型下的智能座舱交互体验


图源:演讲嘉宾素材


在感知IO层,我们之前使用的是在本地运行的模型,如唤醒、本地识别、本地合成。每个车型都需要进行深度的差异化定制以保证良好的用户体验。然而,在7.0阶段,我们将利用DFM大模型作为小模型的训练师,使每台车、每个用户的模型都是独一无二的。在过去,为每个用户定制一个模型的想法代价是巨大的,因为标注和实现成本相当高。但有了大模型之后,用户级、单车级的模型自训练逐渐成为现实。


在认知控制层,大模型也将全面改造流式多意图、语义自学习、人设自适应和情感自适应。在6.0方案中,大模型在一定程度上参与了自适应能力,实现了用户的差异化体验。而在7.0中,整个语义层面都实现了用户级的差异化自适应,这意味着人机交互中再也不会出现“对不起,我听不懂,请再说一遍”这样的情况。“数字人自生成”也突破了以往的规则限制,更自由地生成NLG动作和语调等。


“全任务域离线交互”核心在于大模型的领域或场景需要用到云端的能力,那么我们把常规L2常用的导航、天气、车控等都放在SOC上离线运行,这样就把这部分算力空余给了大模型,使其能够支持更大的并发,并降低车企在大模型落地过程中的成本。同时,基于用户对隐私安全的强烈诉求,全领域离线交互的支持意味着即使车主非常介意隐私数据上云的程度,他们也可以在拒绝隐私协议的情况下进行全任务域的交互而不受影响。


在认知知识层面,大模型的作用更加显著。例如,以后大模型可以化身为“超级任务大师”和“车内工作助理”,甚至是“游戏设计师”“夜路陪聊员”和“事故辅救员”。这些只是基于自动驾驶L3出现的新场景所做的针对性设计。当然,我们也会通过DUI平台的全链路开放定制能力,为各个车企和客户提供不断设计新场景的机会,探索与自己的用户群体更贴近、更能激发他们使用频次的场景设计。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    :BAEFormer整体框架图   前置交互   对于前置交互模块,我们使用EfficientNet[5]的预训练模型来提取环视图像的特征,特征提取器包含三层,分别提取图像的4x,8x,16x分辨......
    的是提供一个基于IP的单一协议,能够统一全球智能家居物联网连接。 本文讨论了Matter 1.0的基本架构、安全性、传输与交互模型及其对智能家居未来的意义。本文末尾一节专门向读者介绍了开发基于Wi-Fi的Matter......
    修改的数据只能用来查阅;采样通道对象主要用于描述数控设备中可以进行采样的数据以及对应的采集周期。 根据信息交互模型和实际系统建立的工业机器人数据模型如图4所示。 3.3数据接口层 数据接口层的作用主要是与MQTT......
    示波器实验系统出现误差,原因哪有哪几种;示波器是用来测量交流电或脉冲电流波的形状的仪器,由电子管放大器、扫描振荡器、阴极射线管等组成。那么示波器实验系统误差产生原因哪有哪几种? 示波......
    技术也对智能座舱的发展有所辅助。 随着特斯拉在量产车上应用智能座舱的成功案例,掀起了智能座舱研发大潮。自此,汽车制造商对智能座舱领域的重视程度日益增加。 智能座舱包含哪些功能 ......
    技术的多模态特点可以打通视觉、听觉、触觉等多模态应用,从而带动交互模式从单一语音/视觉交互,进入多模交互阶段。 例如蔚来NOMI GPT端云多模态大模型正式上线后,NOMI拥有......
    液体流量计有哪几种,液体流量计算公式及单位;  液体流量计是根据卡门涡原理制造用于测量密封管道中液体、气体、蒸汽流量的精密仪表。   液体流量计有哪几种   1、防腐蚀流量计   2、差压......
    察器件的工作点如何动态响应这些变化。    这些交互式数据手册使用Nexperia的高级电热模型计算器件的工作点,可有效地为电路仿真器提供一种图形用户界面。此外,工程师借助这些交互......
    PLC 开关量输出接口有哪几种类型?各有什么特点?;工业生产和科技的发展都离不开PLC的自动化控制,PLC可以广义的理解为:集中的继电器延伸控制柜,实际的生产应用中,PLC大大......
    STM32单片机有哪几种常见的开发环境?;STM32单片机是一款广泛应用于嵌入式系统开发的单片机,针对其开发,有以下几种常见的方式: STM32单片机有哪几种常见的开发环境? Keil MDK......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>