智能座舱——车载语音交互应该怎样更好?

发布时间:2024-08-08  

一、语音交互流程

虽然在日常的用车过程中,通过唤醒词→发出指令→车机反馈这样一个流程进行语音交互已经习以为常,但是整个语音交互的流程其实并不像用户感知的这样简单,下面以用户一句语音交互请求为例,说明汽车语音交互整体链路和流程:


  • 首先用户发起语音请求 (一般通过语音唤醒词唤醒或者车机按键,在此不赘述语音唤醒的过程),车机麦克风拾音之后,调用语音增强能力接口,对音频做回声消除、噪声抑制等语音增强处理,提升音频的品质。


  • 语音增强之后的音频进行识别转写,转写之后的文本做文本后处理,如标点符号的处理、敏感词的检测和大小写规整等。


  • 识别规整后的文本进行语义理解 (包括语义抽取、上下文交互、信源搜索、对话管理等),给出语义理解的结果。


  • 车机端拿到语义结果之后解析出对应的技能名称、意图和语义槽,然后根据对应技能交互设计进行交互上的展示和操控 (如UI展示天气查询的结果、TTS播报天气查询结果、控制空调等)。


具体的流程示意图如下:


图片


其中,语义理解(NLU)和语音合成(TTS)需要借助人工智能模型,这里的AI能力调用方式可以有2种方式:车端本地AI能力、云端AI能力。


车端本地AI能力的优点是在无网络或弱网络情况下也能实现用户语音交互的需求,但是由于是本地化部署方式,成本偏高,后续的更新维护只能借由OTA方式进行升级;


云端AI能力的优点是性能和效果更优秀,且调用成本低,维护升级比车端更加便捷。但是,对于汽车的网络通讯环境稳定有一定要求,否则会语音交互出现问题,造成不好的用户体验。


二、语音交互目前的核心应用场景


语音交互极大的解放了驾驶员的注意力,让越来越多的操作变得简单快捷,目前语音交互在座舱中的核心应用场景如下:


  • 地图导航


  • 娱乐信息(音乐、视频、图片、新闻等)


  • 社交信息(电话、短信、微信等)


  • 车机操控(空调、车窗、座椅等)


根据语音交互的主从关系,还分为被动语音交互和主动语音交互,目前大多数语音交互均是围绕被动语音交互在各个应用场景中的落地,而主动语音交互目前还未进行深入的场景发掘,目前主要是应用在驾驶提醒中,比如行车未系安全带等。不过,随着被动语音交互的逐渐普及,语音交互的产品亮点开始向主动语音交互拓展,尤其借助人工智能和用户的行车大数据做智能化的提醒建议,例如:


  • 车辆油量和电量不足,车机主动发起语音提示并给出附近的加油站和充电站导航,给到用户进行确认;


  • 车辆即将进入隧道,车机主动提示是否要设置为内循环模式,防止隧道空气浑浊影响车内的空气质量;


  • 感知目前大雾天气,主动提示打开雾灯,等待车主确认;

  • 等等


三、语音交互目前主要的问题


评价一个语音交互体验的好坏,主要是喊的醒、听的懂、做得到。这也是人与人交流中的基本状态,而车载语音交互目前主要的问题还是集中在:


1. 唤醒不及时(误唤醒)


  • 这块主要是在于受车内环境影响,或者唤醒词识别模糊不精确。


  • 唤醒词尽量朗朗上口,符合国人口头用语,比如”你好小明“,切记拗口,因为拗口就容易说错,”黑化肥会挥发“;


  • 唤醒词避免方言的干扰,比如”你好,牛奶“,”湖建号“,且唤醒词不宜过短,例如”啊“;


  • 如果是按键触发语音交互,此时应该车内音频通道降低音量,减少环境音对唤醒的干扰;


  • 唤醒词尽量不和日常对话过程中的常用语重合,例如”回家“”老公“;


2. 对于内容理解不准确


  • 问东答西,这里就不展开了。


3. 不知道它哪些能做到


  • 以为能做到的说了做不到,以为做不到的说了又做到了。


  • 这块目前是对于语音交互最大的黑盒子,因为无法一目了然知道语音交互可以做什么,导致交互心理障碍。


  • 这块目前没看到有提供解决方案的,一个好的语音助手是用户可以大胆的和它沟通,并且都能得到正向反馈,这块可能是需要借助大模型进行用户意图揣测,至少保障不能总回答做不到。


四、语音交互+


日常用车中,可能并不是单一交互行为在发生,更多的是多种交互方式的组合使用。对于语音交互,可以结合触控,形成语音+触控,提升交互操作的准确性:


图片


语音+视觉:交互更直观,便于任务判断。


图片


语音+手势:驾驶操控更简洁自然。


图片


五、语音交互的走向思考


语音交互应更多的由被动语音交互转为主动语音交互,甚至全主动语音交互,用户进行确认即可,毕竟选择题比问答题更好做也更容易处理。


频繁的在车内进行被动语音交互是个比较诡异的事情,尤其是有不太熟悉的人在车内,并且每当发起语音交互时,车内的人总是不约而同的沉默,挺尴尬的,让我想到了”小声点,影响到我使用TNT了“,不过车内还是相对封闭有隐私感。对于营运车辆,我几乎没有听到过一次语音交互,可能就是司机和乘客之间并不熟悉,偶尔来几句车机语音交互挺怪的。


我自己到目前,用的最多的语音交互就是导航和听歌,因为这两者都是需要打字查询,过程相对来说比较繁琐,其他情况我只有在新鲜感阶段才会用用语音交互。


与其让用户发出指令进行交互,不如将绝大多数适应场景的交互直接由车机发起,比如,上车准备触发,问一句”今天目的地是哪里“,毕竟,这样更自然。


车机根据驾驶者的驾驶数据和说话内容,结合场景推送,形成面向用户的主动语音交互,是目前语音交互更值得探索的区域。



文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>