一、语音交互流程
虽然在日常的用车过程中,通过唤醒词→发出指令→车机反馈这样一个流程进行语音交互已经习以为常,但是整个语音交互的流程其实并不像用户感知的这样简单,下面以用户一句语音交互请求为例,说明汽车语音交互整体链路和流程:
首先用户发起语音请求 (一般通过语音唤醒词唤醒或者车机按键,在此不赘述语音唤醒的过程),车机麦克风拾音之后,调用语音增强能力接口,对音频做回声消除、噪声抑制等语音增强处理,提升音频的品质。
语音增强之后的音频进行识别转写,转写之后的文本做文本后处理,如标点符号的处理、敏感词的检测和大小写规整等。
识别规整后的文本进行语义理解 (包括语义抽取、上下文交互、信源搜索、对话管理等),给出语义理解的结果。
车机端拿到语义结果之后解析出对应的技能名称、意图和语义槽,然后根据对应技能交互设计进行交互上的展示和操控 (如UI展示天气查询的结果、TTS播报天气查询结果、控制空调等)。
具体的流程示意图如下:
其中,语义理解(NLU)和语音合成(TTS)需要借助人工智能模型,这里的AI能力调用方式可以有2种方式:车端本地AI能力、云端AI能力。
车端本地AI能力的优点是在无网络或弱网络情况下也能实现用户语音交互的需求,但是由于是本地化部署方式,成本偏高,后续的更新维护只能借由OTA方式进行升级;
云端AI能力的优点是性能和效果更优秀,且调用成本低,维护升级比车端更加便捷。但是,对于汽车的网络通讯环境稳定有一定要求,否则会语音交互出现问题,造成不好的用户体验。
二、语音交互目前的核心应用场景
语音交互极大的解放了驾驶员的注意力,让越来越多的操作变得简单快捷,目前语音交互在座舱中的核心应用场景如下:
地图导航
娱乐信息(音乐、视频、图片、新闻等)
社交信息(电话、短信、微信等)
车机操控(空调、车窗、座椅等)
根据语音交互的主从关系,还分为被动语音交互和主动语音交互,目前大多数语音交互均是围绕被动语音交互在各个应用场景中的落地,而主动语音交互目前还未进行深入的场景发掘,目前主要是应用在驾驶提醒中,比如行车未系安全带等。不过,随着被动语音交互的逐渐普及,语音交互的产品亮点开始向主动语音交互拓展,尤其借助人工智能和用户的行车大数据做智能化的提醒建议,例如:
车辆油量和电量不足,车机主动发起语音提示并给出附近的加油站和充电站导航,给到用户进行确认;
车辆即将进入隧道,车机主动提示是否要设置为内循环模式,防止隧道空气浑浊影响车内的空气质量;
感知目前大雾天气,主动提示打开雾灯,等待车主确认;
等等
三、语音交互目前主要的问题
评价一个语音交互体验的好坏,主要是喊的醒、听的懂、做得到。这也是人与人交流中的基本状态,而车载语音交互目前主要的问题还是集中在:
1. 唤醒不及时(误唤醒)
这块主要是在于受车内环境影响,或者唤醒词识别模糊不精确。
唤醒词尽量朗朗上口,符合国人口头用语,比如”你好小明“,切记拗口,因为拗口就容易说错,”黑化肥会挥发“;
唤醒词避免方言的干扰,比如”你好,牛奶“,”湖建号“,且唤醒词不宜过短,例如”啊“;
如果是按键触发语音交互,此时应该车内音频通道降低音量,减少环境音对唤醒的干扰;
唤醒词尽量不和日常对话过程中的常用语重合,例如”回家“”老公“;
2. 对于内容理解不准确
-
问东答西,这里就不展开了。
3. 不知道它哪些能做到
以为能做到的说了做不到,以为做不到的说了又做到了。
这块目前是对于语音交互最大的黑盒子,因为无法一目了然知道语音交互可以做什么,导致交互心理障碍。
-
这块目前没看到有提供解决方案的,一个好的语音助手是用户可以大胆的和它沟通,并且都能得到正向反馈,这块可能是需要借助大模型进行用户意图揣测,至少保障不能总回答做不到。
四、语音交互+
日常用车中,可能并不是单一交互行为在发生,更多的是多种交互方式的组合使用。对于语音交互,可以结合触控,形成语音+触控,提升交互操作的准确性:
语音+视觉:交互更直观,便于任务判断。
语音+手势:驾驶操控更简洁自然。
五、语音交互的走向思考
语音交互应更多的由被动语音交互转为主动语音交互,甚至全主动语音交互,用户进行确认即可,毕竟选择题比问答题更好做也更容易处理。
频繁的在车内进行被动语音交互是个比较诡异的事情,尤其是有不太熟悉的人在车内,并且每当发起语音交互时,车内的人总是不约而同的沉默,挺尴尬的,让我想到了”小声点,影响到我使用TNT了“,不过车内还是相对封闭有隐私感。对于营运车辆,我几乎没有听到过一次语音交互,可能就是司机和乘客之间并不熟悉,偶尔来几句车机语音交互挺怪的。
我自己到目前,用的最多的语音交互就是导航和听歌,因为这两者都是需要打字查询,过程相对来说比较繁琐,其他情况我只有在新鲜感阶段才会用用语音交互。
与其让用户发出指令进行交互,不如将绝大多数适应场景的交互直接由车机发起,比如,上车准备触发,问一句”今天目的地是哪里“,毕竟,这样更自然。
车机根据驾驶者的驾驶数据和说话内容,结合场景推送,形成面向用户的主动语音交互,是目前语音交互更值得探索的区域。
相关文章