言语是人们表达思想和愿望的一种有效方式。在工业时代到来之前,人类发现动物可以被训练用来识别和响应让它们执行某些任务的基本命令。
下一个合乎逻辑的发展应该是开发一种使用声音信号与机器进行交流,并指挥机器行动的方法。近年来,以语音和音频作为电子设备的控制界面越来越受欢迎,并且这种技术也在不断发展,以满足用户的期望和新应用的要求。
在本文中,我们将解释用语音和音频信号控制电子设备和机器的好处,并回顾如何实现这种控制。我们还将展示这种控制界面现在可以如何能够嵌入到离线设备,以及它们提供的音频控制体验如何能够大幅度改善。
使用语音控制电子设备
采用语音控制实现与机器交互有几个明显好处:
●对人类来说,语音是一种直观的交流形式,这种口头传达指令的方式更容易。
●即使一个人的眼睛和手正在用于其它事情,语音交流仍然可能。实时的语音控制也很方便,例如在驾车等某些应用场景下,试图通过触摸来控制车内其它设备是违法的。
●语音是控制机器的一种有效媒介,采用语音控制机器,可以在不需要复杂指令的情况下进行监听和响应。
●在设备中集成语音控制能够最大限度地减少许多设备对触屏的需求。这对于处于远程或便携式电池供电设备来说尤其理想,在这些设备中,减小尺寸和降低功耗是常见的设计挑战。对于具有多个用户的应用来说,去掉触屏控制也更加符合卫生要求。
●如图1所示,对于某些残疾人来说,触屏控制可能是一种不现实的选择,因而语音可以成为一种有效的支持工具。通过语音与机器进行交互可用于执行诸如开门之类的任务,或者通过远程通信来传输个人最近的健康状况。
图1:声控机器人助手。(来源:Shutterstock的PaO_STUDIO)
语音控制设备的音频前端(AFE)包括麦克风阵列和信号处理模块。AFE能够处理来自多通道麦克风阵列的信号,以消除任何背景噪声或设备本身回放产生的干扰。然后,该信号被发送到“唤醒词(wake-word)”检测引擎,例如经过在设备上预先编程,可识别出“Alexa”或“OK Google”等单词。通过使用多种信号处理算法,能够消除多种不需要的干扰信号。语音控制解决方案的组成部分包括:
麦克风阵列:语音激活系统需要一个或多个麦克风来捕获音频控制信号。在选择麦克风阵列时,重要的考虑因素包括尺寸、成本、性能和稳健性。优化组合来自多麦克风阵列的不同信号有助于提高音频信号链的信噪比(SNR)。
到达方向(DoA)检测器:用于确定用户相对于被控设备的位置,以便麦克风阵列可以将波束调整为语音的方向。
波束成形器:它接受来自DoA检测器的声音,同时去除来自其他方向的声音。其性能取决于麦克风阵列的几何形状、SNR以及波束宽度和背景噪声水平等。
声学回声消除器(AEC):它会消除设备扬声器本身的播放信号(例如,设备扬声器正在播放音乐时收到语音指令),以便清晰地拾取用户语音指令。
自适应干扰消除器(AIC):它能够消除来自其他声音源的外部噪声,这些噪声很难用传统的波束成形器消除,例如,其他设备产生的较大噪声。
唤醒词检测器:将来自AFE的经过处理语音信号与唤醒词库进行比较,例如可使用唤醒词检测算法的“Hey Google”,这种算法通常是机器学习模型的一部分。更大的模型则更准确,例如,1MB训练模型比64kB模型更准确,但处理强度更大。需要大的唤醒词模型来准确地检测唤醒词,从而减少错误警报的数量。
D类音频放大器
该控制界面的语音处理部分经过大量开发,现在即使是低成本的设备也能提供准确的语音识别能力。然而,界面的音频端受到的关注明显较少,这意味着与高端音频设备相比,许多早期智能扬声器和其他支持音频的物联网(IoT)设备所产生的音质较差。
与语音控制相关的任何新产品都可能被认为分散了人们对这些缺点的关注。然而,随着智能设备越来越广泛采用,消费者对其提供的音频体验期望也越来越高。传统AB类音频放大器的低效率使其无法用于低功率物联网设备,幸运的是,几家芯片制造商最近推出了一系列高级D类音频放大器,体现了对以前可用音频放大器的重大改进,其中许多产品都是专门为在智能技术和物联网设备中实现高品质音频而开发。
德州仪器 (Texas Instruments)的TAS2770 15W输入音频放大器能够提高响度和音频质量,它具有更强的语音捕获能力,意味着语音控制设备的操作更容易、更自然。Maxim Integrated(现在属于Analog Devices旗下品牌)开发了MAX98357 和MAX98358 D类放大器,效率达到92%,可提供3.2W的AB类音频性能,这些放大器的简化框图如图2所示。Diodes Incorporated的PAM8106具有较低功耗,使其能够在由1.5V铅酸电池和3.5V锂离子电池驱动的设备中很好地运行。
图2:Maxim Integrated D类音频放大器简化框图。(来源:Maxim Integrated)
离线语音控制
亚马逊的Alexa和谷歌助手(Google Assistant)等基于云的解决方案很容易用于具有稳定互联网连接的设备,但对于那些没有稳定互联网或根本没有连接的设备来说,离线语音控制则是一个更好的解决方案。例如,如果某个产品需要响应简单的单词指令,如go、stop、reset等(通常称为关键字识别),那么在设备本身进行本地处理则很有意义。使用低成本的嵌入式微控制器可以实现简单的关键字指令系统,例如可使用恩智浦(NXP)基于EdgeReady MCU的离线本地语音控制解决方案。它采用i.MX RT交叉MCU,开发人员能够快速将语音控制集成到他们的产品中。恩智浦基于i.MX RT106S的解决方案包括SLN-LOCAL2-IOT开发工具包,如图3所示。
该开发工具包配备了在FreeRTOS上运行的全部集成软件,并提供有软件开发工具包(SDK),以便快速验证概念。离线语音控制也有助于解决许多消费者的隐私问题,因为他们担心自己的系统容易受到在线黑客的攻击。
图3:恩智浦的SLN-LOCAL2-IOT离线语音控制解决方案。(来源:恩智浦)
结论
语音和音频正在快速成为许多智能设备的首选控制界面,这种技术尤其适合在低功耗和便携式物联网设备中使用,因为它能够消除对昂贵且耗电的数字显示器的要求。许多早期系统的音频质量较差,只能使用云连接解决方案来实现。
然而,随着新一代高效D类音频放大器的出现,使制造商能够确保其设备为消费者提供高质量的音频体验。而且现在也可提供一些其它解决方案,能够在互联网连接不稳定或根本没有互联网连接的情况下实现设备的语音控制。这些创新表明,随着人们越来越习惯这种控制界面,语音控制技术有能力适应新的需求,而且这种发展趋势还会不断继续。