将意图转化为行动:走进嵌入式语音控制的新时代

发布时间:2023-12-01  


恩智浦发布新一代智能语音技术组合的语音识别引擎。在这篇博文中,我们将探讨开发人员在嵌入式语音控制设计中面临的挑战、我们新的Speech to Intent引擎,以及您如何在应用中使用它。


听到您的声音:嵌入式系统中语音命令的挑战


随着亚马逊、谷歌和苹果等公司推出了具有革命性意义的智能扬声器,嵌入式语音控制的设备已经成为了当下的热门趋势,而这种技术其实已经存在了很多年。通过这些智能扬声器,终端用户第一次体验到了语音优先设备的便捷性、实用性和直观性。语音是这些设备的用户界面(UI),也是它们最重要或唯一的交互方式。借助云端的自然语言理解技术,智能扬声器可以让语音优先设备的终端用户用自然语言与智能设备进行沟通,无论是请求、查询还是命令,都可以得到理解和响应。


为了实现自然语言处理,设计人员和终端用户需要面对一些挑战,比如要求有稳定、可靠的网络连接,以及要承受始终在线、始终聆听的设备的高耗电,更别提这种联网设备可能带来的隐私风险了。


针对嵌入式设计中的语音引擎难题,恩智浦推出了其智能语音技术(VIT)产品组合的最新产品VIT Speech to Intent引擎。进一步了解VIT S2I


本地语音控制与基于云的语音控制比较


为了让设备具备语音控制功能,工程师通常有三种选择:本地处理、在云端处理或两者的组合,我们称之为“混合处理”。通过本地语音控制,终端设备在边缘本地处理所有语音,而无需连接到云端或远程服务器进行二次处理。基于云的处理就是利用云端的计算能力来处理语音音频,然后把云端生成的响应通过网络传回设备。在混合处理的情况下,通常会使用本地唤醒词引擎来唤醒设备(如“Hey NXP”),然后将该唤醒词之后的所有语音命令流式传输到云端或远程服务器进行处理。


本地处理具有低延迟、低功耗和独立于网络等优点,但它通常只支持需要精确措辞的基本关键词和命令。例如,开灯可能需要准确的短语“Hey,NXP(唤醒词),开灯(语音命令)”,并且不能有任何变化。


对于云端处理和混合系统,云服务的使用增加了延迟,但提供了能够运行极其复杂的算法的优势,包括自然语言理解模型。重温刚才说的开灯示例,使用任何词语组合,系统都可以理解所要求操作的环境,例如“这里很黑,请开灯”。


如前所述,基于云的自然语言处理的一个主要缺点是安全和隐私问题。简单地说,这种方式的原理是把语音音频流通过网络传送到远程服务器进行处理,但是这也可能导致系统误启动并把无关的音频流传输到云端。这些音频流可能包括个人对话、凭证或其他敏感信息。


恩智浦智能语音技术VIT Speech to Intent S2I引擎介绍


针对嵌入式设计中的语音引擎难题,恩智浦推出了其智能语音技术(VIT)产品组合的最新产品VIT Speech to Intent引擎。S2I引擎是VIT产品组合的高端产品,其中还包括免费的唤醒词引擎(WWE)和语音命令引擎(VCE)。


与依赖远程云服务的系统不同,VIT S2I能够在本地确定自然语言的意图。这一功能要归功于恩智浦针对嵌入式系统设计的神经网络算法和机器学习模型的最新开发成果。因此,要实现“开灯”的目的,可以用很多不同的方式来表达,比如“开灯”、“太暗了”和“你能让光线更亮吗”等。


这种Speech to Intent功能使用户能够更自然地与嵌入式系统进行交互,同时降低了系统延迟和云连接系统的功耗。此外,消除云服务也有助于提高安全性和隐私,因为所有语音都在设备上本地处理。此外,如果搭配恩智浦唤醒词引擎,可以开发超低功耗设计,只有在听到特定的唤醒词后,才会启动VIT S2I引擎来处理语音命令。


支持VIT S2I的恩智浦器件包括:Arm®Cortex®-M:i.MX RT跨界MCU和RW61x MCU,以及Cortex A i.MX 8M Mini、i.MX 8MPlus和i.MX 9x应用处理器。VIT S2I目前支持英语、普通话和韩语,将于2023年底推出。用于创建自定义命令和训练模型的在线开发工具计划于2024年发布。


VIT Speech to Intent框图


VIT Speech to Intent如何为您的下一个设计增加语音功能


物联网领域日新月异,VIT S2I能够适应各种应用场景,无论是家居自动化、可穿戴电子产品,还是汽车远程信息处理和楼宇门禁等,都能发挥其优势。消费者喜欢用自然语言来免手动控制设备的基本功能,消除边缘语音处理的云服务不仅减少了系统延迟,还减少了隐私和安全问题。


对于那些需要使用语音优先用户界面的设备,VIT S2I系统是一个不可或缺的部分,它可以应用在智能恒温器、智能电器、家居自动化、灯光控制、遮阳控制等领域。VIT S2I也适用于可穿戴设备和健身设备,一些用例包括设置提醒、控制蓝牙设备和监测健康状况。


使用恩智浦VIT产品组合增强您的应用


如如果您想要使用恩智浦智能语音技术组合进行开发,欢迎使用我们免费的VIT唤醒词和语音命令引擎,通过MCUXpresso SDK和在线模型工具即可获得。这些引擎可以让您方便地定制唤醒词和基本的语音控制,适用于那些不涉及自然语言理解的快速原型制作和开发周期。如果您的应用需要更多自然语言理解功能,请联系当地的恩智浦代表,开始使用VIT Speech to Intent。


进一步了解恩智浦的语音处理产品组合,并观看我们的VIT Speech to Intent演示。

作者:

Chris Welsh

边缘处理业务部物联网语音和音频业务发展总监


Chris作为Retune DSP公司的合伙人,于2021公司并购时加入恩智浦。Chris专注于通过差异化的语音软件技术和服务为客户创造价值。Chris为恩智浦带来了超过25年的嵌入式语音和音频业务经验,他曾经在AT&T、朗讯科技、MWM声学、哈曼国际和Retune DSP等公司担任工程师、商务拓展、创始人、总经理和高管等职务。Chris拥有普渡大学机械工程学学士学位和宾夕法尼亚州立大学声学硕士学位。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>