什么是无声语音接口?

发布时间:2023-05-06  

可穿戴设备依赖于具有标准物理能力的人机界面,如语音、触摸或运动。虽然这种形式的机器交互适用于大多数消费者,但残疾人可能很难或无法操作标准的可穿戴设备。为了使更多人能够使用可穿戴设备,研究人员正在研究新的人机界面。


最近,康奈尔大学的一个团队发表了一篇论文,描述了一副为不能发声的用户配备了无声语音接口(SSI)的智能眼镜。本文将讨论无声语音接口和来自康奈尔大学的可穿戴原型。


什么是无声语音接口?

无声语音接口(Silent speech interface,简称SSI)允许人们无需发声就能与机器互动。虽然AI助手(如苹果的Siri)等技术是通过声音交流工作的,但SSI通过与语音相关的动作来完成交流。


SSI技术通过嘴巴和舌头的运动而不是声音来识别语音。为了做到这一点,SSI依赖于各种不同的传感器,包括放置在嘴巴附近的振动传感器,用于检测人们嘴巴的振动,以及跟踪和分类与语音相关运动的摄像头。在许多情况下,这些信息会被机器学习算法处理,该算法会解释嘴巴的动作,并将其翻译成文字。


虽然大多数人可能找不到SSI的用途,但这项技术对于因疾病或受伤而失声的人来说是必不可少的,可以让他们更容易地交流。例如,患有声带损伤或影响语言的神经系统疾病的患者可以从SSI中获益良多。


康奈尔大学开发无摄像头SSI眼镜

最近,康奈尔大学的研究人员在SSI技术方面取得了重大进展,发明了基于SSI的智能眼镜。


该系统被称为EchoSpeech,是一种新颖的、侵入性最小的SSI技术,它使用低功率有源声学传感来捕捉由无声语音引起的细微皮肤变形,并将这些信息转换为可操作的数据。这款智能眼镜的原型建立在康奈尔大学之前对一种类似的声学传感可穿戴设备(“EarIO”)的研究基础上,EarIO可以从耳朵内追踪面部运动。

cf967ebe-e4fb-11ed-ab56-dac502259ad0.png

该系统依靠安装在眼镜框架上的一系列扬声器和麦克风向皮肤发射听不见的声波。发出的声波产生沿多条路径传播的回声,并被系统解释推断为佩戴者的无声语音。EchoSpeech完全可以在标准的智能手机上运行,只需要1到6分钟的训练数据,并以73.3 mW的低功耗实时运行。该团队的深度学习算法可以实时分析回声,准确率约为95%。


该系统通过12名用户研究进行了评估,成功展示了识别31个独立命令和三到六位连接数字的能力,单词错误率(WER)分别为4.5%(标准3.5%)和6.1%(标准4.2%)。此外,在行走和噪声注入等场景中测试了系统的鲁棒性。


更私密、低功耗、易使用

大多数SSI技术使用面部摄像头,从用户和与其交流的人那里收集数据。除了造成隐私问题外,可穿戴摄像头还会收集高带宽视频数据。


由于EchoSpeech不需要可穿戴摄像机,设备只捕捉音频数据,这比图像或视频数据需要的带宽要少得多,并且可以通过蓝牙实时发送到手机。隐私信息永远不会脱离用户的控制,因为数据是在智能手机上本地处理的(不用在云中处理)。研究人员表示,纯音频传感器的电池效率也更高:音频传感器可以工作10个小时,而摄像头只能工作30分钟。


康奈尔大学的研究小组表示,他们发现EchoSpeech在很多应用中都有应用价值,从默念密码来解锁智能手机,到跳过播放列表中的歌曲。该设备还可以与智能手机配对,在说话不方便的地方与他人交谈,比如嘈杂的餐厅或安静的图书馆。研究人员表示,该界面与手写笔和CAD等设计软件兼容,从而消除了对鼠标和键盘的需求。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    中采用了由ICRoute公司设计生产的非特定人语音识别芯片LD3320,它集成了语音识别处理电路和一些外部电路,包括AD、DA转换器、麦克风接口、声音输出接口等,不需要外接任何的辅助芯片如Flash、RAM。在主......
    多达31条无声的命令,该系统可为那些暂时不方便说话或无法发声的人提供帮助。相关论文将在本月于德国汉堡举行的计算机协会计算系统人为因素会议上发表。 这款眼镜是一种名为EchoSpeech的无声语音识别接口......
    端利用语音识别API接口进行语音识别,与MQTT Server端建立TCP连接,通过MQTT协议订阅和发布,将转换后语音信息发布到订阅设备,单片机处理收到的订阅信息。 6)单片......
    新一代语音识别:可彻底改变车内体验的技术;语音识别是设备对语音命令做出响应的能力,它实现了对各种设备的免提控制。该技术最早的应用是自动电话系统和医疗听写软件。现在,在汽车和智能手机中语音识别......
    合成技术结合使人们能够摆脱键盘的束缚,取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式,它正逐步成为信息技术中人机接口的关 键技术。   3、语音识别的方法   目前具有代表性的语音识别......
    川的演讲转化为文字,而且还做出英文翻译。或许未来,语音识别技术真的会让现场的同声翻译失业。 ▲ 搜狗 CEO 王小川展示语音实时翻译技术(Source:搜狗手机输入法微博) 11 月 22 日,百度宣布开放四项全新语音技术接口......
    CI2305,支持离线语音控制及涂鸦APP红外遥控控制设备,且离线语音控制和在线APP控制设备能实现快速同步。 启英泰伦 02 启英泰伦离线语音&腾讯云小微在线语音识别方案 启英泰伦离线语音&......
    STM32智能垃圾桶自动识别各类垃圾概述;智能垃圾桶功能概述 离线语音识别识别垃圾种类并且垃圾桶自动翻盖: 说出唤醒词“垃圾桶”后,再说一句垃圾名称,语音识别模块端识别到相应关键词,便会......
    风剪口、声音输出接口等,使得LD3320能够在没有任何外接辅助Flash、RAM芯片的情况下直线语音识别/声控/人机对话等功能。且LD3320在工作时,无需进行预先的训练和录音,语音识别率准确率达到了95......
    基于单片机的语音小车设计;引言 随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能[1]。近二三十年来,语音识别在计算机、信息处理、通信......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>