电脑声音辨识力再提升,可区分不同来源类别

发布时间:2016-12-07  

microphone-367581_960_720

半导体行业观察这几年,电脑在辨认文字和图像有显著的进步,但在辨认声音方面则还有许多进步空间。透过大量数据库的累积和学习,现在电脑可以透过观看影片的方式辨认声音,其辨识的精确度甚至和人类逼近。

训练方式

这几年新出现的技术,像是 Facebook 针对使用者上传的照片进行脸部辨识,都显示了电脑在视觉辨识上的进步。然而,若要电脑能精准推断某个声音来自何种场景,例如群众欢呼或者波浪拍打,实为一大技术上需要突破的门槛。

MIT 的 Computer Science and Artificial Intelligence Laboratory (CSAIL) 团队,在最近一次的 Neural Information Processing Systems 会议当中,发布了一种更胜以往的声音辨识系统。研究者善用了新系统可以在视觉分类和自然声音之间找寻关联性的特性,透过影片训练系统学习声音辨识。

研究团队在训练过程中使用了两个标准化的声音纪录数据库来测试他们的系统,发现表现结果比原先的模式多了 13~15% 的精准度。在具有 10 种不同声音种类的范围中,电脑的辨识可以达 92% 的精准度;若提高至有 50 种的数据库中,则呈现 74% 的精准度。相同的情况下,人类处理资料分别是 96% 和 81% 的准确度。

学习过程共有两次训练。第一次以自动注释的影像进行训练。一个是 ImageNet data,包含 1,000 个不同物件的影像。另一个则是 Places 资料,包含 401 个被标注过的场景的影像,像是游乐场、房间或者会议室。第二阶段,当系统经过一次训练后,研究者给系统观看从 Flickr 上下载的 26 兆位的影片,接着再以相同的影片训练第二次。第二次的目标是让系统可以靠着第一阶段标注过的场景的影像进行更精准的预测。

应用

研究者认为声音辨识系统可以用来改进移动设备对于环境侦测的敏感度。举例来说,搭配 GPS 的资料,声音辨识系统可以在辨认出手机的使用者正在电影院等电影开演时,进行来电转接。又或是和自动驾驶车做搭配,假设现在有辆救护车靠近当中,但汽车的驾驶并未注意到,自动驾驶车可以透过声音预测救护车未来的行经路线改往别的方向行驶。随着电脑对于影像和声音辨识的进步,未来可以应用的层面也更加广泛。

  • Computer learns to recognize sounds by watching video

(首图来源:Pixabay)

责任编辑:mooreelite
文章来源于:半导体行业观察    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>