以后公共场合讲话请捂嘴,Google 人工智能现在用看的就知道你在说什么

发布时间:2016-11-30  

google-ai-lip-read-624x327

还记得 AlphaGo 吗?DeepMind 这家专门研究人工智能的英国公司,于 2014 年被 Google 收购,经 过 AlphaGo 与职业棋师的围棋大战胜利后一炮而红。而近期,他们与牛津大学的研究员利用人工智能设计出史上最精准的读唇语软件。

究竟他们是如何办到的?DeepMind 研究员训练一个神经网络系统(称为 Watch, Listen, Attend, and Spell),让它看上千小时的 BBC 政论节目,涉及 118,000 条句子还有 17,500 个特殊词汇,再来解读每一支影片的唇语,准确率可达 46.8%。这个数据看起来好像没有很好,但相比专业读唇师仅有 12.4% 的准确率而言,人工智能真的厉害多了。

t客邦配图

▲ 就算是人类,也仅能读出 12.4% 的唇语。(Source:New Scientist)

这项研究后来被牛津大学拿去研究并开发出新的一套技术,称之为 LipNet,在测试中竟然可以达到 93.4% 的准确率,高出真人读唇 40 个百分点。但要声明的是,这项测试是牛津大学研究员请志愿者读出制式化的句子,并录制下来给系统及专业读唇人士看的,而且该影片涉及到的特殊词汇仅有 51 个。而 DeepMind 的实验则是拿更生活化的影片给系统看,当然准确度也就没有那么高。

DeepMind 的研究员表示,这项研究可以用来帮助听力受损的人们理解他人的对话,同时也可被利用来替影片下字幕。另外,像是 Siri 或是 Alexa 这类语音助理,也可利用这项技术扩充,让使用者只要对着镜头说话,不用出声语音助理也能辨识,之后大家总算不用在大庭广众之下对着手机下指令了。

t客邦配图

▲ DeepMind 开发出的 AlphaGo 先前与职业棋师大比棋艺,以全胜的姿态一举成名。(Source:Nerdist)

  • Google’s AI can now lip read better than humans after watching thousands of hours of TV

(本文由 T客邦 授权转载)

如需获取更多资讯,请关注微信公众账号:半导体行业观察

责任编辑:mooreelite
文章来源于:半导体行业观察    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>