还记得 AlphaGo 吗?DeepMind 这家专门研究人工智能的英国公司,于 2014 年被 Google 收购,经 过 AlphaGo 与职业棋师的围棋大战胜利后一炮而红。而近期,他们与牛津大学的研究员利用人工智能设计出史上最精准的读唇语软件。
究竟他们是如何办到的?DeepMind 研究员训练一个神经网络系统(称为 Watch, Listen, Attend, and Spell),让它看上千小时的 BBC 政论节目,涉及 118,000 条句子还有 17,500 个特殊词汇,再来解读每一支影片的唇语,准确率可达 46.8%。这个数据看起来好像没有很好,但相比专业读唇师仅有 12.4% 的准确率而言,人工智能真的厉害多了。
▲ 就算是人类,也仅能读出 12.4% 的唇语。(Source:New Scientist)
这项研究后来被牛津大学拿去研究并开发出新的一套技术,称之为 LipNet,在测试中竟然可以达到 93.4% 的准确率,高出真人读唇 40 个百分点。但要声明的是,这项测试是牛津大学研究员请志愿者读出制式化的句子,并录制下来给系统及专业读唇人士看的,而且该影片涉及到的特殊词汇仅有 51 个。而 DeepMind 的实验则是拿更生活化的影片给系统看,当然准确度也就没有那么高。
DeepMind 的研究员表示,这项研究可以用来帮助听力受损的人们理解他人的对话,同时也可被利用来替影片下字幕。另外,像是 Siri 或是 Alexa 这类语音助理,也可利用这项技术扩充,让使用者只要对着镜头说话,不用出声语音助理也能辨识,之后大家总算不用在大庭广众之下对着手机下指令了。
▲ DeepMind 开发出的 AlphaGo 先前与职业棋师大比棋艺,以全胜的姿态一举成名。(Source:Nerdist)
- Google’s AI can now lip read better than humans after watching thousands of hours of TV
(本文由 T客邦 授权转载)
如需获取更多资讯,请关注微信公众账号:半导体行业观察
相关文章