半导体行业观察微软研究人员在期刊上发布新的语音辨识技术,号称能达到人类部分的辨识能力,在测试环境下,有人类的辨识水准。
微软这套新的语言辨识系统采用神经语言技术串连类似的文字,能够有效组织化。这套新系统的文字错误率是 5.9%,相当于一般人类的水准。
微软首席语音科学家 Xuedong Huang 说:“我们达成人类部分的辨识能力了,这可是历史性的成就。”
这项成就意味着语音辨识系统能像人类一样“听懂”人类的对话。微软打算运用这套技术到他们的语音助理 Cortana 上面,以及语音辨识软件。
微软人工智能和研究团队的执行副总裁 Harry Shum 说:“即便是 5 年前,我还很难想像我们能达成这项成就。我甚至觉得这不可能啊。”
尽管有相当好的结果,微软仍要证明在现实中,不同的语言对话情境,杂音很大的环境,像是车子里或派对上,还有不同口音下,都能达到好的辨识结果。语音辨识系统也必须能在多人对话下,“记住”对话的人。不论是不同年龄、腔调或语言能力,辨识系统都要能处理这些不同口音状况。而对 Cortana 这类语音助理来说,知道文字意思转成对应的移动,远比正确拼写出来还要重要的多啊。
微软人工智能和研究团队主管 Geoffrey Zweig 说:“下一步是从辨识到了解。”
相关链接
- Microsoft reaches ‘human parity’ with new speech recognition system
(首图来源:Flickr/Mike Mozart, CC-BY 2.0)
如需获取更多资讯,请关注微信公众账号:半导体行业观察
相关文章