重大突破!Google发布神经网络机器翻译系统:支持中英

发布时间:2016-09-30  

Google今天宣布发布Google神经网路机器翻译系统(Google Neural Machine Translation),简称GNMT,使用当前最先进的训练技术,能够实现到迄今为止机器翻译质量的最大提升。

机器语言翻译早已有之,而十年前Google推出的Google Translate带来了全新突破,其背后的核心算法是基于短语的机器翻译。

在那之后,机器智能的快速发展大大推动了语音识别和图像识别的提升,但改进机器翻译、使之尽量接近人工翻译,依然充满挑战。

几年之前,Google就开始使用循环神经网络来直接学习一个输入序列(如一种语言的一个句子)到一个输出序列(另一种语言的同一个句子)的映射。

基于短语的机器学习会将输入句子分解成词和短语,然后对其中的大部分进行独立翻译。

神经网络机器翻译则将整个输入句子视作翻译的基本单元,优点是所需调整更少,很快就在中等规模的公共基准数据集上达到了与基于短语的翻译系统不相上下的准确度。

此后研究者不断改进神经网络机器翻译系统,比如模拟外部对准模型来处理罕见词 ,使用“注意(attention)”来对准输入词和输出词,以及将词分解成更小的单元以应对罕见词。

如今,神经网络机器翻译系统已经克服了超大型数据集上的许多挑战,在翻译速度和准确度上都已足够为用户带来更好的服务,比如英语和法语、英语和西班牙语的互译翻译质量已经达到90%左右,中英互译也在80%上下。

神突破!Google发布神经网络机器翻译系统:支持中英

这则动图就展示了Google神经网络机器翻译系统将一个中文句子翻译成英语句子的过程。

首先,该网络将这句中文的词编码成一个向量列表,其中每个向量都表示了到目前为止所有被读取到的词的含义(编码器Encoder)。一旦读取完整个句子,解码器就开始工作,一次生成英语句子的一个词(解码器Decoder)。

为了在每一步都生成翻译正确的词,解码器重点注意了与生成英语词最相关编码的中文向量的权重分布(注意“Attention”;蓝色连线的透明度表示解码器对一个被编码的词的注意程度)。

在双语评估者的帮助下,通过在维基百科和新闻网站的例句测定,Google发现:在多个样本的翻译中,神经网络机器翻译系统将误差降低了55-85%甚至更多。

特别地,Google神经网络机器翻译系统已经投入到一个非常困难的中英语言对翻译中。

现在,移动版和网页版的Google Translate 的中英翻译已经开始完全使用神经网络机器翻译系统,每天处理大约1800万条翻译,未来几个月还会扩展到更多的语言对上。

当然,机器翻译仍然不可能做到完美,Google神经网络机器翻译系统也会犯一些人类译者永远不会出的重大错误,例如漏词和错误翻译专有名词或罕见术语,以及将句子单独进行翻译而不考虑其段落或上下文。

无论如何,Google神经网络机器翻译系统仍然代表着一个重大的里程碑。

 

责任编辑:mooreelite
文章来源于:半导体行业观察    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    谷歌发布AI语言模型PaLM 2 与OpenAI旗下GPT-4等展开竞争;5月11日消息,据外媒报道,当地时间周三,谷歌在谷歌I/O大会上发布了最新的人工智能(AI)语言模型PaLM 2,与......
    商业模式的可持续性产生了更大的兴趣和关注,尤其是谷歌搜索和广告,这是谷歌的主要业务。ChatGPT让公众得以一窥当今大型语言模型LLMs的能力。 不可否认,这引发了人们对谷歌在在线......
    谷歌眼镜彻底告别舞台 谷歌确认不再销售企业版; 谷歌眼镜 北京时间3月16日消息,谷歌公司周三在其网站上宣布,公司已停止销售企业版谷歌眼镜,并将在今年9月份停止软件支持。此举标志着谷歌......
    等任务。 就是这样一款爆火的软件,刺激了多家公司争相入局,其中就包括百度、谷歌、微软等科技巨头。 当地时间2月7日,也就是微软推出由AI驱动的全新必应搜索引擎和Edge浏览器之后的一天,谷歌......
    美国考虑强制拆分谷歌:强迫出售部分业务; 10月9日消息,据媒体报道,美国司法部正在考虑一项历史性的举措,要求谷歌出售部分业务,以减轻其在在线搜索市场上的垄断地位造成的伤害。 如果......
    成对应的语言,在彼此的设备上播放。 从图片中可以看出,这一新版本的界面和传统的翻译软件区别很大,采用了对话的界面──就像 LINE 的群组聊天一样。 为什么说是群组聊天?因为对话和翻译......
    电子行业站在世界前列的仍然是国外。工程师在做硬件设计的时候,需要阅读大量的外文资料。有的工程师英语基础薄弱,阅读的时候使用翻译软件逐行翻译,效率很低。你如果精通英文,可以直接阅读世界上先进的技术文档,用流......
    精准推送到大数据分析等复杂任务,旨在帮助谷歌应对不断增长的人工智能成本。 Axion的问世标志着谷歌在自主研发芯片道路上的重要突破,标志着其在大数据中心常用芯片领域迈出了关键一步。多年来,谷歌......
    精准推送到大数据分析等复杂任务,旨在帮助谷歌应对不断增长的人工智能成本。 Axion的问世标志着谷歌在自主研发芯片道路上的重要突破,标志着其在大数据中心常用芯片领域迈出了关键一步。多年来,谷歌......
    Datasheet几乎是基本功,国外的芯片企业起步较早,因此大部分资料本就以英文为主,绝大部分工程师普遍均精通阅读英文资料,偶尔个别不熟悉的词语会使用翻译软件的划词/截图翻译功能或使用WPS全文翻译......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>