谷歌翻译集成神经网络:机器翻译实现颠覆性突破
谷歌的神经机器翻译系统:架起了人机翻译的鸿沟,昨天在ARXIV.ORG上引入了谷歌的神经机器翻译系统(GNMT),并将机器心翻译成摘要,并将其推荐给网站(www. jqIZHIXix.com)。搜索博客发表了一篇介绍该研究的文章,并宣布GNMT已经投入到非常难的汉英双语的生产中,这引起了业界的极大关注。
十年前,我们推出了Google Translate,其背后的核心算法是基于短语的机器翻译。攻势仍然是一个艰难的目标。
今天,我们宣布谷歌神经机器翻译系统(GNMT)的发布,它使用迄今为止最先进的培训技术来实现机器翻译质量的最大改进。对于我们的发现的全部细节,请参阅我们的论文,谷歌的神经。机器翻译系统:弥补人与机器翻译之间的鸿沟(见本文末尾){ 1 }。
几年前,我们开始使用递归神经网络(RNN)来直接学习输入序列(如一种语言中的句子)到输出序列(另一种语言中的相同句子)的映射。RASE,然后在很大程度上独立地翻译它们。神经机器翻译(Neuro-Machine.,NMT)将整个输入句子作为翻译的基本单位,其优点在于它比以往的基于短语的翻译系统要求更少的工程设计,当NMT被首次提出时,它达到了与基于短语的翻译系统相同的精度。中型公共基准数据集的翻译系统
从那时起,研究人员提出了许多改进NMT的技术,包括模拟外部对齐模型以处理稀有词{3},使用注意力来对齐输入和输出词{4},以及将词分成更小的单元以处理稀有词{5,6}。NMT的速度和准确性还没有满足成为像Google Translate这样的生产系统的要求。我们的新论文{1}描述了我们如何克服使NMT工作在非常大的数据集上的许多挑战,以及我们如何构建一个足够快速和准确的系统,以便进行打赌。ER翻译谷歌的用户和服务。
来自比较评估的数据,其中人类评估者比较给定源语句的翻译质量。评分范围从0到6,对于无意义翻译为0,对于完美翻译为6。
下面的可视化显示了GNMT将汉语句子翻译成英语句子的过程。首先,网络将汉语句子中的单词编码为一列向量,每个向量表示迄今为止所读的所有单词(编码器)的含义。读取后,解码器开始工作——一次生成一个英语句子(Decoder)。为了在每一步中正确地生成翻译后的单词,解码器将重点放在与生成英语单词最相关的编码中文向量的权重分布上(at)。张力和蓝色链接的透明度表明解码器对编码字的关注。
以人类评价的平行比较为标准,GNMT的翻译与以往的基于短语的制作系统相比有了很大的改进。在双语人类评价员的帮助下,我们测量了来自维基百科和新闻网站的样本句子,发现GNMT减少了翻译。N在多个主要语言对中的误差超过55-85%。
我们的系统产生一个翻译案例,它的输入句子从一个新闻网站中取样。这个地址(https:驱动器.google.comfiled0B4-Ig7UAZe3BSUYweVo3eVhNY3cviewusp=.)允许您看到来自新闻网站和书籍的输入句子的更多随机取样的翻译样本。
除了今天发表这篇研究论文,我们还宣布GNMT已经被投入到一个非常困难的语言到英语的翻译中。GNMT产品部署使用我们的开放式机器学习工具包TensorFlow和张量处理单元,它们为部署这些强大的GNMT模型提供足够的计算能力,并满足Google Translate产品的严格延迟要求。nese-to-English翻译是Google Translate支持的10000多种语言对之一,我们将在未来几个月继续将我们的GNMT扩展到更多的语言对。
机器翻译远未完全解决。GNMT仍然会犯一些人类译者从未犯过的大错误,比如在翻译专有名词或稀有名词时遗漏和错误,以及在不考虑段落或页面上下文的情况下单独翻译句子。为了给我们的用户提供更好的服务,我们还有更多的工作要做。但是GNMT代表了一个重要的里程碑。我们想与过去几年中为这项研究做出贡献的许多研究人员和工程师一起庆祝,无论是来自Google还是来自更广泛的社区。
Google Brain团队和Google翻译团队参与了这个项目,Nikhil Thorat和Big Picture也帮助可视化了这个项目。
论文:谷歌神经机器翻译系统:弥补人机翻译的鸿沟
翻译后摘要:神经机器翻译(NMT)是一种端到端的自动翻译学习方法,有望克服传统的基于短语的翻译系统的缺点,不幸的是,众所周知,NMT系统训练的计算成本和翻译FIE。此外,大多数NMT系统难以处理稀有字,这些问题阻碍了NMT在实际部署和服务中的应用,因为在实际应用中,精度和速度是至关重要的。在这项工作中,我们提出GNMT,谷歌的神经机器翻译。我们的模型由一个深度LSTM网络组成,其中八个编码器和八个解码器使用注意和剩余连接。为了提高并行性和减少训练时间,我们的注意机制将解码器的底层连接到顶层。为了加快最终的翻译速度,我们在推理过程中使用了低精度的操作。为了改进对稀有词的处理,我们将词分成一组有限的公共子词单元,这些子词单元既是输入又是输出。字符界定模型的灵活性和词界定模型的有效性,自然地处理了稀有词的翻译,最终提高了系统的整体精度。激怒生成可能覆盖源语句中所有单词的输出语句。在WMT'14英法英德基准测试中,GNMT取得了与当前最佳结果相当的结果。与基于谷歌的短语系统相比,压缩翻译错误平均为60%。
{ 1 }谷歌神经机器翻译系统:弥补人与机器翻译之间的鸿沟,雍慧武、Mike Schuster、支峰晨、Quoc V. Le、Mohammad Norouzi、Wolfgang Macherey、Maxm KRikun、袁曺、Pig、Y、Y、Y、Y、Y、Yukasz Kaiser,Stephan Gouws,Yoshikiyo Kato,Taku Kudo,Hideto Kazawa,Keith Stevens,George Ku.,Nishant Patil,Wei.,Cliff.,Jason Smith,Jason Riesa,Alex Rudnick,Oriol Vinyals,Greg Corrado,Macduff Hughes,Jeffrey Dean.技术,2016。
{ 2 }序列与神经网络的序列学习,Ilya Sutskever,OrOL Viyales,Quoc V.L.神经信息处理系统的进展,2014。
{ 3 }解决神经机器翻译中的罕见词问题,Minh Thang Luong,Ilya Sutskever,Quoc V. Le,Orio-Viyales,WojCij.ZaRMBA。计算语言学协会第五十三届年会论文集,2015。
{ 4 }神经机器翻译,通过联合学习对齐和翻译,Dzmitry Bahdanau,Kyunghyun Cho,Yoshua Bengio。学习表示国际会议,2015。
{ 5 }日本和韩国的语音搜索,Mike Schuster和Kaisuke Nakajima。IEEE声学、语音和信号处理国际会议,2012。
{ 6 }神经机器翻译罕见词的子词单位,Rico Sennrich,Barry Haddow,Alexandra Birch。计算语言学协会第五十四届年会论文集,2016。
相关阅读 Relate
最新文章 Recent
- 日语人工翻译价格多少钱呢? 12-13
- 西班牙语同传翻译收费标准 12-13
- 南京西班牙语翻译团队哪家强 12-13
- 耳机能在10年内翻译任何语 12-13
- 翻译要掌握哪些知识及技巧 10-11
- 论文翻译公司提示辨别市面上 09-30
- 对外传播要突破中医药翻译瓶 09-27
- 信誉好的翻译公司有哪些 09-26
- 新冠疫苗接种证明哪里查询 09-23
- 新冠疫苗接种凭证证明翻译如 09-23
热点文章 Recent
- 一带一路官方译法并不是“O 10-31
- 浅谈唯美到无法翻译的小语种 10-10
- CATTI三级笔译能接活儿 11-18
- 女翻译一般工资多少呢?高不 11-14
- 会展的主办方、承办方、协办 01-18
- 英文论文(外文文献)翻译成 10-29
- 在翻译过程中会遇到哪些困难 10-28
- 翻译官是什么职业_现场翻译 11-13
- 中文翻译蒙古文_在线蒙语翻 06-19
- MTPE是什么翻译模式 05-07