【重磅】Facebook全新机器翻译超越谷歌,用CNN替代RNN创世界纪录(开源)

【新智元导读】 Facebook今天发布了一项新的机器翻译技术,使用CNN技术而非传统的RNN,在翻译准确度超越了此前被认为是2016年10大AI突破技术的谷歌机器翻译,并且翻译速度上快了9倍。Facebook称,创下新的世界纪录。目前,这一技术已经开源。

开源地址:https://github.com/facebookresearch/fairseq

论文地址:https://s3.amazonaws.com/fairseq/papers/convolutional-sequence-to-sequence-learning.pdf

Facebook的使命是让世界更开放、连接全世界,所以,语言的翻译对他们来说至关重要,这一技术能让每一个人都能用自己喜欢的语言来浏览帖子或视频。

今天,Facebook AI 研究 (FAIR)团队发布了一项使用创新性的、基于卷积神经网络的方法来进行语言翻译的最新成果。Facebook 称,该研究取得了截止目前最高准确度,并且速度是基于循环神经网络(RNN)系统的9倍(谷歌的机器翻译系统使用的就是这一技术)。

此外,FAIR 所推出的序列建模工具包 ( fairseq)的源代码和训练好的系统已经在Github上开源,感兴趣的研究者可以基于此定制用于翻译、文本摘要和其他任务的模型。

为什么是卷积神经网络(CNN)?

几十年前,Yann LeCun 对CNN 进行了开创性的发展,自那以后,CNN在许多机器学习领域,比如图像的处理上获得了巨大的成功。但是,循环神经网络一直都是文本类应用的常用的技术,并且,由于其极高的准度,它也成为了语言翻译的首选。

虽然在语言翻译的任务中,从历史上看,RNN 的表现都要优于CNN。但是,这一模型的设计有其固有的缺陷。如果你去观察它们是如何处理信息的,你就能理解这种缺陷。计算机是通过阅读一种语言中国的一个句子然后预测出另一种语言中带有相同含义的一系列词语,来进行文本的翻译。

RNN 遵循一种严格的“从左至右”或者“从右至左”的顺序,每次处理一个单词。这与现代的、由高并行的GPU硬件支撑的机器学习匹配起来并不那么自然。

具体说来,计算本身不能够被完全的并行(parallelized),因为每一个单词必须等到神经网络处理完前一个单词才能被处理。作为对比,CNN 能够同时处理所有的元素,完全利用GPU 并行计算的优势。进而,CNN在计算上的效率也会更高。CNN 的另一个优势是,信息的处理是分层次的( hierarchically),这能让它更容易地捕捉到数据中的复杂关系。

在此前的研究中,把CNN用于翻译,性能上一直都没能超越RNN。但是,由于CNN 在架构上的潜力,FAIR 开始了一系列相关研究,开发出一系列用于翻译的模型,展示了CNN在翻译上的强大性能。CNN在计算上的效率优势也有潜力被扩展到翻译上,覆盖世界上6500种语言。

最高性能和创纪录的速度

Facebook 在官方博客中称,他们的技术在机器翻译峰会(WMT)所提供的公共基准数据集上,相比RNNs2,取得了新的最高水准。特别是,基于CNN 的模型准确度也超越了被用于评判机器翻译准确度的业界广泛认可的数据集WMT2014 英语-法语翻译任务中的历史记录 1.5 BLEU。在 WMT 2014 英语-德语的翻译中,提升是0.4 BLEU,WMT 2016英语-罗马尼亚语,提升到1.8BLEU。

基于神经网络的机器翻译技术要用于实践,其中的一个考虑的要素是,在我们把一句话输入系统以后,需要花多长时间,才能获得相应的翻译。 FAIR 的 CNN 模型在计算上是非常高效的,比企鹅比最强的RNN系统要快9倍。有很多的研究一直的着眼于如何通过量化权重或者精馏(distillation)的来提升速度,这些方法同样也能被用到CNN的模型中,来提升速度,甚至还能提升更多。这意味着,CNN 有着巨大的潜力。

使用多跳(muti-hop)注意力(attention)和门来获得更好的翻译

Facebook 架构的一个显着组成部分是多跳注意力。注意力机制类似于一个人在翻译句子时会分解句子的方式:神经网络会在句子上重复地“回顾”,以选择下一步将会翻译哪个词,而不是仅仅看一次句子,然后写下完整的翻译而不回头看。这跟人的翻译过程很像,我们通常会在翻译中偶尔回顾前面出现的具体关键词。多跳注意力是这种机制的增强版本,它允许网络进行多次这样的“回顾”,以产生更好的翻译。这些“回顾”也取决于彼此。例如,第一次“回顾”可以集中在一个动词上,而第二个“回顾”则是关联的辅助动词。

在下图中,我们显示系统何时读取法语短语(编码),然后输出英文翻译(解码)。他们首先运行编码器,使用CNN为每个法语单词创建一个向量,同时进行计算。接下来,解码器CNN产生英文单词,一次一个。在每一步,注意力都会能“回顾”法语句子,以决定哪些词语与翻译中的下一个英文单词最为相关。

在解码器中有两个所谓的层,下面的图说明了每个层中的注意力机制是如何完成的。绿线的强度表示网络对每个法语单词的重视程度。当网络被训练完成时,翻译总是可用的,英文单词的计算也可以同时进行。

系统的另一个特点是门,其控制神经网络中的信息流动。在每个神经网络中,信息流经所谓的隐藏单元。我们的门机制将控制哪些信息传递到下一个单元,以便能够产生较好的翻译。例如,当预测下一个字时,网络会考虑到迄今为止产生的翻译。门将允许它放大翻译的一个特定方面或获得更广泛的图像——这一切取决于网络在当前上下文中认为适合的内容。

未来发展

这种方法是用于机器翻译的另一种架构,为其他文本处理任务开辟了新的可能性。例如,在对话系统中,多跳注意力使得神经网络能够聚焦在谈话的重点部分,比如将谈话内容中两个相互独立的事实联系在一起,以便更好地应对复杂的问题。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-05-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | Hinton 谷歌大脑新作:通过给个体标签建模来提高分类能力

AI科技评论按:Geoffrey Hinton 于 2013 年加入谷歌,目前在谷歌大脑团队致力将深度学习应用于实践领域。近日,谷歌大脑团队推出了新作,一作 M...

37390
来自专栏新智元

重磅 | 谷歌开源大规模语言建模库,10亿+数据,探索 RNN 极限

【新智元导读】谷歌今天宣布开源大规模语言建模模型库,这项名为“探索RNN极限”的研究今年 2 月发表时就引发激论,如今姗姗来迟的开源更加引人瞩目。研究测试取得了...

29540
来自专栏新智元

【PyTorch 挑战 TensorFlow】28303 篇 arXiv 论文看深度学习 6 大趋势

【新智元导读】本文由 Andrej Karpathy撰写,他前不久加入了特斯拉,担任AI 负责人。本文是他在 OpenAI 担任研究员期间所写,陈述了他通过分析...

38260
来自专栏AI科技评论

大会 | ECCV 2018 德国慕尼黑召开,来份 tutorial 预热

AI 科技评论消息,计算机视觉欧洲大会(European Conference on Computer Vision,ECCV)于 9 月 8 -14 日在德国...

21720
来自专栏大数据文摘

深度特征合成:自动化特征工程的运作机制

将机器学习的方法推广到新问题仍然存在着不小的挑战,其中最严峻的问题之一,就是人工提取特征的复杂性和高时间耗费性,本文就将带你了解自动化特征提取方法。

15350
来自专栏量子位

Kaggle冠军冲顶经验分享:怎样11步搞定机器学习竞赛?

最近,一名来自湖南长沙的小哥仅用15个月时间,就冲上了Kaggle用户排行榜的首位,他的ID是Bestfitting。

19330
来自专栏AI星球

吾爱NLP(3)—我对NLP的理解与学习建议

简单来说,NLP = Nature Language Process = 自然语言处理 ≈ 语言信息(文本/语音)+机器学习 。

26620
来自专栏木可大大

大数据是什么(续)

从亚马逊到Facebook,再到谷歌和微软,全球最顶尖、最有影响力的技术公司都将目光转向了人工智能(AI)。本文将介绍AI、机器学习以及深度学习,其中着重介绍深...

19120
来自专栏AI科技评论

学界 | Moments in Time:IBM-MIT联合提出最新百万规模视频动作理解数据集

AI 科技评论按:本文为上海交通大学林天威为 AI 科技评论撰写的独家稿件,未经许可请勿转载。 在过去一年中,视频理解相关的领域涌现了大量的新模型、新方法,与之...

38970
来自专栏人工智能头条

Yann LeCun:CNN已解决CIFAR-10,目标 ImageNet

24460

扫码关注云+社区

领取腾讯云代金券