业界|快9倍!Facebook开源机器学习翻译项目fairseq

Facebook的使命是让世界变得更加开放,让每个人都能以最高的准确性和最快的速度使用自己喜欢的语言来发帖子和视频进行互动,语言翻译对此十分重要。

今天,Facebook的人工智能研究团队发表了他们的研究成果Fairseq,他们使用了一种新型的卷积神经网络来做语言翻译,比循环神经网络的速度快了9倍,而且准确性也是现有模型中最高的。此外,FAIR序列建模工具包的源代码和训练好的系统都已经在开源平台GitHub上公布,其他的研究者可以在此基础上建立自己的关于翻译、文本总结和其他任务的模型。

为什么选择卷积神经网络?

卷积神经网络在数十年前由Yann Lecun 提出,已经在诸如图像处理之类的领域取得了成功。 循环神经网络却是文本领域的现有技术,并且由于其极高的效率而成为语言翻译的首选。

尽管循环神经网络以前在语言翻译上比卷积神经网络表现的更好。但是其设计具有固有的局限性,这可以通过它们怎么处理信息来理解。计算机一句一句地来翻译一个文本然后去预测另外一种语言具有相同意思的单词序列。循环神经网络以严格的从左到右或者从右到左的来进行运算,一次处理一个单词。这和现在高度并行的GPU硬件有点不符合。由于单词只能一个接着一个进行处理,计算不能完全并行。而卷积神经网络可以同时计算所有的元素,充分利用了GPU的并行性。CNN的另一个优点是它对信息进行分层处理,这让它可以更容易获得数据之间的复杂关系。

在先前的研究中,卷积神经网络在翻译任务上的表现要差于循环神经网络。然而,由于卷积神经网络架构上的潜力,FAIR开始了研究,发现所设计的翻译模型显示了CNN在翻译方面的优异性能。CNN优异的计算性能将有可能会扩展可翻译的语言,将包括全球的6500种语言。

最快最好的结果

Facebook团队的结果表明,在广泛应用的标准测试数据集(WMT会议提供)上,其比RNN表现的更好。尤其是卷积神经网络比先前在WMT发表的结果都要好。在英语-法语任务上提高了1.5 BLEU,在英语-德语任务上提高了0.5BLEU,在WMT2016的英语-罗马尼亚语任务上,提高了1.8BLEU。

对神经机器学习实际应用考虑的一个方面在于翻译一个句子所需要的时间。 FAIR的卷积神经网络模型计算的相当快速,比循环神经网络快乐整整9倍。许多研究都通过量化权重或者其他的方法的方法来加速神经网络,这也同样可以用于卷积神经网络。

用多跳注意和门控来获得更好的翻译效果

团队的架构一个重要的部分就是多跳注意。注意力的机制类似于一个人在翻译句子的时候会把句子分开翻译,而不是仅仅看一次句子然后就直接写下完整的翻译。所设计的网络会重复地扫描句子来决定它将要翻译的下一个单词。多跳注意是这种机制的加强版,它让网络更多次地扫描句子来产生更加好的结果。每一次扫描之间都相互影响。举一个例子,第一次扫描会注意到一个动词,然后第二次扫描会注意到相关联的助动词。

在下面这幅图中,Facebook团队展示了一个系统是怎么阅读一个法语短语然后再翻译成英语的。首先,用卷积神经网络来生成每一个法语单词的对应向量,在此同时进行计算。然后解码的CNN再生成对应的英语单词。在每一步,都扫描一下法语单词来看一下哪些词语与下一个要翻译的英文单词关系最为密切。在解码器中有两层,下面的动画说明了每一层的注意力机制是怎么完成的。绿线的强度表现了网络对每一个法语单词的注意力。当网络训练好之后,也就可以进行翻译了,英文单词的计算也可以同时进行。

系统的另一个方面是门控,其控制神经网络里面的信息流。在每个神经网络中,信息都流过所谓的隐藏单元。的门控机制精确的控制了传向下一个单元的信息,一个好的翻译才因此产生。例如,当预测下一个单词的时候,网络会把它前面的翻译部分考虑进去。门控允许它在翻译的一个特定方向进行放大—这一切都取决于网络认为其在上下文中认为合不合适。

以后的发展

这一种方法是机器翻译的一种替代框架,也给其它的文本处理任务提供了新的思路。例如,多跳机制在对话系统中允许网络注意对话的不同部分。例如对两个没有联系的事实,可以把它们联系在一起来更好地回答复杂的问题。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-05-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

春节充电系列:李宏毅2017机器学习课程学习笔记29之循环神经网络 Recurrent Neural Network Part3

【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的Recurrent Neural Network进阶知识。这一节将主要针对讨论Recu...

3409
来自专栏AI科技评论

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军,领衔图像描述生成技术

AI 科技评论按:图像描述生成技术是一个计算机视觉与 NLP 交叉研究领域的研究领域,在如今的浪潮下更显火热。今年8月,腾讯 AI Lab 凭借自主研发的强化学...

3306
来自专栏AI科技评论

动态 | 2017年里,哪十篇 arXiv 机器学习论文在 Twitter 上最热门?

AI 科技评论按:随着 2017 年结束、2018 年开始,各个媒体和研究者都撰写了各自的年度总结和新年祝愿。在过去一年的论文动态里,除了研究者们在总结文里根...

4149
来自专栏BestSDK

Google开源的“Show and Tell”,是如何让机器“看图说话”的?

| 机器的Image Captioning(自动图像描述)能力 电影《HER》中的“萨曼莎”是一款基于AI的OS系统,基于对西奥多的手机信息和图像内容的理解,“...

2727
来自专栏机器之心

业界 | 腾讯AI Lab获得计算机视觉权威赛事MSCOCO Captions冠军

32112
来自专栏新智元

【谷歌机器翻译破世界纪录】仅用Attention模型,无需CNN和RNN

【新智元导读】 谷歌在机器翻译上的一项最新研究:仅使用注意力机制构建模型,不需要CNN和RNN。作者称,在机器翻译上这一模型效果超越了当下所有公开发表的机器翻译...

3094
来自专栏数据派THU

干货 | 只有100个标记数据,如何精确分类400万用户评论?

迁移学习模型的思路是这样的:既然中间层可以用来学习图像的一般知识,我们可以将其作为一个大的特征化工具使用。下载一个预先训练好的模型(模型已针对ImageNet任...

322
来自专栏新智元

GAN如此简单的PyTorch实现,一张脸生成72种表情(附代码)

【新智元导读】随着GAN的发展,单凭一张图像就能自动将面部表情生成动画已不是难事。但近期在Reddit和GitHub热议的新款GANimation,却将此技术提...

831
来自专栏深度学习自然语言处理

什么是迁移学习 (Transfer Learning)?这个领域历史发展前景如何?

在SMP会议上,感觉到了迁移学习的前景很乐观,感觉这个也是以后必学的知识,所以这里小编先放了这篇文章,即使现在看不懂的,也可以收藏,反正以后必须要了解哒!

591
来自专栏大数据文摘

资源 | 一文解析统计学在机器学习中的重要性(附学习包)

你可以使用描述性统计方法将原始观测数据转换为你可以理解和共享的信息,也可以使用推断统计方法,通过数据的小样本对整个域进行推理。

750

扫描关注云+社区