谷歌推出基于注意机制的全新翻译框架,Attention is All You Need!

AI 科技评论消息,谷歌最近与多伦多大学等高校合作发表论文,提出了一种新的网络框架——Transformer。Transformer是完全基于注意力机制(attention mechanism)的网络框架,放弃了RNN和CNN模型。

众所周知,在编码-解码框架中,主流的序列传导模型都是基于RNN或者CNN的,其中能完美连接编码器和解码器的是注意力机制。而谷歌提出的这一新框架Transformer,则是完全基于注意力机制的。

Transformer用于执行翻译任务,实验表明,这一模型表现极好,可并行化,并且大大减少训练时间。Transformer在WMT 2014英德翻译任务上实现了28.4 BLEU,改善了现有的最佳成绩(包括超过2个BLEU的集合模型),在WMT 2014英法翻译任务中,建立了一个新的单一模式,在八个GPU上训练了3.5天后,最好的BLEU得分为41.0,这在训练成本最小的情况下达到了最佳性能。由Transformer泛化的模型成功应用于其他任务,例如在大量数据集和有限数据集中训练英语成分句法解析的任务。

注意力机制是序列模型和传导模型的结合,在不考虑输入输出序列距离的前提下允许模型相互依赖,有时(但是很少的情况),注意力机制会和RNN结合。

模型结构

编码器:编码器有6个完全的层堆栈而成,每一层都有两个子层。第一个子层是多头的self-attention机制,第二层是一层简单的前馈网络全连接层。在每一层子层都有residual和归一化。

解码器:解码器也是有6个完全相同的层堆栈而成,每一层有三个子层,在编码栈的输出处作为多头的attention机制。

注意(attention):功能是将Query和一组键-值对映射到输出,那么包括query、键、值及输出就都成为了向量。输出是值的权重加和,而权重则是由值对应的query和键计算而得。

source:arxiv

AI 科技评论了解到,谷歌这一模型在众多翻译任务中都取得了最佳成绩,其泛化模型也在其他识别任务中表现优异。谷歌对这一基于注意力机制的Transformer表示乐观,研究人员很高兴看到模型在其他任务中表现良好,谷歌计划研究Transformer的更广泛应用——其他形式的输入输出,包括图像、音频及视频等。

论文链接:https://arxiv.org/abs/1706.03762

以前的谷歌翻译是怎样的?

AI 科技评论帮大家梳理一下谷歌之前的翻译框架进化史

一)基于短语的机器翻译

2006 年Google团队改进了——统计机器翻译(statistical machine translation),并宣布上线Google Translate翻译功能。当时的核心技术 “统计机器翻译”的基本思想是通过对大量平行语料进行统计分析、构建统计翻译模型、进而使用此模型进行翻译。简单来说,你可以认为这个翻译系统是基于短语翻译的。

二)用于自动翻译的端到端的学习方法

谷歌2016年9月29日前后正式发布第一代神经翻译系统。当时谷歌在 ArXiv.org 上发表论文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》介绍谷歌的神经机器翻译系统(GNMT)。神经机器翻译(NMT: Neural Machine Translation)是一种用于自动翻译的端到端的学习方法,该方法有望克服传统的基于短语的翻译系统的缺点。

当时外界对这个神经翻译系统的褒贬不一,比较综合的评价是:在同等语料的情况下,相较于基于短语的统计机器翻译,神经机器翻译(GNMT)系统能在更少工程量的基础上实现相同的效果。但是其纯粹把输入的句子当做一个序列(理论上任意符号序列都可以),不考虑这个句子本身作为语言的特性,生成的内容可能会比较奇怪,难以控制,错误的结果也难以解释。

三)完全基于注意力机制(attention mechanism)的网络框架

谷歌翻译新的网络框架——Transformer是完全基于注意力机制(attention mechanism)的网络框架,如上文所说,注意力机制是序列模型和传导模型的结合,在不考虑输入输出序列距离的前提下允许模型相互依赖,相比去年9月分公布的谷歌的神经机器翻译系统(GNMT),这里的传导模型的加入极有可能是这次系统升级的关键。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

RNN和LSTM弱!爆!了!注意力模型才是王道

1817
来自专栏机器之心

计算语言顶会ACL 2018最佳论文公布!这些大学与研究员榜上有名

1. Finding syntax in human encephalography with beam search(尚未公开)

940
来自专栏机器之心

16岁高中生夺冠Kaggle地标检索挑战赛!而且竟然是个Kaggle老兵

1673
来自专栏人人都是极客

AI和IOT的结合:现在和未来

为了更好地为目标客户服务,嵌入式设计团队今天正在研究新技术,如机器学习(ML)和深度学习(DL)。ML和DL使这些设计人员可以更快,更有限的资源开发和部署复杂的...

872
来自专栏机器之心

学界 | 谷歌大脑提出MAPO:用于程序合成的策略优化方法

该框架可用于从弱监督 (如问答对) 中学习语义解析和程序合成,这比全监督 (如问答对) 更容易收集,也更灵活。应用程序包括虚拟助手、数据库的自然语言接口、人机交...

823
来自专栏量子位

AI界的七大未解之谜:OpenAI丢出一组AI研究课题

林鳞 编译自 OpenAI官方博客 量子位 出品 | 公众号 QbitAI 今天,OpenAI在官方博客上丢出了7个研究过程中发现的未解决问题。 OpenAI希...

3399
来自专栏机器之心

一个模型库学习所有:谷歌开源模块化深度学习系统Tensor2Tensor

选自Google.research 机器之心编译 参与:黄小天、李泽南 在谷歌提交热点论文《Attention Is All You Need》和《One Mo...

3158
来自专栏目标检测和深度学习

16岁高中生夺冠Kaggle地标检索挑战赛!而且竟然是个Kaggle老兵

anokas 赢得了谷歌地标检索挑战赛,在 Reddit 上引起了非常多的讨论,大家都非常关心他的年龄以及是否有其他人帮助。不过在 anokas 的 Kaggl...

812
来自专栏织云平台团队的专栏

【干货分享】AIOps之根因分析

本文将给出基于决策树的智能根因分析方法,针对多维找出导致问题的根因。做数据、搞AI一定要基于具体业务,不可脱离业务谈数据、算法,否则将得不偿失。

7479
来自专栏机器之心

32分钟训练神经机器翻译,速度提升45倍

我们想让用户用自己喜欢的语言体验我们的产品,同时与世界各地的人们建立联系。为此,我们使用神经机器学习(NMT)自动翻译帖子和内容中的文本。我们之前关于这一课题的...

191

扫描关注云+社区