专栏首页机器之心学界 | 机器翻译新突破:谷歌实现完全基于attention的翻译架构

学界 | 机器翻译新突破:谷歌实现完全基于attention的翻译架构

选自arXiv

机器之心编译

参与:吴攀、黄小天、李亚洲

近两年来,机器翻译的突破让人目不暇接,从去年谷歌的颠覆性突破开始到一个月前 Facebook 的全新 CNN 翻译技术,人工智能的巴别塔正越建越高。近日,谷歌再次宣布又在机器翻译上更进了一步,实现了完全基于 attention 的 Transformer 机器翻译网络架构,并且还在 WMT 2014 的多种语言对的翻译任务上超越了之前 Facebook 的成绩,实现了新的最佳水平。机器之心对这篇研究论文进行了摘要介绍。

论文:Attention Is All You Need

论文链接:https://arxiv.org/abs/1706.03762

在编码器-解码器配置中,显性序列显性转导模型(dominant sequence transduction model)基于复杂的 RNN 或 CNN。表现最佳的模型也需通过注意力机制(attention mechanism)连接编码器和解码器。我们提出了一种新型的简单网络架构——Transformer,它完全基于注意力机制,彻底放弃了循环和卷积。两项机器翻译任务的实验表明,这些模型的翻译质量更优,同时更并行,所需训练时间也大大减少。我们的模型在 WMT 2014 英语转德语的翻译任务中取得了 BLEU 得分 28.4 的成绩,领先当前现有的最佳结果(包括集成模型)超过 2 个 BLEU 分值。WMT 2014 英语转法语翻译任务中,在 8 块 GPU 上训练了 3.5 天之后,我们的模型获得了新的单模型顶级 BLEU 得分 41.0,只是目前文献中最佳模型训练成本的一小部分。我们表明 Transformer 在其他任务上也泛化很好,把它成功应用到了有大量训练数据和有限训练数据的英语组别分析上。

图 1:转换器-模型架构

图 2:(左)可延展的 Dot-Product 注意,(右)Multi-Head 注意保护数并行运行的注意层

图 3:在 5、6 层编码器自注意中遵循长期依存关系的注意机制的例子。

本文为机器之心编译,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-06-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 102个模型、40个数据集,这是你需要了解的机器翻译SOTA论文

    机器翻译一直是非常吸引研究者的「大任务」,如果某些方法被证明在该领域非常有效,那么它很可能可以扩展到其它问题上。例如 Transformer,它出生于机器翻译家...

    机器之心
  • 业界 | 搜狗机器翻译团队获得 WMT 2017 中英机器翻译冠军

    搜狗语音交互技术中心 机器之心报道 每年的第三季度都是机器学习相关的顶级学术会议密集召开的时期,今年也不例外。其中,作为自然语言处理领域顶级国际会议之一的 EM...

    机器之心
  • 学界 | Bengio最新论文提出GibbsNet:深度图模型中的迭代性对抗推断

    机器之心
  • 模拟投骰子并可视化

    用户3577892
  • 一招鲜 |全球每年有120亿张名片被交换,成功转化为商机不足1%!你的名片是那1%吗?

    ? 乔·吉拉德—20世纪50年代世界著名销售大师 连续12年,平均每天卖出6辆车 每卖出一辆汽车 他都会把一沓名片放在顾客的新车里 甚至连寄送支票 他都会将两...

    腾讯企点
  • 前端工程师深度学习,就能在浏览器里玩转深度学习

    TensorFlow.js 的发布可以说是 JS 社区开发者的福音!但是在浏览器中训练一些模型还是会存在一些问题与不同,如何可以让训练效果更好?本文为大家总结了...

    一墨编程学习
  • 并发模型与事件循环

    默认安装到项目目录下,-g安装到全局,-save在package.json写入dependencies字段,-save-dev相应写入devDependenci...

    gojam
  • 如何设计实现一个轻量的开放API网关

    随着业务的发展, 所对接的第三方越来越多, 各个业务系统面临着同样一个问题: 如何让第三方安全快速接入. 此时有一个集验签、鉴权、限流、降级等功能于一身的API...

    黄泽杰
  • 深度学习之主流数据库 | MySQL基础

    这篇文章主要是讲一下常见的MySQL的安装,和基本操作。适合完全没有MySQL知识但是又急需一些MySQL知识的童靴作为快速入门使用。 背景与安装 背景不用多说...

    用户1332428
  • Leetcode#521. Longest Uncommon Subsequence I(最长特殊序列 Ⅰ)

    给定两个字符串,你需要从这两个字符串中找出最长的特殊序列。最长特殊序列定义如下:该序列为某字符串独有的最长子序列(即不能是其他字符串的子序列)。

    武培轩

扫码关注云+社区

领取腾讯云代金券