专栏首页量子位已开源!谷歌将AutoML应用到Transformer架构,实现机器翻译最佳性能

已开源!谷歌将AutoML应用到Transformer架构,实现机器翻译最佳性能

铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI

AutoML在NLP领域中的应用又多了新资源。

谷歌最新博客表示,此前在语言建模和翻译等序列任务中,Transformer架构已经展现出了极大的优势,但这些架构几乎均为手动设计,与视觉领域差异巨大。

能不能用更自动的方式应用这一高效的架构?

谷歌研究人员就此一试,找到一种新的Transformer架构,代号Evolved Transformer(简称ET)来测试自动机器学习方法AutoML在Transformer架构中应用如何。

和以往其他Transformer不同,ET能够根据特定任务进行定制,在机器翻译领域得到了最先进的结果,并且对语言建模任务也进行了改进。

这条推特发出后收获了不少关注,目前有800多个点赞,近300人转发了这项研究。

网友对此表示认可,表示和人类教机器相比,机器教机器才是正解嘛!

目前,Evolved Transformer已开源,也是Google基于TensorFlow新架构Tensor2Tensor的一部分了,任何人都可以免费使用。

“混合体”架构

想要在翻译任务上进行大规模NAS(神经网络架构搜索),必须先要评估每个架构的适应性任务。在这个预热阶段,有两种方法。

一种是通过暖启动(warm starting)的方式,研究人员在初始种群中用Transformer进行播种,不采用随机模型,这有利于在搜索空间中的搜索。

第二种方法被称为Progressive Dynamic Hurdles (PDH),增强了进化搜索,将更多资源分配给更强健的候选者,若模型不好则PDH就会终止评估,重新分配资源。

利用这两种方法,研究人员在机器翻译上进行大规模NAS,找到了Evolved Transformer。

和大多数序列到序列的神经网络架构类似,Evolved Transformer的编码器能将输入序列作为嵌入,解码器能将嵌入输出序列。

Evolved Transformer还有一个有趣的特点,它的编码器和解码器模块底部的卷积层的添加模式很有意思,在两个地方都以类似的分支模式添加,即在合并到一起时,输入通过两个独立卷积层。

上图为Evolved Transformer(右)与最初Transformer编码器架构对比。

虽然最初的Transformer架构依赖于自注意,但Evolved Transformer为一个混合结构,利用了自注意和宽卷积。

SOTA结果

研究人员进行了不同类型的测试,证明Evolved Transformer是有效的。

先是用英语到德语的翻译任务,对Evolved Transformer和原始Transformer进行对比。

结果显示,在所有参数size下,Evolved Transformer的BLEU和perplexity performance的表现均超越原始Transformer。

此外,在WMT14 En-De英语-德语测试集上,Evolved Transformer实现了最佳性能,BLEU得分为29.8,SacreBLEU得分为29.2。

研究人员还在不同NLP任务上对比了这两种Transformer架构。

他们测试了用不同语言对的翻译任务,Evolved Transformer有所提升,其margin与英语-德语类似。因为新模型高效利用参数,因此对中型模型的提升较大。

在利用LM1B进行语言建模时,Evolved Transformer性能提升了将近两个perplexity。

传送门

Google官方博客: https://ai.googleblog.com/2019/06/applying-automl-to-transformer.html

开源地址:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/evolved_transformer.py

论文地址: https://arxiv.org/abs/1901.11117

本文分享自微信公众号 - 量子位(QbitAI),作者:关注前沿科技

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 影响无人驾驶技术未来发展的六大趋势

    李杉 编译整理 量子位 出品 | 公众号 QbitAI 科技一直以来都是汽车研发的关键,但过去几年,随着物联网和人工智能的快速发展,并逐步向汽车行业渗透,一场汽...

    量子位
  • 最强AlphaGo怎样炼成?刚刚,DeepMind团队进行了全面解读

    安妮 李林 发自 凹非寺 量子位 出品 | 公众号 QbitAI 昨天AlphaGo再次震惊所有人。 刚刚,这个史上最强围棋AI的两位主要开发者,David S...

    量子位
  • 加州将放宽无人车路测标准:没方向盘也行,没人类驾驶员也行

    李杉 编译整理 量子位 出品 | 公众号 QbitAI ? 加州机动车辆管理局将于明年开始允许没有方向盘、踏板、后视镜和人类驾驶员的无人驾驶汽车在该州上路测试。...

    量子位
  • 实践-腾讯新闻图文详情实现

    進无尽
  • 谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源!

    自几年前推出以来,Google的Transformer架构已经应用于从制作奇幻小说到编写音乐和声的各种挑战。重要的是,Transformer的高性能已经证明,当...

    新智元
  • 谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源!

    自几年前推出以来,Google的Transformer架构已经应用于从制作奇幻小说到编写音乐和声的各种挑战。重要的是,Transformer的高性能已经证明,当...

    代码医生工作室
  • 谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源!

    Evolved Transformer不仅实现了最先进的翻译结果,与原始的Transformer相比,它还展示了语言建模的改进性能。

    数据派THU
  • iOS中Today扩展插件与宿主APP的交互 原

            扩展是iOS8后系统开发给开发者的新开发思路与接口,每一个扩展都可以理解为一个简单的小应用程序,只是其不是独立存在的,要寄附于某一个主应用上。介...

    珲少
  • MIT要用人工智能帮你做菜:上传美食照片,给你一份菜谱

    李林 编译整理 量子位 报道 | 公众号 QbitAI ? 在朋友圈看见美食照片总想自己做一份?MIT来帮忙了。 MIT的计算机科学及人工智能实验室(CSAIL...

    量子位
  • 回顾Erlang简要

    世界是并行的,Erlang程序反应了一种思考和交流的方式,个体通过发送消息进行交流,如果有个体死亡,其他个体会注意到。

    半吊子全栈工匠

扫码关注云+社区

领取腾讯云代金券