【一个深度学习模型解决所有问题】谷歌MultiModel通吃文本、图像、翻译

【新智元导读】我们能够制作出一个统一的深度学习模型,让这个模型解决多个领域的许多不同问题吗?谷歌研究人员提出了一个多模式适用的架构 MultiModel,用单一的一个深度学习模型,学会文本、图像和翻译这些不同领域的 8 种不同任务,朝“一个模型解决所有问题”迈出了重要一步。

我们能够制作出一个能解决多领域不同问题的统一深度学习模型吗?

在深度学习研究领域,多任务适用模型(multi-task model)是一个由来已久的课题。

此前已经有研究表明,多模式适用学习(multi-modal learning)能够在非监督学习中,提升习得的表征,还能够被当做先验知识解决不相关的任务。

但是,还没有人提出能够在同一时间解决多个任务的多模式适用模型(competitive multi-task multi-modal model)。

今天,谷歌研究人员用他们上传到 arXiv 网站的论文《用一个模型学会所有问题》(One Model to Learn Them All),朝解决这一任务迈出了积极的一步。

他们提出了一个多模型适用的架构 MultiModel,用单一的一个深度学习模型,学会各个不同领域的多种不同任务。

实验结果,谷歌研究人员提出的模型在所有上述任务中都取得了良好的结果——虽然具体到一项任务,结果并不是当前最佳的。

MultiModel:1 个模型同时解决 8 个不同领域的问题

具体说,谷歌研究员同时在以下 8 个任务上训练 MultiModel:

(1)WSJ 语料库

(2)ImageNet 数据集

(3)COCO 图说生成数据集

(4)WSJ 语义解析数据集

(5)WMT 英-德翻译语料库

(6)与(5)相反:德-英翻译语料库

(7)WMT 英-法翻译语料库

(8)与(7)相反:德-法翻译语料库

图1:MulitModel 能够完成不同领域不同任务。其中,红色表示语言相关的任务,蓝色表示分类相关的任务。

图1 展示了从模型直接解码得到的一些结果。从上图可见,MultiModel 能够生成述说、为图像分类、完成从法语到德语的翻译,并且构建语义分析树。

表1 展示了模型在联合训练 8 个不同任务和分别单独训练时取得的不同结果。可见,联合训练的结果相比单独会稍微低一些。

Modality Net:多模式适用模型的关键中间量

尽管 MultiModel 只是完成“统一模型”的第一步,谷歌研究人员表示,他们从这项工作中得出了两大关键:

要使用不同类型的输入数据训练模型,需要一些子网络,这些子网络能将输入转化到联合表征空间上。这些子网络被称为 “模式网”(modality net),因为它们分别对应具体的模式(比如图像、语音、文本),并决定了外部领域和统一表征之间的转变(transformation)。

论文作者设计让 modality net 拥有以下特征:①计算效率最高(computationally minimal),②促进 heavy 特征提取,③确保主要的计算都发生在模型中与领域无关的地方。

由于模型是自回归的,modality net 需要先转变为输入进入统一的表征空间,之后再转变为输出。因此,作者表示,在设计上有两个关键的地方:

  • 统一表征大小可变(variable-size)。虽然大小固定的表征方便部署,但这样会造成瓶颈,妨碍模型发挥
  • 相同领域的不同任务共享 modality net。例如,不论语种,所有的翻译任务都使用同样的 modality net,这样便于泛化

MultiModel 由多个部分构成,比如不同的卷积层、注意力机制和混合专家层。每个部分此前都没有在其他任务上训练过。例如,卷积层此前没有处理过文本或语音任务;混合专家层也没有处理过图像或语言相关的任务。

作者发现,每个单独的模块对于相应的任务而言都十分重要,比如注意力机制在解决与翻译相关的任务时,远比在处理图像任务中重要。

MultiModel 架构:MultiModel 架构由几个 modality net、1 个编码器,1 个 I/O mixer,以及 1 个自回归解码器构成。其中,编码器和解码器都包含有卷积层、注意力机制和稀疏门控混合专家层这 3 种计算单元(block),因此能够解决不同领域的多种问题。

但是,这个模块的存在并不会损害整体的性能,比如存在注意力机制,并不会降低整个架构处理图像任务的性能。

实际上,在实验中,注意力机制和混合专家层都稍微提升了 MultiModel 在处理 ImageNet 数据集的性能——按理说,图像任务并不怎么用到注意力机制和混合专家层(见下)。

论文介绍

摘要

深度学习在语音识别、图像分类、翻译等多个领域取得了丰硕的成果。但是,对于每个问题,研发出一个能很好地解决问题的深度模型,需要对架构进行研究和长时间的调整。我们提出了一个单一的模型,在跨多个领域的许多问题上取得了良好的结果。需要指出,这单一的一个模型在 ImageNet、多语种翻译任务、图说生成(COCO 数据集)、语音识别语料库和英语语义解析任务上,同时进行训练。我们的模型架构来自多个域,包含卷积层、注意力机制和稀疏门控层。这些计算单元(block)中,每一个对于训练任务的一小部分而言都至关重要。有趣的是,即使某个单元对某个任务而言并非必要,我们观察到添加这个单元并不会影响整体性能,在大多数情况下,还能提高完成各项任务的性能。我们还表明,具有较少数据的任务主要受益于与其他任务的联合训练,而大规模任务的性能只会稍微降低。

MultiModel 的架构示意图

论文地址:https://arxiv.org/pdf/1706.05137.pdf

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-06-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

天啊,你要的智商已下线——用我们的IQ测试题研究测量神经网络的抽象推理能力

为了解决这个问题,我们设计了一种用于抽象推理的新颖结构,当训练数据和测试数据不同时,我们发现该模型能够精通某些特定形式的泛化,但在其他方面能力较弱。进一步地,当...

915
来自专栏AI研习社

数据挖掘竞赛的套路就在这里了,看完本文全明白!

刚好在暑假通过参加 Kaggle 的 Zillow Prize 比赛来让我在数据挖掘和机器学习中完成了菜逼到 Level 1 的转变,借这个平台总结一下比赛的...

4876
来自专栏进击的程序猿

基于隐变量的推荐模型基于隐变量的推荐模型

上一篇介绍了协同过滤,其重点就是在人-物品矩阵上,其中心思想是去对人或者物品进行聚类,从而找到相似人或者相似物品,用群体的智慧为个人进行推荐,但是,这种近邻模型...

1903
来自专栏技术翻译

机器学习和深度学习有什么区别?

在本文中,我们将研究深度学习和机器学习之间的差异。我们将逐一了解它们,然后讨论他们在各个方面的不同之处。除了深度学习和机器学习的比较外,我们还将研究他们未来的趋...

2323
来自专栏鸿的学习笔记

关于机器学习应该知道的事(上)

这是一篇翻译,为了能有效率的读下去,特地分成两篇。因为只是作为我个人学习的记录,所以没有考虑到微信排版之类的。内容才是王道。

882
来自专栏AI研习社

数据挖掘竞赛的套路就在这里了,看完本文全明白!

前言 刚好在暑假通过参加 Kaggle 的 Zillow Prize 比赛来让我在数据挖掘和机器学习中完成了菜逼到 Level 1 的转变,借这个平台总结一...

4968
来自专栏鸿的学习笔记

机器学习应该知道的事(下)

新的一周又开始了,作为引子的review,还是有点长的,大家可以耐心的读读,绝对会让你有种豁然开朗的感觉。下周的重点是统计语言模型,别想的那么复杂,实际上就是贝...

822
来自专栏AI科技评论

开发 | 聊聊数据挖掘竞赛中的套路与深度学习的局限

AI 科技评论按:本文原作者兔子老大,原载于其知乎专栏——MLの玄学姿势。转载已获得授权。 前言 刚好在暑假通过参加 kaggle 的 Zillow Prize...

4015
来自专栏携程技术中心

干货 | 机器学习在1号店商品匹配中的实践

作者简介 刘洋,1号店搜索部算法工程师,机器学习的爱好者和实践者。上海大学博士,在语义分析、知识发现有深入研究。 电子商务通过服务和商品给用户带来极致体验。其中...

67812
来自专栏AI研习社

无监督学习和 transformers 如何在 OpenAI 手里玩出新花样

AI 研习社按:OpenAI 近期更新了一篇博客,他们利用一个任务无关的可扩展系统在多语言任务上取得了卓越进展。论文及代码已经公布。他们的方法结合了 trans...

994

扫码关注云+社区

领取腾讯云代金券