DeepMind无监督表示学习重大突破:语音、图像、文本、强化学习全能冠军!


新智元编译

来源:DeepMind

编译:肖琴

【新智元导读】DeepMind的最新研究提出一种新的表示学习方法——对比预测编码。研究人员在多个领域进行实验:音频、图像、自然语言和强化学习,证明了相同的机制能够在所有这些领域中学习到有意义的高级信息,并且优于其他方法。

论文地址:

https://arxiv.org/pdf/1807.03748.pdf

2013年,Bengio等人发表了关于表示学习( representation learning)的综述,将表示学习定义为“学习数据的表征,以便在构建分类器或其他预测器时更容易提取有用的信息”,并将无监督特征学习和深度学习的诸多进展纳入表示学习的范畴。

今天,DeepMind在最新论文Representation Learning with Contrastive Predictive Coding中,提出一种新的表示学习方法——对比预测编码(Contrastive Predictive Coding, CPC),将其应用于各种不同的数据模态、图像、语音、自然语言和强化学习,证明了相同的机制能够在所有这些领域中学习到有意义的高级信息,并且优于其他方法。

预测编码思想

使用分层的可微模型以端到端的方式从标记数据中学习高级表示,这是人工智能迄今为止最大的成功之一。这些技术使得人工指定的特性在很大程度上变得多余,并且在一些真实世界的应用中极大地改进了当前最优的技术。但是,这些技术仍存在许多挑战,例如数据效率、稳健性或泛化能力。

改进表示学习需要一些不是专门解决单一监督任务的特征。例如,当预训练一个模型以进行图像分类时,特征可以相当好地转移到其他图像分类域,但也缺少某些信息,例如颜色或计数的能力,因为这些信息与分类无关,但可能与其他任务相关,例如图像描述生成(image captioning)。类似地,用于转录人类语音的特征可能不太适合于说话者识别或音乐类型预测。因此,无监督学习是实现强健的、通用的表示学习的重要基石。

尽管无监督学习很重要,但无监督学习尚未得到类似监督学习的突破:从原始观察中建模高级表示仍然难以实现。此外,并不总是很清楚理想的表示是什么,以及是否可以在没有对特定的数据模态进行额外的监督学习或专门化的情况下学习这样的表示。

无监督学习最常见的策略之一是预测未来、缺失信息或上下文信息。这种预测编码(predictive coding)的思想是数据压缩信号处理中最古老的技术之一。在神经科学中,预测编码理论表明,大脑可以预测不同抽象层次的观察。

最近在无监督学习方面的一些工作已经成功地利用这些概念,通过预测邻近的单词来学习单词表示。对于图像来说,从灰度或image patches的相对位置来预测颜色,也被证明是有用的。我们假设这些方法卓有成效,部分原因是我们预测相关值的上下文通常是有条件地依赖于相同的共享高级潜在信息之上。通过将其作为一个预测问题,我们可以自动推断出这些特征与表示学习相关。

本文有以下贡献:

  • 首先,我们将高维数据压缩成一个更紧凑的潜在嵌入空间,在这个空间中,条件预测更容易建模。
  • 其次,我们在这个潜在空间中使用强大的自回归模型来预测未来。
  • 最后,我们依赖噪声对比估计(Noise-Contrastive Estimation)损失函数,与在自然语言模型中学习词嵌入的方法类似,允许对整个模型进行端到端的训练。

对比预测编码

图1:对比预测编码的概览,即我们提出的表示学习方法。虽然图中将音频作为输入,但是我们对图像、文本和强化学习使用的是相同的设置。

图1显示了对比预测编码模型的架构。首先,非线性编码器

将输入的观察序列

映射到潜在表示序列

,可能具有较低的时间分辨率。接下来,自回归模型

概括潜在空间中所有

,并生成一个上下文潜在表示

我们不是直接用生成模型

来预测未来的观察

。 相反,我们对密度比建模,保留了

之间的交互信息,公式如下:

其中

代表“成正比”。

在我们的实验中,我们使用线性变换

对每个步骤k进行不同

的预测,也可以使用非线性网络或递归神经网络。

4个不同领域的实验:语音、图像、NLP和强化学习

我们提出四个不同应用领域的benchmark:语音、图像、自然语言和强化学习。对于每个领域,我们训练CPC模型,并通过线性分类任务或定性评估来探讨“表示”(representations)所包含的内容;在强化学习中,我们测量了辅助的CPC loss如何加速agent的学习。

语音(Audio)

对于语音,我们使用了公开的LibriSpeech数据集中100小时的子数据集。虽然数据集不提供原始文本以外的标签,但我们使用Kaldi工具包获得了强制对齐的通话序列,并在Librispeech上预训练模型。该数据集包含来自251个不同说话者的语音。

图2:10个说话者子集的音频表示的t-SNE可视化。每种颜色代表不同的说话者。

图3:在语音波形中预测未来1到20个潜在步骤的对比损失,正样本预测的平均精度。该模型最多预测未来200 ms,因为每一步包含10ms的音频。

图像(Vision)

在视觉表示实验中,我们使用ImageNet数据集。我们使用ResNet v2 101架构作为图像编码器

来提取CPC表示(该编码器没有经过预训练)。在无监督训练后,训练一个线性层以测量ImageNet标签的分类精度。

图4:图像实验中对比预测编码的可视化

图5:每一行都显示了激活CPC架构的某个神经元的image patches

表3:ImageNet top-1无监督分类结果。

表4:ImageNet top-5无监督分类结果。

表3和表4显示了与state-of-the-art相比,CPC模型在ImageNet top-1和top-5的分类精度。尽管相对领域不可知,但CPC模型在top-1相比当前最优模型的精度提高了9%,在top-5的精度提高了4%。

自然语言

在自然语言实验中,我们首先在BookCorpus 数据集上学习我们的无监督模型,并通过对一组分类任务使用CPC表示来评估模型作为通用特征提取器的能力。

对于分类任务,我们使用了以下数据集:我们使用以下数据集:电影评论情绪(MR),客户产品评论(CR),主观性/客观性,意见极性(MPQA)和问题类型分类 (TREC)。

表5:五种常见NLP基准的分类精度。

评估任务的结果如表5所示。

强化学习

最后,我们评估了DeepMind Lab 在3D环境下的五种强化学习的无监督学习方法:rooms_watermaze,explore_goal_locations_small,seekavoid_arena_01,lasertag_three_opponents_small和rooms_keys_doors_puzzle。

在这里,我们采用标准的batched A2C agent作为基本模型,并添加CPC作为辅助损失。 学习的表示对其未来观察的分布进行编码。

图6:五个DeepMind Lab任务的强化学习结果。黑色:batched A2C基线,红色:添加辅助对比损失

如图6所示,在10亿帧的训练后,对于5个游戏中的4个,agent的表现有明显提高。

结论

在本文中,我们提出了对比预测编码(CPC),这是一种用于提取紧凑潜在表示以对未来观测进行编码的框架。CPC将自回归建模和噪声对比估计与预测编码的直觉相结合,以一种无监督的方式学习抽象表示。

我们在多个领域测试了这些表现形式:音频、图像、自然语言和强化学习,并在用作独立特征时实现了强大的或最优的性能。训练模型的简单性和低计算要求,以及在强化学习领域与主要损失一起使用时令人鼓舞的结果,都展现了无监督学习令人兴奋的发展,并且这种学习普遍适用于更多数据模态。

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-07-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

初学者如何选择合适的机器学习算法(附算法速查表)

来源:机器之心 参与:黄小天、蒋思源、吴攀 校对:谭佳瑶 本文长度为4000字,建议阅读6分钟 本文针对算法的选择为你提供一些参考意见。 本文主要的目标读者是机...

25560
来自专栏人人都是极客

机器学习套路就这三个

想要成为合格的,或者更进一步成为优秀的人工智能工程师或数据科学家,机器学习的各种基础知识是必不可少的。然而,机器学习领域浩如烟海,各类教材和入门课程层出不穷。特...

410160
来自专栏数据科学与人工智能

【机器学习】机器学习实践中的7种常见错误

本文作者是 Codecademy 的分析主管 Cheng-TaoChu,其专长是数据挖掘和机器学习,之前在 Google、LinkedIn和Square就职。 ...

28770
来自专栏机器之心

教程 | 算法太多挑花眼?教你如何选择正确的机器学习算法

机器学习既是一门科学,也是一种艺术。纵观各类机器学习算法,并没有一种普适的解决方案或方法。事实上,有几个因素会影响你对机器学习算法的选择。

11310
来自专栏机器之心

学界 | 世界权威评测冠军:百度人脸检测算法PyramidBox

选自arXiv 机器之心编译 近日,百度凭借全新的人脸检测深度学习算法 PyramidBox,在世界最权威的人脸检测公开评测集 WIDER FACE 的「Eas...

44950
来自专栏AI科技大本营的专栏

colah 深度学习系列长文(一)

【AI100 导读】神经网络的本质,是特征提取的抽象过程,其数学本质是对高维度数据进行降维分类,发现统计规律。而大多数人对于这个降维过程很难理解,本文用非常简...

29690
来自专栏机器之心

学界 | 与模型无关的元学习,UC Berkeley提出一种可推广到各类任务的元学习方法

选自BAIR Blog 作者:Chelsea Finn 机器之心经授权编译 参与:路雪、蒋思源 学习如何学习一直是机器学习领域内一项艰巨的挑战,而最近 UC B...

42590
来自专栏CDA数据分析师

如何利用机器学习进行海量数据挖掘

互联网的海量数据不可能靠人工一个个处理,只能依靠计算机批量处理。最初的做法是人为设定好一些规则,由机器来执行。但特征一多规则就很难制定,即使定下了规则也没法根据...

25470
来自专栏PPV课数据科学社区

【推荐】深度学习-LeCun、Bengio和Hinton的联合综述(上)

【编者按】三大牛Yann LeCun、Yoshua Bengio和Geoffrey Hinton在深度学习领域的地位无人不知。为纪念人工智能提出60周年,最新的...

28660
来自专栏计算机视觉战队

从零基础成为深度学习高手——III

今天开始学习进阶的知识,有兴趣的您请继续阅读和学习: 深度学习之高手进阶 我们在进行深度学习的时候一般会按照这4个步骤进行。 ? 获取数据 很大程度上...

33960

扫码关注云+社区

领取腾讯云代金券