学界 | DeepMind提出对比预测编码,通过预测未来学习高级表征

选自arXiv

作者:Aaron van den Oord、Yazhe Li、Oriol Vinyals

机器之心编译

参与:Nurhachu Null、张倩

本文提出了一种通用的无监督学习方法——对比预测编码,从高维数据中提取有用的表征。该方法的核心是通过使用强大的自回归模型预测潜在空间的未来,以学习高级表征。论文证明,该方法能够学习有用的表征,在 3D 环境中的语音、图像、文本和强化学习四个不同的领域表现出优异的性能。

1. 引言

在端到端的潮流下使用分层可微分模型从有标签的数据中学习高级表征是人工智能目前最大的成功之一。这些技术使得人工设计的特征很大程度上都显得多余了,并且也提升了好几个实际应用中的当前最佳技术水平 [1,2,3]。但是,该领域仍存在很多挑战,例如数据的有效性、鲁棒性以及泛化能力。

提升表征学习不太需要专门用于解决单个监督任务的特征。例如,在预训练一个模型用于图像分类时,所产生的特征能够很好地迁移到其他图像分类域中,但是缺少与颜色或者计数能力相关的信息,这些信息与分类无关,但是与图像描述等任务相关 [4]。类似地,对转录人类语音有用的特征可能不太适用于说话人身份验证或者音乐流派预测。所以,无监督学习是实现鲁棒和通用表征学习的重要跳板。

尽管无监督学习非常重要,但是它还没有取得与有监督学习类似的重大突破:从原始数据中对高级表征进行建模还是很难得一见。此外,理想的表征是什么,以及在没有额外的监督或者没有某个特定的数据模态下的监督时,是否有可能学到这种表征,这些并不总是非常清晰。

无监督学习中的一个常见策略就是预测未来的、缺失的或者上下文中的信息。这种预测编码 [5,6] 的思想是用于数据压缩的最古老的信号处理技术之一。在神经科学中,预测编码理论认为大脑在不同的抽象水平预测观察 [7,8]。无监督学习领域的最新研究已经成功地利用这种思想通过预测临近词来学习词表征 [9]。对图像而言,从灰度值或者图像块的相对位置来预测颜色也被证明是有用的 [10,11]。我们假设这些方法是有效果的,部分原因是我们从中预测相关值的上下文经常是有条件地依赖于相同的高级别潜在信息。通过将此作为一种预测问题,我们自动地推理这些表征学习感兴趣的特征。

在这篇论文中,我们提出了以下内容:首先,我们将高维数据压缩到更加紧密的潜在嵌入空间,这个空间中条件预测更容易建模。接下来,我们在这个潜在空间中使用强大的自回归模型来做多步未来预测。最后,对损失函数,我们依靠噪声对比估计 [12],这是与自然语言模型中用于学习词嵌入类似的方式,需要整个模型以端到端的形式进行训练。我们将最终的模型(对比预测编码,CPC)用在了很多不同的数据模态中,包括图像、语音、自然语言和强化学习,结果表明同样的机制在每一个领域中都学到了有趣的高级表征,而且优于其他方法。

图 1: 论文提出的表征学习方法——对比预测编码(CPC)概览。尽管此图仅仅展示了使用音频作为输入的情况,但是我们对图像、文本以及强化学习都做了相同的实验设置。

3. 实验

3.1 音频

表 1: LibriSpeech 数据集上的音素分类和说话人分类结果。音素分类共有 41 个可能的类别,说话人分类共有 251 个可能的类别。所有的模型都使用相同的结构和相同的音频输入大小。

表 2: LibriSpeech 数据集中音素分类的 ablation 实验。论文的 3.1 部分会有更多细节。

图 4:图像对比预测编码的可视化(这是图 1 的二维适应)

3.2 视觉

表 3: ImageNet 无监督分类的 top-1 结果。由于架构差异,Jigsaw 无法与其他 AlexNet 结果直接比较。

表 4: ImageNet 无监督分类的 top-5 结果。之前使用 MS、Ex、RP、Col 得到的结果来源于 [35],是这项任务上的最佳报告结果。

3.3 自然语言

表 5: 5 个常见 NLP 测试基准上的分类准确率。我们遵循与 skip-thought vector 一样的迁移学习设置 [25],使用 BookCorpus 数据集作为迁移源。[39] 是学习句子级别表征的一种无监督方法。[25] 是一种可选择的无监督学习方法。[40] 是使用层正则化迭代一百万次训练得到的 skip-thought 模型。

3.4 强化学习

图 6: [49] 中使用的 DeepMind 实验室中 5 个任务上的强化学习结果。黑色:分批 A2C 基准,红色:辅助对比损失

论文:Representation Learning with Contrastive Predictive Coding

论文链接:https://arxiv.org/pdf/1807.03748.pdf

摘要:虽然监督学习在许多应用中都取得了很大进展,但无监督学习并没有得到如此广泛的应用,它仍然是人工智能的一项重要而富有挑战性的工作。本文提出了一种通用的无监督学习方法,从高维数据中提取有用的表征,我们称之为对比预测编码。论文所述模型的关键思想是通过使用强大的自回归模型预测潜在空间的未来,以学习这些表征。我们使用一种概率对比损失,这种概率对比损失诱导潜在空间捕获最有助于预测未来样本的信息。采用负采样也使模型易于处理。虽然之前的大多数研究都集中在评估特定模态的表征上,但是我们证明,我们的方法能够学习有用的表征,在 3D 环境中的语音、图像、文本和强化学习四个不同的领域表现出优异的性能。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-07-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏mwangblog

蚁群算法解决旅行商(TSP)问题

在更新信息素的过程中,只有最优路线上的信息素会进行增加操作,且不能超过信息素最大值。

48930
来自专栏新智元

【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争

【新智元导读】一场或许有关深度学习本质的争论正在火热进行中。去年底,MIT、DeepMind 和谷歌大脑合著的论文《理解深度学习需要重新思考泛化》引发热论。论文...

421120
来自专栏应兆康的专栏

建立一个单一数字的评估指标

16810
来自专栏HaHack

机器学习的数学基础:向量篇

10820
来自专栏企鹅号快讯

1.深度学习概念简介

简介 1. 什么是神经网络? 1.1 单个神经元网络 ? 如上图所示,我们想通过房子的面积来预测房子的价格。用单个神经网络来解决这个问题如下所示: ? 输入x为...

29480
来自专栏AI研习社

干货:图像比赛的通用套路有哪些?Kaggle比赛金牌团队为你解答

AI研习社按: Kaggle 是全世界首屈一指的数据科学、机器学习开发者社区和竞赛平台。日前,中山大学CIS实验室的研二学生刘思聪为我们带来了一场精彩的分享。他...

43260
来自专栏机器之心

常用测试集带来过拟合?你真的能控制自己不根据测试集调参吗

30840
来自专栏应兆康的专栏

23. 处理偏差和方差

13560
来自专栏专知

【重温经典】吴恩达机器学习课程学习笔记七:Logistic回归

【导读】前一段时间,专知内容组推出了春节充电系列:李宏毅2017机器学习课程学习笔记,反响热烈,由此可见,大家对人工智能、机器学习的系列课程非常感兴趣,近期,专...

53890
来自专栏AI科技评论

干货 | CVPR精彩论文解读:对当下主流CNN物体检测器的对比评测

AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续。下文是Momenta高级研发工程师李俊对此次大会收录的Speed/Accurac...

40260

扫码关注云+社区

领取腾讯云代金券