数据少,就享受不到深度学习的红利了么?总是有办法的!

【导读】深度学习,有太多令人惊叹的能力!从12年的图像识别开始,深度学习的一个个突破,让人们一次又一次的刷新对它的认知。然而,应用深度学习,一直有一个巨大的前提:大量标注数据。但是难道数据少,就享受不到深度学习带来的红利了么?近日来自卡内基梅隆大学、亚马逊研究院、加州理工学院的研究员,在人工智能顶级会议 UAI 上阐述了多种方法,尝试缓解甚至解决数据稀疏对深度学习的影响。

作者 | Anima Anandkumar & Zachary Lipton

编译 | 专知

整理 | huaiwen

作者简介

【Zachary Lipton】博士 毕业于 加州大学圣迭戈分校人工智能组,现已加入卡内基梅隆大学任助理教授。他的研究兴趣比较广泛,主要包括:增强学习在对话系统中的应用、GAN、NLP 的深度主动学习、噪声单标签数据学习等。文章多见于ICML, ICLR, NIPS。个人主页:http://zacklipton.com/

【Anima Anandkumar】是加州理工学院的教授,她的研究方向是大型机器学习、非凸优化和高维统计。特别是,她一直引领和发展用于机器学习的张量算法,张量是矩阵的多维扩展,可以在数据中编码高阶关系。为亚马逊网络服务公司(Amazon Web Services),构建人工智能服务。参与构建了 Spectral LDA on Spark, MXNet, Gluon 等大型机器学习框架。个人主页:http://tensorlab.cms.caltech.edu/users/anima/

主要方法

为了解决深度学习数据少,和数据稀疏, 目前业界的主流方法有一下5种:

  • 数据增广
  • 半监督学习
  • 迁移学习
  • 领域自适应
  • 主动学习

下面,我们对这5种方式进行一个简单的介绍,详细的介绍,可以在本文末尾,根据指示,获取原文观看。

数据增广

数据增广,主要是想,对现有的数据,添加噪声等各种其他变换,从而产生一些有意义的数据,是的数据集增加,从而解决数据稀疏的问题,提升模型性能。 特别的,如图所示,Zachary Lipton 介绍了近期他的一个工作:利用 GAN来做图像数据增广。

半监督学习

半监督学习的情形是指:我们拥有少量的标注样本(图中橘色部分)以及大量的未标注样本(图中蓝色部分)。

半监督学习,一般的思路是:在全部数据上去学习数据表示,在有标签的样本上去学习模型,用所有数据去加正则。

迁移学习

迁移学习,主要是想,在一个拥有大量样本的数据(图中蓝色部分)上去学习模型,在改动较少的情况下,将学习到的模型迁移到类似的目标数据(图中橘色部分)和任务上。

领域自适应

领域自适应,主要是想,在已有的标注数据p(x,y)上学习模型, 然后尝试在另一个分布上q(x,y)上去做应用。

主动学习

主动学习,维护了两个部分:学习引擎和选择引擎。学习引擎维护一个基准分类器,并使用监督学习算法对系统提供的已标注样例进行学习从而使该分类器的性能提高,而选择引擎负责运行样例选择算法选择一个未标注的样例并将其交由人类专家进行标注,再将标注后的样例加入到已标注样例集中。学习引擎和选择引擎交替工作,经过多次循环,基准分类器的性能逐渐提高,当满足预设条件时,过程终止。

-END-

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-08-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

深度学习并非万能,你用对了吗?

来源:机器人圈 作者:Pablo Cordero 本文文章长度为4700字,建议阅读8分钟。 本文为你全面揭示深度学习的应用场合和作用。 [ 导读 ]深度学习随...

2048
来自专栏携程技术中心

干货 | 携程图像智能化建设之路

1633
来自专栏机器之心

资源 | 最入门级别的机器学习图书:Chris Bishop发布在线新书

选自MBML book 参与:蒋思源 PRML 大神、微软剑桥研究院院长 Chris Bishop 与 John Winn 的机器学习新书 Model Base...

2926
来自专栏机器之心

学界 | 复现深度强化学习结果所面临的挑战与建议

选自arXiv 机器之心编译 参与:蒋思源、路雪 本论文对强化学习顶尖试验结果的复现性进行了详细的探讨,并讨论了超参数和随机种子等变量对强化学习模型复现性的重要...

2888
来自专栏大数据文摘

涨姿势!用深度学习LSTM炒股:对冲基金案例分析

2574
来自专栏大数据文摘

学界 | DeepMind想用IQ题测试AI的抽象思维能力,进展还不错

阿基米德基于对物体体积的抽象理解,悟到了物体的体积与物体浮力之间的关系。这就是抽象推理的魔力。

630
来自专栏专知

【干货】为什么深度学习要使用大量数据?

4171
来自专栏PPV课数据科学社区

机器学习和统计模型的差异

在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么? 这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者...

3266
来自专栏AI研习社

Kaggle 冰山图像分类大赛近日落幕,看冠军团队方案有何亮点

AI 研习社按,在日前结束的 Kaggle「Statoil/C-CORE Iceberg Classifier Challenge」(冰山图像分类大赛)中,由 ...

1982
来自专栏ATYUN订阅号

AI结合人工X射线准确识别医学图像中的罕见情况

一种新的人工智能系统通过人工X射线训练,有助于研究人员识别医学图像中罕见的医学状况。

1912

扫码关注云+社区

领取腾讯云代金券