专栏首页AI人工智能半监督学习革命

半监督学习革命

来源商业新知,原标题:干货!谷歌首席科学家发文阐述“半监督学习革命”,想走出瓶颈先试试这个

没有大量的标注数据怎么办?

谷歌首席科学家,谷歌大脑技术负责人Vincent Vanhoucke说, 半监督学习革命 已经来了。

他用一篇博客,细数了半监督学习的进展,以及这类方法会为机器学习领域带来怎样的变化,量子位已为大家翻译如下:

机器学习工程师最熟悉的操作之一是搞到大量数据,但是拿到数据之后,需要不少资源来标注这些数据。

这是个难题,在这一步上左右为难的工程师们,往往都会这样做:

既然这么多数据都没标注,那先想想用这点已标注的监督数据能干点啥;然后去查文献,发现不同的文献都指向了同一个答案——半监督学习。

这就是通常会出错的地方了。

半监督学习历来是每个工程师走过的弯路,他们研究了半监督学习,然后就回到那些已有的标注过的数据上。每个人遇到的问题细节不一样,但大体上说,都是这些问题:

在数据少的时候,半监督学习的确能提高模型表现,但实际操作中你却发现:

这种提高只是从“太烂,没法用”提高到“不太烂,但还是没法用”。

基本上,如果你的数据体系有利于半监督学习,那基本意味着你的分类器训练的很烂,而且完全没法用(手动狗头)。

另外,半监督学习可不是白来的,而且用半监督学习的方法往往不能像监督学习那样给出一个趋向同样的渐进,比如未标记的数据可能会引起偏差。MIT的《半监督学习(Semi-Supervised Learning)》第四章里曾经提过一个早期很流行的半监督学习方法,先为未标记数据创造一个自动编码器,然后根据标记数据进行微调。

几乎没人这么操作,因为通过自动编码器学习的表现完全受限于微调的渐进表现。有趣的是,即使现代的生成模型大大提高,也没有改变这种状况,可能是因为一个好的生成模型并不等于好的分类器吧。

最后,当你现在看到工程师们微调模型的时候,基本都是从有监督数据中学到的表征开始的,嗯,自我监督数据都是为了语言建模。

在任何可行的情况下,从其他预训练模型迁移学习是一个更强大的起点,半监督方法难以超越。

因此,一个典型的机器学习工程师在遇到半监督学习的困境时的处理过程是这样的:

  1. 一切都很糟糕,我们不如试试半监督学习。(毕竟这是一个工程师的工作,比数据标注有趣多了吧)
  2. 看数字增加了,但看起来还是很恐怖。看来我们还是要给数据先贴上标签了。
  3. 虽然说数据越多越好,但你试过抛弃半监督机制会怎样么?
  4. 越简单的效果可能就是最好的,我们可以省略掉上述的2和3步骤,节省大量时间,也不用给自己找这么多麻烦。

如果你是幸运儿,你的困难可能有这样一个表征:

在这种情况下,有一个苛刻的数据规范,可怕的不是半监督学习的方法,甚至半监督学习还提高了数据效率。

根据我的经验,很少能达到这个最佳状态。考虑到复杂性的额外成本,标签数据的数量通常不会差开几个数量级,所以训练效果差距也不大。

这样来看,这几乎不值得这么麻烦,除非你想搞的是一个学术基准上的竞争。

等等,这篇文章的标题不是“安静的半监督革命”吗?

一个有趣的趋势是,半监督学习的前景可能正在改变,比如这样:

首先,如果这些曲线和人们的心理模型相符,用半监督学习训练的效果就是数据越多,效果越好。即使在监督学习效果良好的情况下,半监督学习与监督学习之间的差距也应该是确定的。

并且,这种情况发生的频次也会越来越多,并且没有任何代价,因此也不会那么复杂。“神奇地带”(magic zone)起点较低,它不受数据规范的限制同样重要。

有哪些新东西呢?

首先,有些机智的方法,可以让AI自己给数据加标签,然后把损失函数用相应的方式来表达:把自动加标签的噪音和可能的偏差都考虑进去。

最近有两篇研究,都是这方面的例子:

一是MixMatch: A Holistic Approach to Semi-Supervised Learning

Arxiv码:1905.02249

二是Unsupervised Data Augmentatio

Arxiv码:1904.12848

其次,有一个根本上的变化,是人类已经意识到半监督学习会在 机器学习隐私中 ,扮演一个很重要的角色了。

比如,PATE (Arxiv码:1610.05755) 方法里面定假设有监督的数据是私有的。那在教师-学生网络里,学生型就有强大的隐私保障,可以只用未标记的数据 (公开数据) 进行训练。

知识蒸馏 (Distilling Knowledge) 中,有些对隐私敏感的方法,成为了 联合学习 (Federated Learning) 的一个关键推动力:

因为这样的方法,可以保障高效的分布式学习 (Distributed Learning) ,模型不需要访问用户数据,在数学上保障了隐私。

现在,可以在实际应用的设定下,重新考量半监督学习的价值,真是激动人心。

看到那些长期存在的假设,如今却受到挑战,这是非常好的现象,说明这个领域正在发生惊人的进步。

这趋势是近期才出现的,我们还要看看,这样的方法能不能经受时间的考验;

不过,机器学习工具的架构,很可能发生根本上的改变,这件事还是很诱人的,值得期待。

原文链接:https://www.shangyexinzhi.com/article/details/id-136857/

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一文看懂机器学习3种类型

    [导 读] 机器学习是使数据具有意义的算法的应用和科学,也是计算机科学中最令人兴奋的领域!在数据丰沛的时代,计算机可以通过自我学习获得算法把数据转化为知识。近年...

    商业新知
  • 机器学习VS 编程,二者的最大区别是什么?

    有些人认为人工智能和机器学习的本质不过是大肆运用if语句,或者说编程知识罢了,建议说这话的人最好能拿出详细证据证明。本文将对比两个概念,并解释从事这两个领域的专...

    商业新知
  • 弱监督学习——这是目前最详尽的一篇科普文

    随着人工智能技术的研究迈过了初期的野蛮生长,走进深水区。如何充分利用人工标注信息、减小标注工作量、将人类经验与学习规则充分结合成为了急需解决的关键问题!本文结合...

    商业新知
  • 机器学习的未来:半监督学习

    监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精确度和预测能力。

    统计学家
  • 干货!谷歌首席科学家发文阐述“半监督学习革命”,想走出瓶颈先试试这个

    谷歌首席科学家,谷歌大脑技术负责人Vincent Vanhoucke说,半监督学习革命已经来了。

    磐创AI
  • 比监督学习做的更好:半监督学习

    监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精确度和预测能力。

    石晓文
  • 安静的半监督学习革命,一起清理未标记的数据

    对于机器学习工程师来说,访问大量数据十分重要,但有标记的数据很有限。处于此困境的人可能会查阅文献,思考下一步该做什么,而文献似乎都会给出一个现成的答案:半监督学...

    AiTechYun
  • 监督学习和非监督学习

    人工智能 这个行业在现在是非常火爆的,我相信大家都有所了解。我对这个行业的认识是薪资高,门槛高,大部分要求是研究生以上学历。作为普通二本院校的我有点感到绝望~但...

    佛系编程人
  • 还在苦恼机器学习和线性回归?这篇总结拿走不谢 | 原力计划

    作者 | 听星的朗瑞 责编 | 王晓曼 出品 | CSDN博客 题图 | 东方IC

    AI科技大本营
  • 机器学习(一)——机器学习概述

    机器学习(一)——机器学习概述 (原创内容,转载请注明来源,谢谢) 前言:近期开始学习机器学习,当前视频和书籍一起看,视频看的是吴恩达的机器学习系列课程,...

    用户1327360

扫码关注云+社区

领取腾讯云代金券