专栏首页ATYUN订阅号安静的半监督学习革命,一起清理未标记的数据

安静的半监督学习革命,一起清理未标记的数据

编译 | 深深深海

发布 | ATYUN订阅号

对于机器学习工程师来说,访问大量数据十分重要,但有标记的数据很有限。处于此困境的人可能会查阅文献,思考下一步该做什么,而文献似乎都会给出一个现成的答案:半监督学习

这通常是出现问题的地方。

半监督学习一直是每个工程师都要经历的,然后又回到经过标记的普通旧数据上。对于每个问题细节都是独一无二的,但从广义上讲,它们通常可以描述如下:

在数据少的情况下,半监督培训确实倾向于提高绩效。但在实际环境中,经常会从糟糕且不可用的性能水平变为不太糟糕但仍然完全无法使用。从本质上讲,当你处在一个半监督学习确实有帮助的数据环境中,这意味着你也处在一个分类器很差、没有实际用途的环境中。

此外,半监督通常不是凭空而来的,使用半监督学习的方法通常不能提供监督学习在数据多的情况下的相同渐近性质,未标记的数据可能会引入偏差。

在深度学习的早期,一种非常流行的半监督学习方法是首先在未标记数据上学习自动编码器,然后对标记数据进行微调。几乎再没有人这样做了,因为通过自动编码学习的表示倾向于凭经验限制微调的渐近性能。

即使是改进很大的生成方法也没有改善多少,一个好的生成模型并不一定是一个好的分类器。因此,当你看到工程师对模型进行微调时,通常从在监督数据上学习的表示开始,是的,文本是用于语言建模目的的自我监督数据。在任何可行的情况下,从其他预训练模型转移学习是一个更加强大的起点,半监督方法难以超越。

因此,典型的机器学习工程师在半监督学习的困境中的处理如下:

1:一切都很糟糕,让我们尝试一下半监督学习(毕竟,这是工程师的工作,比标记数据更有趣)。

2:看,数字上升了!但是仍然很可怕。看起来我们毕竟必须标记数据。

3:数据越多越好,但是你有没有尝试过丢弃半监督机器会发生什么?

4:嘿,你知道什么,它实际上更简单更好。我们完全可以跳过2和3来节省时间和技术。

如果你非常幸运,你的问题也可能具有这样的性能特征:

在这种情况下,存在一种狭窄的数据体系,半监督并不可怕,并且还提高了数据效率。根据我的经验,很难达到这个完美的点。考虑到额外复杂性的成本,标记数据量的差距通常不会有更好的数量级,并且收益递减,这种麻烦不太值得,除非你是在学术基准上竞争。

但等一下,这篇文章叫“安静的半监督革命”不是吗?

一个引人入胜的趋势是,半监督学习的前景可能会变成这样:

这会改变一切。

首先,这些曲线与人们的半监督方法的心理模型相匹配:更多数据总是更好。即使对于监督学习表现良好的数据体制,半监督和监督之间的差距也应严格为正。而且这种情况越来越多地发生,没有任何代价,额外的复杂性也非常小。“魔法区域”开始走低,同样重要的是,它不受高数据体制的限制。

有什么是新鲜的?很多东西:许多聪明的方法来自我标记数据并以这样的方式表达损失,即它们与噪声和自我标记的潜在偏差兼容。最近的两部研究举例说明了最近的进展:

MixMatch: A Holistic Approach to Semi-Supervised Learning(arxiv.org/abs/1905.02249)

Unsupervised Data Augmentation(arxiv.org/abs/1904.12848)

半监督学习世界的另一个根本转变是,人们认识到它可能在机器学习隐私中扮演非常重要的角色。

例如,PATE方法:

Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data(arxiv.org/abs/1610.05755)

Scalable Private Learning with PATE(arxiv.org/abs/1802.08908)

在这种情况下,受监督的数据被假定为私有,而具有强大隐私保障的学生模型仅使用未标记(假定公共)的数据进行训练。

用于提取知识的隐私敏感方法正在成为联合学习(federated.withgoogle.com)的关键推动者之一,联合学习提供了有效的分布式学习的承诺,不依赖于具有访问用户数据的模型,具有强大的数学隐私保证。

在实际环境中重新审视半监督学习的价值是激动人心的。看到一个长期存在的假设受到挑战,这是该领域出现惊人进展的征兆。

这种趋势都是最新的,我们必须看看这些方法是否经得起时间的考验,但这些进步导致机器学习工具架构发生根本转变的可能性非常大。

End

推荐阅读

Recommended reading

| 决策树完全指南(上)

| 揭秘反向传播算法,原理介绍与理解

| 索尼与微软建立战略合作伙伴关系,致力于云解决方案与人工智能

专治BUG

据说在看的没有BUG

本文分享自微信公众号 - ATYUN订阅号(atyun_com),作者:关注人工智能的

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Databricks推出机器学习的开源多云框架,简化分布式深度学习和数据工程

    Databricks研究调查的初步结果显示,96%的组织认为数据相关的挑战是将AI项目移至生产时最常见的障碍。数据是人工智能的关键,但数据和人工智能则处在孤岛中...

    AiTechYun
  • 赫尔辛基大学AI基础教程:机器学习的类型(4.1节)

    每张图片上方都会显示正确的标签(本应写入的数字)。请注意,某些“正确的”类标签是存疑的:例如,请参阅左侧的第二个图像:那是7还是4?

    AiTechYun
  • 【观点】利用机器学习实现工程洞察自动化

    ? 机器学习已经在某些领域取得了卓越的成果,尤其是模式识别领域,并且它还会对更需要洞察力和效率的行业中的企业产生了更深远的影响。谷歌在美国总部以外最大的开发者...

    AiTechYun
  • 机器学习(一)——机器学习概述

    机器学习(一)——机器学习概述 (原创内容,转载请注明来源,谢谢) 前言:近期开始学习机器学习,当前视频和书籍一起看,视频看的是吴恩达的机器学习系列课程,...

    用户1327360
  • 机器学习套路就这三个

    想要成为合格的,或者更进一步成为优秀的人工智能工程师或数据科学家,机器学习的各种基础知识是必不可少的。然而,机器学习领域浩如烟海,各类教材和入门课程层出不穷。特...

    刘盼
  • 谷歌首席科学家:半监督学习的悄然革命

    作为一个机器学习工程师,可能平时最常打交道的就是海量数据了。这些数据只有少部分是有标注的,可以用来进行监督学习。但另外一大部分的数据是没有标注过的。

    新智元
  • 还在苦恼机器学习和线性回归?这篇总结拿走不谢 | 原力计划

    作者 | 听星的朗瑞 责编 | 王晓曼 出品 | CSDN博客 题图 | 东方IC

    AI科技大本营
  • 半监督学习革命

    来源商业新知,原标题:干货!谷歌首席科学家发文阐述“半监督学习革命”,想走出瓶颈先试试这个

    商业新知
  • 干货!谷歌首席科学家发文阐述“半监督学习革命”,想走出瓶颈先试试这个

    谷歌首席科学家,谷歌大脑技术负责人Vincent Vanhoucke说,半监督学习革命已经来了。

    磐创AI
  • 什么是机器学习?有哪些分类?怎样上手开发?终于有人讲明白了

    导读:本文首先介绍何谓机器学习,以及与机器学习相关的基本概念,这是学习和理解机器学习的基础。按照学习方式的不同,机器学习可以分为不同类型,如监督学习、无监督学习...

    华章科技

扫码关注云+社区

领取腾讯云代金券