专栏首页新智元ICML2020 | 南大周志华教授组:一个高效安全的深度半监督学习模型

ICML2020 | 南大周志华教授组:一个高效安全的深度半监督学习模型

新智元报道

来源:ICML

编辑:舒婷、白峰

【新智元导读】最近,ICML 2020上周志华教授组发表的一篇有关深度半监督学习的论文引发热议,文章介绍了一种叫做DS3L的半监督模型,在未知分类无标签数据集中的表现抢眼,有些条件下甚至超过了监督学习的基线模型。

ICML 2020投稿中,周志华教授组发表的一篇有关深度半监督学习的论文引发热议。

这篇论文主要介绍了一种叫做DS3L的深度半监督学习模型,以减轻无标签数据集中模型性能下降的问题。

为什么要研究这个新的方法?

在完全监督学习中,深度学习网络的表现是富有竞争力的,甚至有些场景比人类表现的好。这些场景,一般都是在有一个大量的有标签的数据集的前提下。

但是,许多实际应用中,标记数据集是很困难的,因为要耗费很大的人力和财力,这限制了深度学习网络的更广阔的发展。深度半监督学习就是为了解决这个问题。

深度半监督学习是面向的一系列的价格低廉的无标签的数据,帮助深度神经网络减少对标记数据集的需求以改善表现。深度半监督学习在监督学习模型中的表现很好,通过探索无标签数据集的结构(如熵最小化、一致性正规化、对抗训练等)来减少数据集的费用。

但是,上述的所有结果都基于一个乐观的假设:有标签的数据和无标签的数据来自相同的分布。这种假设在实际应用中很难实现,同时通常的应用中,无标签数据集中会有一些有标签数据集中不包含的类别。例如,根据关键词从网络抓取的无标签网页,通常包含很多之前没有涉及的类别。

这里有一个关于图形分类的例子,可以看到无标签数据集包含的类别更多。

面对这种情况时,深度半监督模型的表现不再优异,甚至会出现性能大幅度下降的情况。甚至,深度半监督模型的表现甚至不如一个简单监督学习模型。这种现象与深度半监督模型的初衷背道而驰。

DS3L:一个高效安全的深度半监督学习模型

这篇论文介绍了一个简单有效安全的方法:DS3L(Deep Safe Semi-Supervised Learning)。不像其他深度半监督学习模型,DS3L并不是利用所有的无标签数据集,而是有选择的并且跟踪监督学习模型的影响来避免「性能灾难」。

具体有两个方面:

1)弱化了在无标签数据集中的未见类别,提高分布匹配,保持较强的泛化能力。

2)加强有标签数据,避免性能减弱。

综上所述,我们采用了高效算法的双层优化。在评估中,DS3L在理论和实践中都表现出色。

DS3L的表现总是比有标签数据集的表现好,泛化在

的时候接近最优,甚至比带有大量参数的监督学习的收敛速度还要快。

实践方面,在基准测试数据实验中,在40%的未见类无标签数据中,现有的深度半监督方法不如监督学习。但是,新方法能在60%以上的未见类无标签数据中实现性能提升。此外,该方法适用于许多深度SSL算法,并且可以很容易地扩展以处理类分布不匹配的情况。

DS3L的框架结构

对于无标签的数据,DS3L需要进行选择。主要方法是设计一个加权函数w。DS3L试图找到以下函数的最优,以最小化相应的加权风险:

另一方面,DS3L持续跟踪监督的性能,以防性能衰退。具体而言,DS3L要求加权经验风险过程返回的模型,能够实现泛化性能最大化。

在实际情况下,分布是未知的,类似于经验风险最小化。DS3L试图找到最优参数α:

为了简化符号,框架的目标可以表述为一下双层优化问题:

性能测试:类分布不匹配时表现依旧亮眼

实验中所有方法明显优于具有相同类分布的基线监督学习方法。但是,随着类分布不匹配的加剧,现有的深度SSL方法的性能迅速下降。

当40%的无标签实例来自未知的类时,许多深度SSL技术甚至都不如基线监督学习方法,而我们的DS3L在存在超过60%的未知类无标签实例的情况下仍可以保持明显的性能改进,即无标签实例甚至比相关实例更多。这些经验结果与理论分析一致,并证明了DS3L的有效性。

从上图我们可以看到CIFAR-10跟MNIST上的测试结果类似,即DS3L在不同的类分布不匹配率下都能获得令人满意的性能。与许多不具备基线监督学习方法的深度SSL技术相比,该方法具有40%未知类的无标签数据。

DS3L可以通过简单的无监督正则化获得最佳性能,即使类不匹配率超过60%。所有这些结果表明,我们提出的DS3L非常有效地防止了类分布不匹配引起的性能下降。

上面两个图的结果进一步验证了DS3L可以通过各种深度SSL方法达到很好的性能,也就是说,在所有情况下,其性能都优于基准监督学习方法,说明DS3L是非常灵活的。

为了进一步量化DS3L在无标签未知分类数据中的识别能力,在MNIST和CIFAR-10数据集上将我们的方法与概率估计方法进行了比较,与伪标签类似,概率估计方法(Hendrycks&Gimpel,2017)使用标记数据获取每个无标签数据的类分布,然后通过softmax计算属于已知类的概率,具有低预测概率的示例可以视为未识别出。

通过将未知分类的无标签数据视为否定类别,将其他未知分类的数据视为肯定类别,AUC值可用于衡量识别能力。表1显示了不同类别不匹配率下的实验结果。可以看出,与基于概率的方法相比,DS3L降低了未知分类无标签数据的错误分类率。

参考链接:

https://cs.nju.edu.cn/liyf/paper/icml20-DS3L.pdf

本文分享自微信公众号 - 新智元(AI_era),作者:新智元

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-07-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【联合国统计】中国成2017全球科技研发投入亚军,仅比美国少1000亿美元

    在科技研究和开发上投资是一件有趣的事情。很难讲最后会取得什么成果。比如,Uber现在就正在大力投资无人驾驶汽车,其明确目标是改变交通运输情况。尽管对科技研发的投...

    新智元
  • 【干货】Kaggle热门 | 用一个框架解决所有机器学习难题

    【新智元导读】本文是数据科学家Abhishek Thakur发表的Kaggle热门文章。作者总结了自己参加100多场机器学习竞赛的经验,主要从模型框架方面阐述了...

    新智元
  • 【AI碾压金融成薪资最高行业】35位数据科学家透露秘诀:做好PPT!

    职业招聘信息网站Indeed.com近日发布报告称,自2015年6月到2018年6月,与人工智能或机器学习有关的工作岗位数量增长了99.8%。

    新智元
  • 写给设计师的移动页面适配小知识

    话说从设计稿到前端页面实现,是产品流程中非常重要的一环,这个阶段决定了设计师设计的设计稿能否完美地变成真正的产品雏形。废话不多说,本文主要介绍以下三块内容:移动...

    姬小光
  • 迁移到云端的五个关键优势

    近年来,全球公共云服务市场蓬勃发展,这并不令人感到惊讶。受到物联网(IoT)增长的推动,每天创建的数据量达到了惊人的2.5艾字节。存储、分析、利用数据对于企业在...

    静一
  • 百度算法调整后,要做的前提是稳住排名提升咨询客户转化效益

    今年以来,百度搜索工程师们确实是做了不少事情,连续出台了几个算法,如烽火算法2.0,信风算法等,使得搜素体验有进一步的提升。就在上月算法实施的时候,百度排名波动...

    高级优化师
  • 格点化气象数据在气象服务中的应用设想

    今天是中国传统节日--端午节,祝愿读者朋友端午安康!今天翻出一些关于精细化格点数据的应用设计材料,我觉得放在现在依然适用!做好气象服务需要业内同行们共同努力,共...

    用户1247399
  • 简单几行代码让ViewPager实现垂直滑动效果

    下面是view_one.xml,view_two,view_three也是一样的,只是text内容不一样。为了演示简单,这里只是用了TextView做演示。

    AWeiLoveAndroid
  • DevOps驱动的人保微服务平台建设之路

    2018年,我们在人保寿险进行了微服务平台建设。针对保险行业,微服务建设有哪些需求,我们又是如何应用DevOps理念的,本文我就和大家分享一下我们在人保寿险的微...

    yuanyi928
  • registry(v2)的REST API 简要学习

    关于API的概念你一定不陌生,其实就是一个接口,一种方法,方便其他的应用程序调用该方法从而获得需要的结果; 而对于我们最常使用的浏览器访问,用户的http请求...

    qsjs

扫码关注云+社区

领取腾讯云代金券