伪标签半监督学习

正文共830张图,3张图,预计阅读时间5分钟。

github : https://github.com/sladesha

之前在训练YoutubeNet和DCN的时候,我都发现平台用户中基础用户的信息数据缺失率特别高,比如性别一栏准确填写的不足60%,所以我一直想调研一下有没有什么更好的填充方法,要保证既不能太复杂太耗时,也要有足够好的效果。

其实这个问题就是一个缺失值填充,之前的文章中也写过很多办法,常规的也总结过:

  • 均值、众数填充 最简单的填充,效果也惨不忍睹
  • 根据没有缺失的数据线性回归填充 填充的好会造成共线性错误,填充的不好就没价值,很矛盾
  • 剔除 丢失信息量
  • 设置哑变量 会造成数据分布有偏
  • smote 连续值有效,离散值就无法实施了

我在Google上看imbalance问题的时候,偶然看到了这个视频教程,上面讲了图像的缺失处理,提到了伪标签处理的半监督学习方式。我就在国内的论坛上找了下,阿里云技术论坛也同样注意到了这个问题,但是只给出了如下的粗糙的构思图:

有一份整理了的流程图,具体执行步骤总结,和大家一起看一下:

  • 将有标签部分数据分为两份:train_set&validation_set,并训练出最优的model1
  • 用model1对未知标签数据(test_set)进行预测,给出伪标签结果pseudo-labeled
  • 将train_set中抽取一部分做新的validation_set,把剩余部分与pseudo-labeled部分融合作为新的train_set,训练出最优的model2
  • 再用model2对未知标签数据(test_set)进行预测,得到最终的final result label

我利用了已知标签的数据对这个方法进行测试,用了最简单的mixed logistic regression模型作为Basic Model,得到结果如下:

利用伪标签半监督的方式,同样的mixed logistic regression模型AUC值会提高0.1pp左右,效果还不错,而且实施并不复杂,大家可以在缺失值处理或者分类问题中应用尝试一下。

原文链接:https://www.jianshu.com/p/fd4cae0d0e85

查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”: www.leadai.org

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2018-08-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

ICLR 2018 | 斯坦福大学教授Christopher Manning提出全可微神经网络架构MAC:可用于机器推理

选自arXiv 作者:Drew A. Hudson、Christopher D. Manning 机器之心编译 参与:刘天赐、黄小天 现今,神经网络已在图像识别...

31980
来自专栏机器之心

索尼大法好,224秒在ImageNet上搞定ResNet-50

随着数据集和深度学习模型的规模持续增长,训练模型所需的时间也不断增加,大规模分布式深度学习结合数据并行化是大幅减少训练时间的明智选择。然而,在大规模 GPU 集...

11640
来自专栏机器学习算法与Python学习

机器学习(6)之朴素贝叶斯NB及实例

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 贝叶斯定理是以英国数学家贝叶斯命名...

49070
来自专栏大数据挖掘DT机器学习

coursera机器学习算法课: 异常检测 & 推荐系统

这部分内容来源于Andrew NG老师讲解的 machine learning课程,包括异常检测算法以及推荐系统设计。异常检测是一个非监督学习算...

49690
来自专栏机器之心

从三大神经网络,测试对比TensorFlow、MXNet、CNTK、Theano四个框架

选自data science central 机器之心编译 参与:蒋思源 本文比较了 Keras 支持的主流深度学习框架性能,包括 TensorFlow、CNT...

33770

支持向量机简介

在Statsbot团队发布关于时间序列异常检测的帖子之后,许多读者要求我们向他们介绍支持向量机的方法。现在是向您介绍SVM(支持向量机)的时候了,而不用您辛苦的...

23370
来自专栏新智元

【新式DNN】CortexNet模拟视觉系统,预测视频下一帧

【新智元导读】受到人类视觉系统的启发,普渡大学的研究人员提出了深度神经网络 CortexNet,它不仅具有自下而上的前馈连接,而且还模拟了我们视觉皮层中存在的丰...

45060
来自专栏人工智能

从卷积神经网络的角度看世界

原文地址:https://blog.keras.io/how-convolutional-neural-networks-see-the-world.html

42060
来自专栏机器之心

学界 | 让黑白影像重获新生:UC Berkeley 提出实时神经网络着色模型

选自arXiv 作者:Richard Zhang等 机器之心编译 参与:李泽南 UC Berkeley 的研究人员近日推出了一种利用深度学习对黑白图像进行实时上...

327110
来自专栏机器之心

学界 | DeepMind新论文提出循环环境模拟器:可适应多种不同环境

选自arXiv.org 机器之心编译 参与:吴攀、黄小天、蒋思源 围棋、视频游戏、迷宫……DeepMind 的人工智能在玩游戏方面可谓是得心应手。DeepMi...

35350

扫码关注云+社区

领取腾讯云代金券