应用:数据预处理-缺失值填充

个人不建议填充缺失值,建议设置哑变量或者剔除该变量,填充成本较高

常见填充缺失值的方法:

1.均值、众数填充,填充结果粗糙对模型训练甚至有负面影响

2.直接根据没有缺失的数据线性回归填充,这样填充的好会共线性,填充的不好就没价值,很矛盾

3.剔除或者设置哑变量

个人给出一个第二个方法的优化思路,供参考:

假设存在val1~val10的自变量,其中val1存在20%以上的缺失,现在用val2-val10的变量去填充val1,这边参考了两个模型的设计思路,一个是bagging算法的随机抽取避免过拟合,另一个是Tomek+Somte的填充方法

大概思路是:

1.随机选取val1里面的n/N个case(包括缺失case及非缺失case)作为样本,随机选取val2-val10内的m个衡量特征

2.然后根据选择的具体的m个数据的衡量特征选择相似度计算方式(常见的直接算距离、余弦相似度之类),找出3-5个最临近的非缺失case或者最远的非缺失case(这里涉及全局或者局部最优)

3.构造新的val1填充缺失的val1,新val1计算方式可以为3-5个非缺失的众数、重心、随机游走、加权填充等

4.重复若干次,填充完所有缺失val1的点,当前的val1有非缺失case+填充case组成

5.这样填充的方式存在填充case过拟合或者额外产生异常点的风险,所以需要做“新点检测”,存在两个逻辑:

5.1假设存在新填充点x,x附近最近的3-5点均为新填充点,及该点为危险点

5.2假设存在新填出点x,x距离最近的非缺失case距离大于预先设置的阀值(一般为离群处理后,所有非缺失case到缺失case距离的平均),及该点为危险点

6.危险点可以重新进行1-5,也可以剔除,视情况而定

在预处理后均衡样本上填充,基于租车行业偷车用户的年龄段填充,而后判断某出行平台用户是否存在偷车可能,实际上做下来的ROC效果对比如下图(数据有所隐逸,不代表官方数据):

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

盘点 | 对比图像分类五大方法:KNN、SVM、BPNN、CNN和迁移学习

选自Medium 机器之心编译 参与:蒋思源、黄小天、吴攀 图像分类是人工智能领域的基本研究主题之一,研究者也已经开发了大量用于图像分类的算法。近日,Shiyu...

1.2K80
来自专栏机器学习算法工程师

细粒度分类你懂吗?——fine-gained image classification

我们在路边看到萌犬可爱至极,然后却不知道这个是哪种狗;看见路边的一个野花却不知道叫什么名字,吃着一种瓜,却不知道是甜瓜还是香瓜傻傻分不清……

19030
来自专栏企鹅号快讯

基于tensorflow的手写数字识别

一、前言 本文主要介绍了tensorflow手写数字识别相关的理论,包括卷积,池化,全连接,梯度下降法。 二、手写数字识别相关理论 2.1 手写数字识别运算方法...

29770
来自专栏数据派THU

计算机视觉怎么给图像分类?KNN、SVM、BP神经网络、CNN、迁移学习供你选(附开源代码)

原文:Medium 作者:Shiyu Mou 来源:机器人圈 本文长度为4600字,建议阅读6分钟 本文为你介绍图像分类的5种技术,总结并归纳算法、实现方式,并...

778100
来自专栏marsggbo

论文笔记系列-Neural Architecture Search With Reinforcement Learning

神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的。在本篇论文中,作者使用 递归网络去省城神经网络的模型描述,并且使用 增强学习训练RN...

43030
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 4 - 第一个机器学习问题

上一篇 3 机器人类学习的启示借鉴人类学习的模式,描绘了数据驱动的机器学习方法论:通过大量数据来确定模型,从而让模型具有预测价值。本篇提出第一个机器学习问题,...

41870
来自专栏AI科技大本营的专栏

如何让渣画质图片达到逼真效果,试试GAN吧

翻译 | 梁红丽 编辑 | Just 【AI科技大本营导读】在最终视觉呈现效果上,现有的用于极限学习图片压缩的算法似乎都不尽人意,本文作者则使用了 GAN,允许...

37490
来自专栏FSociety

通过一元线性回归模型理解梯度下降法

关于线性回归相信各位都不会陌生,当我们有一组数据(譬如房价和面积),我们输入到excel,spss等软件,我们很快就会得到一个拟合函数:

19530
来自专栏人工智能

机器学习-从高频号码中预测出快递送餐与广告骚扰

由头 1、笔者最近在做机器学习嘛,上次发了一篇文章,这周发现有大问题,此次算是对上篇的补充与说明。 2、算法基本完成,在进行收尾的工作,今天共享给大家思路,涉及...

21850
来自专栏磐创AI技术团队的专栏

多核学习方法介绍

【磐创AI导读】:本文为SVM多核学习方法简介的续篇。想要学习更多的机器学习知识,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。SVM多核学习方法简介

12910

扫码关注云+社区

领取腾讯云代金券