数据咖小课堂:R语言十八讲--(补充)处理缺失值

缺失值处理在数据分析中是关键的一步,而且是开始的关键一步,我们对于数据的缺失处理直接影响模型的准确性.

1.产生的原因:

调查者忘记回答了,拒绝回答,不完整的问卷,设备出故障,网络连接失效,数据误记,有意而为之等等.

2.处理缺失值的步骤

识别缺失数据:is.na 或complete.cases 或数据量大时用mice包的md.pattern 与VIM包的许多函数

第一列表示此种情况的缺失的观测数据有多少行.最后一列表示此种情况的缺失有几个列变量是包含缺失的.

aggr(sleep,prop=F,number=T) #缺失图

红色表示缺失.右边的数目表示此种缺失情况的数目

matrixplot(sleep) #缺失矩阵图,红色表示缺失,颜色越深越大

marginplot(sleep[,c(7,4)],col=c("gray","red","blue")) #缺失散点图,红色点表示另外一个变量观测值缺失

检查导致数据缺失的原因. 我们做这么多探索,缺失值的数目,以及分布模式主要为了,分析缺失数据的潜在机制,评价缺失数据对分析 目标的影响.也即需要搞清楚: 缺失数据比例多大;缺失数据分布情况,缺失是随机的吗,缺失数据间的相关性

删除包含缺失值的实例或用合理的数值代替 行删除法:na.omit

多重插补(MI):从含缺失的数据集上,产生多个模拟数据集,不包含缺失,缺失的用蒙特卡诺模拟填补,然后对模拟数据集进行统计分析,得到结果再进行分析.填补的方法有用均值,用逻辑回归填补二值变量,多元逻辑回归填补多值变量,还包括贝叶斯线性回归,判别分析,两水平正太插补,以及随机抽样,下面是mice包的实现与原理

一起看看它到底怎么插补的:其中1.是每个变量的缺失情况 2,各变量的插补方法 3,为预测平均 下面的矩阵说明每个变量的插补参考了哪些变量.

具体插补的值是多少我们也可以看看. 分别是5次模拟数据集中,dream的缺失插补值.

完整的模拟数据集中的第2个就是:

其他方法:

3,缺失值分类

完全随机缺失(MCAR):某个变量的观测值缺失与自身其他观测,以及其他数据集中的变量无关. eg:工作人员忘记填了

随机缺失(MAR):某个变量的观测值有缺失,与自身其他观测无关,但与数据集中其他变量有关.

非随机缺失(NMAR) 数据缺失不属于以上两种.处理此类缺失非常复杂. eg:去调查人们的收入情况这 一变量,那么缺失值往往是比较小的值和比较大的值,因为可能穷人不好意思说,富人不愿意说.

PPV原创文章,未经允许严禁转载.

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2016-07-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ACM算法日常

第八篇:《机器学习之神经网络(三)》

每一个神经元都可以被认为是一个处理单元/神经核(processing unit/Nucleus),它含有许多输入/树突(input/Dendrite),并且有一...

10110
来自专栏YoungGy

卡尔曼滤波简介

卡尔曼滤波是一种在不确定状况下组合多源信息得到所需状态最优估计的一种方法。本文将简要介绍卡尔曼滤波的原理及推导。 ? 什么是卡尔曼滤波 首先定义问题:对于某一系...

48850
来自专栏一个会写诗的程序员的博客

BP 神经网络算法

x的值可能为[−∞,+∞],为了方便处理,需要将其压缩到一个合理的范围,还需 这样的激励函数,能够将刚才的区间压缩到[0,1]。

13430
来自专栏marsggbo

论文笔记系列-DARTS: Differentiable Architecture Search

我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型...

67640
来自专栏CreateAMind

以假乱真的生成图片的效果

昨天发的图片是训练到6小时的效果LS-GAN非常棒的效果!,今天略微调整继续训练:也出现了生成网络跟不上判别网络的情况,加快生成网络训练循环。

9820
来自专栏深度学习入门与实践

【原】文本挖掘——特征选择

特征选择有很多方法,看了很多资料后,我总结了以下几种,以后有新内容会随时修改 1.DF——基于文档频率的特征提取方法 概念:DF(document freque...

23550
来自专栏机器学习算法与Python学习

CS231n课程笔记翻译:图像分类笔记(下)

用于超参数调优的验证集 k-NN分类器需要设定k值,那么选择哪个k值最合适的呢?我们可以选择不同的距离函数,比如L1范数和L2范数等,那么选哪个好?还有不少选择...

37580
来自专栏量子位

教程丨机器学习算法:从头开始构建逻辑回归模型

12810
来自专栏目标检测和深度学习

用 TensorFlow 实现物体检测的像素级分类

雷锋网 AI 科技评论按:本文作者 Priyanka Kochhar 从事数据科学十多年,现在在运营一家深度学习咨询公司,她曾帮助多家创业公司完成人工智能解决方...

45260
来自专栏小詹同学

深度学习神经网络第①篇——感知器及其Python实现

感知器是由美国计算机科学家罗森布拉特(F.Roseblatt)于1957年提出的。感知器可谓是最早的人工神经网络。单层感知器是一个具有一层神经元、采用阈值激活函...

17840

扫码关注云+社区

领取腾讯云代金券