前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言-缺失值(二)

R语言-缺失值(二)

作者头像
黑妹的小屋
发布2020-08-06 14:22:01
6510
发布2020-08-06 14:22:01
举报
文章被收录于专栏:菜鸟学数据分析之R语言

mice函数中的md.pattern()函数可生成一个以矩阵货数据框形式展示缺失值模式的表格,将函数运用到sleep数据集中:

> library(mice)

> data(sleep,package="VIM")

> md.pattern(sleep)

BodyWgt BrainWgt Pred Exp Danger Sleep Span Gest Dream NonD

运行结果可知,0表示变量列中有缺失值,1表示变量列中缺失值,第一行表示无缺失值,第二行表示除了span之外无缺失值,第一列表示各个缺失值模式实例个数,最后一列表示各模式中有缺失值的变量个数。可看到,sleep数据集有42例没有缺失值,仅2个实例缺失span,9个实例同时缺失NanD和Dream,数据集总共包含42x0+2x1+.....1x3=38个缺失值

aggr()函数不仅仅绘制每个变量的缺失值数,而且绘制每个变量组合的缺失值数,代码:

>library(VIM)

> aggr(sleep,prop=FALSE,numbers=TRUE)

运行结果:

左边的图可知缺失值数量,NonD有最大的缺失值数14个,右边的图显示有2个哺乳动物缺失NonD、Dream、Sleep评分。42个动物没有缺失值。

> aggr(sleep, prop = TRUE, numbers = TRUE)#生成相同图形,但是用比例取代计数, numbers = FALSE默认时删去数值型标签。

> matrixplot(sleep)

运行结果如下:

数值型的数量被转换到[0,1]区间,利用灰度表示,颜色浅表示数值小,深色表示数值大,红色表示缺失值。

>marginplot(sleep[c("Gest","Dream")],pch=c(20),col=c("darkgray","red","blue"))#做梦时间和哺乳动物妊娠时间的关系,pch和col是绘制图形的符号和颜色

运行结果如下:

图形的主体是Gest和Dream(两个变量数据都完整)的散点图。左边的箱线图展示的是 (深灰色 )与不包括 ( 红色 )Gest 的Dream变量分布。注意,在灰度图上红色是更深的阴影。 四个红点代表缺失了Gest得分的Dream值。在底部边界上,可以看到,妊娠期和做梦时长呈现负相关,缺失妊娠期数据时动物的做梦时长一般更长。两个变量均有缺失值的观测个数在两边界交叉处 (左下角 )蓝色标出。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-12-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 菜鸟学数据分析之R语言 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档