前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言︱缺失值处理

R语言︱缺失值处理

作者头像
悟乙己
发布2019-05-28 08:21:29
1.2K0
发布2019-05-28 08:21:29
举报
文章被收录于专栏:素质云笔记素质云笔记

#缺失值

代码语言:javascript
复制
an=c(1,2,NA)
is.na(an)                         #会形成一个布尔向量

布尔向量就是一群像(FALSE,FALSE,TURE)这样的向量。

关于缺失值还有一个函数:complete.cases函数

该函数与is.na的区别在于:

1、输出数据格式不同。is.na按照数据框格式形成一个(FALSE,FALSE,TURE)列,而complete.cases形成是一个数列向量,不再是按照数据框格式;

2、输出数据内容不同。complete.cases输出的逻辑向量与is.na正好相反,is.na的TURE为是缺失值;complete.cases的TURE为完整值。

代码语言:javascript
复制
an=c(1,2,NA)
sum(complete.cases(an)) 
sum(!complete.cases(an))#==sum(is.na(an))
mean(!complete.cases(an))  #获得缺失比例==1/3

疑惑:为什么布尔向量,sum一下可以得到数值? ——因为R默认将TURE、FALSE当做1、0

#计算缺失值个数

代码语言:javascript
复制
sum(is.na(an))                    #单数列,sum一下可以直接计算“Ture”的数值和
colSums(is.na(an),na.rm = T)      #多维数列,按列,na.rm为是否需要忽略缺失值,na.rm=T表示忽略,删除
rowSums(is.na(an),na.rm = T)      #多维数列,按行,na.rm为是否需要忽略缺失值,na.rm=T表示忽略,删除

#数据框中的缺失值操作

代码语言:javascript
复制
#数据框中的缺失值操作
代码语言:javascript
复制
y <- an[is.na(an)]               #选中缺失值
y<-  an[is.na(an)=="TRUE"]       #上同,选中缺失值
an[is.na(an)] <- 0               # 表示将向量x中所以NA元素用0来代替
an[(!is.na(an)) & x>0] -> z      #可以用 & 加入其他条件,进行筛选

————————————————————————————————————————————————————————————

缺失值检测解决方案:

关于缺失值的检测应该包括:缺失值数量、缺失值比例、缺失值与完整值数据筛选。

代码语言:javascript
复制
#缺失值解决方案
sum(complete.cases(saledata))         #is.na(saledata)
sum(!complete.cases(saledata))
mean(!complete.cases(saledata))       #1/201数字,缺失值比例
saledata[!complete.cases(saledata),]  #筛选出缺失值的数值
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016年04月08日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档