前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R中重复值、缺失值及空格值的处理

R中重复值、缺失值及空格值的处理

作者头像
Erin
发布2018-01-09 16:37:31
7.9K0
发布2018-01-09 16:37:31
举报
文章被收录于专栏:大数据风控大数据风控

1、R中重复值的处理

unique函数作用:把数据结构中,行相同的数据去除。

代码语言:javascript
复制
#导入CSV数据
data <- read.csv('1.csv', fileEncoding = "UTF-8", stringsAsFactors = FALSE);

#对重复数据去重
new_data <- unique(data)

重复值处理函数:unique,用于清洗数据中的重复值。

“dplyr”包中的distinct() 函数更强大:

distinct(df,V1,V2) 根据V1和V2两个条件来进行去重

unique()是对整个数据框进行去重,而distinct()可以针对某些列进行去重。

2、R中缺失值的处理

缺失值的产生

①有些信息暂时无法获取

②有些信息被遗漏或者错误处理了

缺失值的处理方式

①数据补齐(例如用平均值填充)

②删除对应缺失值(如果数据量少的时候慎用)

③不处理

na.omit函数作用:去除数据结构中值为NA的数据

代码语言:javascript
复制
#缺失数据清洗

#读取数据
data <- read.csv('1.csv', fileEncoding = "UTF-8");

#清洗空数据
new_data <- na.omit(data)

3、R中空格值的处理

trim函数的作用:用于清除字符型数据前后的空格。

trim函数的语法:trim(x)

注意:

1、trim函数来自raster包,使用前,先使用library(raster)引入该包;

2、如果还没有安装该包,则需先使用install.packages("raster")安装;

代码语言:javascript
复制
#空格数据清洗
data <- read.csv('1.csv');

install.packages('raster', repos='http://cran.r-project.org');
library(raster);

#空格值处理
new_data <- trim(data)

注意install.packages('raster', repos='http://cran.r-project.org')

使用R.studio的小伙伴,在下载包很慢的的时候,可以使用R的官网站点,在中国地区会快很多,以解决此问题。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年07月11日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、R中重复值的处理
  • 2、R中缺失值的处理
  • 3、R中空格值的处理
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档