前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言第二章数据处理③删除重复数据目录总结

R语言第二章数据处理③删除重复数据目录总结

作者头像
用户1359560
发布2018-12-24 14:11:33
9.8K0
发布2018-12-24 14:11:33
举报
文章被收录于专栏:生信小驿站
R语言第二章数据处理③删除重复数据

================================================

这篇主要介绍如何在R中识别和删除重复数据。
主要用的到R base和dplyr函数:

duplicated():用于识别重复的元素和 unique():用于提取唯一元素, distinct()[dplyr package]删除数据框中的重复行。

代码语言:javascript
复制
x <- c(1, 1, 2,4, 5, 4, 6)
duplicated(x)
## [1] FALSE  TRUE FALSE FALSE FALSE  TRUE FALSE
x[duplicated(x)]
## [1] 1 4
x[!duplicated(x)]
## 1, 1 2,4, 5, 6
  • 根据某一列删除数据框中重复值
代码语言:javascript
复制
# Remove duplicates based on Sepal.Width columns
my_data[!duplicated(my_data$Sepal.Width), ]
## # A tibble: 23 x 5
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
##          <dbl>       <dbl>        <dbl>       <dbl> <fct>  
## 1          5.1         3.5          1.4         0.2 setosa 
## 2          4.9         3            1.4         0.2 setosa 
## 3          4.7         3.2          1.3         0.2 setosa 
## 4          4.6         3.1          1.5         0.2 setosa 
## 5          5           3.6          1.4         0.2 setosa 
## 6          5.4         3.9          1.7         0.4 setosa 
## # ... with 17 more rows
  • 使用dplyr包删除数据框中的重复行 函数distinct()[dplyr package]可用于仅保留数据帧中的唯一行。 如果存在重复行,则仅保留第一行。 它是R base函数unique()的高效版本。
代码语言:javascript
复制
根据所有列删除重复的行(完全一样的观测值):
my_data %>% distinct()
根据特定列删除重复值
my_data %>% distinct(Sepal.Length, .keep_all = TRUE)
根据多列删除重复值
my_data %>% distinct(Sepal.Length, Petal.Width, .keep_all = TRUE)
选项.kep_all用于保留数据中的所有变量。

总结

  • 根据一个或多个列值删除重复行:my_data%>%dplyr :: distinct(Sepal.Length)
  • R base函数从向量和数据帧中提取唯一元素:unique(my_data)
  • R基函数确定重复元素:duplicated(my_data)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.12.07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档