使用dplyr group_by()和distinct()而不丢失一个变量

dplyr是R语言中一个非常流行的数据操作包，提供了简洁、一致的函数来进行数据处理和转换。在使用dplyr时，通过group_by()函数可以按照指定的变量对数据进行分组，而distinct()函数可以去除重复的观测。

当使用dplyr的group_by()函数时，可以按照一个或多个变量对数据进行分组，将数据集分割成几个小组。这个函数会创建一个“分组变量”，用来标识数据集中的每个观测属于哪个组。通过这个分组变量，可以对数据进行进一步的操作，例如计算每个组的汇总统计量或者应用其他函数。

而使用dplyr的distinct()函数可以去除数据集中重复的观测，保留每个变量的唯一值。它基于所有的变量来判断观测是否重复，如果多个变量的取值都相同，则认为是重复的。可以通过指定变量名的方式，只对特定的变量进行去重。

这两个函数的组合使用可以在分组的同时保留一个变量。具体操作可以按照以下步骤进行：

使用group_by()函数对数据进行分组，指定需要分组的变量。例如，假设我们有一个数据集df，想要按照变量"var1"对数据进行分组，可以使用以下代码：

df_grouped <- df %>% group_by(var1)

对分组后的数据集应用distinct()函数，以去除重复的观测。如果只想保留一个变量，可以在distinct()函数中指定该变量的名称。例如，如果想要保留"var1"和"var2"两个变量，可以使用以下代码：

df_unique <- df_grouped %>% distinct(var1, .keep_all = TRUE)

在这个例子中，".keep_all = TRUE"表示保留所有变量，而不仅仅是指定的变量。

总结起来，使用dplyr的group_by()和distinct()函数可以在分组的同时保留一个变量。group_by()函数用于对数据进行分组，distinct()函数用于去除重复的观测。通过这两个函数的组合使用，可以实现我们需要的功能。

关于腾讯云相关产品和产品介绍链接地址，由于题目要求不能提及具体品牌商，故无法提供相关信息。

相关·内容

tidyverse|数据分析常规操作-分组汇总（sumamrise+group_by)

一 summarize汇总汇总函数 summarise()，可以将数据框折叠成一行 ,多与group_by()结合使用 1.1 summarise完成指定变量的汇总统计均值，标准差，最小值，个数和逻辑值...() Logical 逻辑值的计数和比例 : any(), all() 1.2 , summarise_if完成一类变量的汇总 iris %>% summarise_if(is.numeric...分组汇总 group_by() 和 summarise() 的组合构成了使用 dplyr 包时最常用的操作之一：分组摘要 2.1 按照Species分组，变量汇总 iris %>%...当与数值型函数一同使用时， TRUE 会转换为 1， FALSE 会转换为 0。...这使得 sum() 和 mean() 非常适用于逻辑值：sum(x) 可以找出 x 中 TRUE 的数量， mean(x) 则可以找出比例 . iris %>% group_by(Species

2.5K6 0

R 数据整理（七：使用tidyr和dplyr处理数据框 2.0）

这些变量应该是真正的属性，而不是同一属性在不同年、月等时间的值分别放到单独的列。...我们可以使用tidyverse 系统来操作，其中包括了magrittr 包，readr 包，dplyr 包和 tidyr 包等。...2.3 distinct 用来去除重复行，有时我们希望得到一个或若干个变量组合的所有不同值。...dplyr 包的 distinct() 函数可以对数据框指定若干变量，然后筛选出所有不同值，每组不同值仅保留一行。...比如，需要对 cancer 数据集中 v0 和 v1 两个变量同时计算平均值和标准差: 显然，如果有许多变量要计算不止一个统计量，就需要人为地将每一个变量的每一个统计量单独命名。

10.9K3 0

R语言基于dplyr实现数据快捷操作

R语言在处理大数据方面一直是被人诟病的地方，那么有人就为R语言打造了一个dplyr包可以实现高效的数据预处理，减少内存的消耗，提升处理效率。今天就给大家详细看下这个包的具体功能。...3. distinct 去除重复的行。...8. rename重新命名某一个变量。...group_by基于单个或者多个变量进行分组。 13. n() 指的是统计行数 14. slice 选择输出的行。实例： ? 15. nest_by隐掉某个变量后面的数据，赋值给data，只展示大小。...16. across 针对某一列进行操作，两个参数：第一个为列名，第二个为操作函数。

1.5K4 0

「R」dplyr 列式计算

❝在近期使用「dplyr」进行多列选择性操作，如 mutate_at() 时，发现文档提示一系列的「dplyr」函数变体已经过期，看来后续要退休了，使用 across() 是它们的统一替代品，所以最近抽时间针对性的学习和翻译下...它使用 tidy 选择语法（像 select() 那样），因此你可以按照位置、名字和类型来选择变量。...()、count() 和 distinct() 这样的动词，你可以省略汇总函数：寻找所有的唯一值： starwars %>% distinct(across(contains("color"))) #..._if, _at, _all 「dplyr」以前的版本允许以不同的方式将函数应用到多个列：使用带有_if、_at和_all后缀的函数。这些功能解决了迫切的需求而被许多人使用，但现在被取代了。...这使「dplyr」更容易使用（因为需要记住的函数更少），也使我们更容易实现新的动词（因为我们只需要实现一个函数，而不是四个）。

2.4K1 0

R语言包_dplyr_1

有5个基础的函数： - filter - select - arrange - mutate - summarise - group_by (plus) 可以和databases...plyr包的特点其基础函数有以下特点：第一个参数df 返回df 没有数据更改in place 正是因为有这些特点，才可以使用%>%操作符，方便逻辑式编程。...载入数据 library(plyr) library(dplyr) # load packages suppressMessages(library(dplyr)) install.packages(...tally(sort = TRUE) # for each destination, count the total number of flights and the number of distinct...= n_distinct(TailNum)) # Grouping can sometimes be useful without summarising # for each destination

9612 0

R语言分组计算，不止group_by

目录 1 dplyr包中的group_by联合summarize 1.1 group_by语法 1.2 summarise语法 1.3 group_by和summarise单变量分组计算 1.4...group_by和summarise多变量分组计算 2 ddply 2.1 ddply语法 2.2 ddply分组计算示例 3 aggregate 3.1 aggregate语法 3.2 aggregate...$ carb: num 4 4 1 1 2 1 4 2 2 4 ... 1 dplyr包中的group_by联合summarize 1.1 group_by语法 data为数据集 ...为分组变量...，可以是一个也可以是多个，多个的话以逗号分割group_by(mtcars, vs, am) 1.2 summarise语法 data为数据集，如果data被group_by定义分组，则根据分组变量分组计算...(dplyr) #加载dplyr包 > by_cyl group_by(mtcars,cyl) #对mtcars数据集根据cyl变量进行分组注意行5 > by_cyl # A tibble: 32

8.2K5 0

分组统计你只想到group_by操作吗？

9943 0

懒癌必备-dplyr和data.table让你的数据分析事半功倍

( ) 去重 distinct(df,V1,V2) 根据V1和V2两个条件来进行去重在基础包里面也有一个去重函数unique() ※注意distinct()可以针对某些列进行去重，而unique(...①第一个参数都是数据集df ②查询条件都是关于如何操作数据集的，在列上面进行操作 ③返回的都是新的数据集，不会改变原始数据集在介绍下一个包之前，我们先来引入一个dplyr包的综合运用： grouped...以上这段代码我们使用group_by和summarise的结合实现了对数据集分组分析，并进行统计量计算的一个功能。...官网上面有关于data.table包对于dplyr的提升和改进： ?...data.table把我们刚刚用group_by和summarise组合才能实现的功能，直接在一句代码里面就实现了，而且代码的可读性和可扩展运用性非常强！

2.5K7 0

「R」分组应用和排序去重的应用与比较

如果使用惯了tidyverse套装，我们脑子里容易冒出来的是这样的解法：使用分组应用。...library(dplyr) df |> group_by(c1) |> summarize(c2 = max(c2, na.rm = TRUE)) out # A tibble: 3 ×...如果想知道哪一个方案更快，我们需要构造一个模拟数据集进行测试。...但注意，这里其实存在很多的变量，包括数据的行数、分组数目、以及实际情况下数据集的变量数目。哪种更适合需要根据现实场景进行测试考察。...本文的重点是，问题的解决之道往往不只一种，当程序慢下来的时候，我们不要忘记思考和尝试其他的方案。

9612 0

「R」数据操作（七）：dplyr 操作变量与汇总

使用mutate()添加新变量除了选择已存在的列，另一个常见的操作是添加新的列。这就是mutate()函数的工作了。 mutate()函数通常将新增变量放在数据集的最后面。...为了看到新生成的变量，我们使用一个小的数据集。...然后，当你使用dplyr动词对分组的数据框进行操作时，它会自动进行分组计算。...缺失值你可能会好奇我们先前使用的na.rm参数。如果我们不设置它会发生什么呢？...要对唯一值进行计数，使用n_distinct()： # 哪个目的地有最多的carrier not_cancelled %>% group_by(dest) %>% summarize

2.6K2 0

R语言|数据清洗

清洗得当的数据是可靠分析的基础，而在R语言中，有许多强大而灵活的工具可以帮助我们高效完成数据清洗。本文将全面介绍R语言数据清洗的常见技巧，并配以具体的代码示例。...2. dplyr dplyr是R语言中最受欢迎的数据操作包之一，擅长数据清洗和操作，语法简洁直观。...其他工具根据需求还可以使用lubridate处理日期时间数据，janitor快速清理变量名等。 TIPS 使用示例缺失值处理：缺失值处理是数据清洗的第一步。可以选择删除、填充或插值的方法。...，dplyr非常方便。...本文通过具体的案例，展示了R语言中常见的数据清洗方法和技巧，希望能为你的分析工作带来帮助。

1241 0

数据处理|R-dplyr

1）安装、加载dplyr包、准备数据 install.packages("dplyr") #加载dplyr包使用dplyr包处理数据前，建议先将数据集转换为tbl对象。...)) 利用概述函数概括数据，输入数值向量而返回单一数值： first 向量的第一个值。...Q：按品种分组，分别计算花萼宽度的均方差 summarise(group_by(iris,Species),sd=sd(Petal.Width)) 8）连接操作符 dplyr包里还新引进了一个操作符,%...，如， by = c("a" = "b")，表示用x.a和y.b进行匹配。...11）数据合并 dplyr包中也添加了类似cbind()函数和rbind()函数功能的函数，它们是bind_cols()函数和bind_rows()函数。

2K1 0

R代码|dplyr包的使用示例

dplyr包的使用例子。...R包 library(tidyverse) iris_df <- as_tibble(iris) print(iris_df, n = 3) head(iris_df$Species) ## 变量选择函数...>% select(sepal_length = Sepal.Length, sepal_width = Sepal.Width) %>% print(n = 3) ## 变量重命名函数...print(n = 5) df <- tribble( ~height, ~width, 10, 12, 42, 24, 14, 12 ) ## 变量生成函数...mean_income ) ) %>% spread(key = "year", value = "mean_income") 温馨提示：第一步：运行一边代码，掌握相应的包和函数使用

1.6K3 0

两个神奇的R包介绍，外加实用小抄

3.函数后面跟括号，括号里第一个参数是都数据框名 4.字符串要加双引号，行名和列名不用加，其他单元格（姑且这么叫了）里出现的字符串要加。...新建一个数据框并赋值给bioplanet这个变量（赋值符号<-还记得嘛）括号里是“列名”=列值，这里列名要加双引号。这里涉及的几个给列填充数值的函数有 rep，重复，括号中填要重复的字符和重复次数。...这是一种组织表格数据的方式，提供了一种能够跨包使用的统一的数据格式。有多统一？每个变量（variable）占一列，每个情况（case，姑且这么翻译）和观测值（observation）占一行。...3.distinct 去除重复行（其实就是列出某一列所有的不同值） distinct（frame1，geneid） distinct（frame1，geneid，Sampleid）#列出这两个值都重复的行...") 两种办法拼起来~ 一个是R自带的rbind，一个是dplyr里的bind_rows 按行拼接时，列数、列名需要一致 rbind(frame1,frame4)# frame1 %>%bind_rows

2.5K4 0

🤣 NetworkD3 | 让我们一起画个动态的桑基图吧~

本期我们画一个不一样的桑基图吧，可视实现动态交互。...rm(list = ls()) library(tidyverse) library(visNetwork) library(networkD3) library(igraph) 3示例数据本次使用的示例数据是...文件；同时，我们为每一个城市创建一个ID。...edges % group_by(source, destination) %>% summarise(weight = n()) %>% ungroup(...NodeID = "label", Value = "weight", fontSize = 16, unit = "Letter(s)") ---- 最后祝大家早日不卷

7982 0

R tips：dplyr编程

dplyr的函数由于使用tidy evaluation（R中的一种非标准执行（NSE）实现方式）的方法，可以使得其具有更好的易用性：变量不需要绝对引用和引号包裹。...根据使用的NSE的类别不同，dplyr的函数可以分为两类： data masking：arrange(), count(), filter(), group_by(), mutate(), summarise...根据所用的NSE的类别，需要区别对待dplyr函数的编程。 Data masking 如果想要操作的数据变量名称来源于环境变量，那么使用特殊的指代词.data来完成。...如果想要操作的数据变量来源于函数参数（指的一个环境变量上存在一个promise），那么使用{{}}包裹。一个函数在调用时，其参数存在一个promise。...原因在于R的参数是 lazily evaluated，也就是说直到使用此参数前，这些参数并没有实际值（实际值也就是实参），而只有一个获取其实际值的方法（promise）。

1.2K3 0

R语言日常笔记（2）distinc函数

接上文:R语言日常笔记（1）filter函数 > library(dplyr) > library(tidyverse) > starwars %>% + head() # A tibble: 6...第二种方法：group_by和ungroup starwars %>% + as_tibble %>% + select(name,gender, skin_color, height, mass...group_by变量。...) %>% + group_by(gender) %>% + distinct(gender,.keep_all = T) # A tibble: 5 x 5 # Groups: gender...keep_all函数用于保留输出数据框中的所有其他变量。

4.6K3 0

dplyr中的across操作

主要是介绍across函数的用法，这是dplyr1.0才出来的一个函数，大大简化了代码可用于对多列做同一个操作。...一般用法陷阱 across其他连用和filter()连用一般用法 library(dplyr, warn.conflicts = FALSE) across()有两个基本参数： .cols：选择你想操作的列...tibble(n = n(), across(where(is.numeric), sd)) ) ## n x y ## 1 3 1 4.041452 across其他连用还可以和group_by...()/count()/distinct()连用。...和filter()连用 across()不能直接和filter()连用，和filter()连用的是if_any()和if_all()。

7203 0

R tips：使用!!来增加dplyr的可操作性

的这种易用性是有代价的，假如想要对分析工作稍微增加一些编程属性时，就会发现dplyr的异常情况，比如将分组变量赋值给一个变量，使用变量来进行分组： ### 分组变量group_var无法完成工作 group_var...，结果却发现新变量为var_name，而不是我们想要的gear_new。...这里有一个小改动，由于var_name求值后是一个Symbol，在baseR是中无法将数据赋值给Symbol的，因此需要将=替换为:=。其他细节和上述例子都是类似的。....data) #使用enexpr而不是ensym，因为后边调用时传入的实参是mtcars[1:6, group_v]，它是一个语句，而不是symbol for (i in seq_along(.vars...也不局限于dplyr，它是R MetaProgram的一部分比如对于ggstatplot包而言，它是一个统计及绘图的包，常规使用如下： ### 两种写法都可以 mtcars %>% ggstatsplot

2.5K3 1

dplyr数据处理

() select()函数用于筛选有用的列，第一个参数还是数据库，第二个参数以及后面是需要的列名，列名有多种书写方式，可以使用冒号作为范围，也可以使用 stars_with,ends_with...mtcars %>% dplyr::sample_n(10) mtcars %>% dplyr::sample_frac(0.2) 六、创建新变量有时需要对已有变量进行重新计算，例如计算几列的和...，会某一列取对数，这样将生成新的变量，这个时候可以使用 mutate 函数。.../People) 七、统计使用 summarise()可以对每一列单独进行计算，例如求和，求平均值等，这些都可以使用apply 系列函数来完成，summarise()一般都配合 group_by...分组统计：group_by()函数与 summarise()配合一起使用，可以进行分组统计。

1.5K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云