了解dplyr和group_by

dplyr是一个在R语言中广泛使用的数据处理包，它提供了一套简洁、高效的函数，用于对数据进行快速、灵活的操作和转换。而group_by是dplyr中的一个函数，用于按照某些变量对数据进行分组。

具体来说，dplyr包提供了一系列的函数，包括filter、select、mutate、arrange和summarize等，可以用来对数据进行筛选、选择特定列、添加新的变量、排序和汇总等操作。而group_by函数则是用来将数据按照一个或多个变量进行分组，并在分组后的每个组中进行后续的数据处理。

使用dplyr和group_by可以帮助我们更加轻松地进行数据的整理和分析。通过链式操作的方式，可以将多个数据处理操作连接起来，使代码更加清晰易懂。另外，dplyr的底层实现是使用C++编写的，因此在处理大规模数据时，它能够提供较高的计算性能。

dplyr和group_by在各种数据分析和机器学习任务中非常有用。例如，在数据预处理阶段，我们可以使用dplyr来进行数据清洗和特征工程；在数据探索阶段，可以使用group_by来计算各个分组的统计指标，如平均值、中位数等；在建模和评估阶段，可以使用dplyr和group_by来对数据进行划分、采样和交叉验证等操作。

对于使用腾讯云的用户，推荐使用腾讯云的数据处理产品和服务来支持dplyr和group_by的应用。其中，腾讯云的数据仓库服务TencentDB for PostgreSQL和TencentDB for MySQL可以作为数据存储和查询的后端数据库。腾讯云还提供了弹性MapReduce服务EMR，用于大数据处理和分析。此外，腾讯云还提供了云服务器、对象存储、容器服务、人工智能和物联网等一系列相关产品，可为云计算和数据处理提供全面的支持。

更多关于腾讯云产品的详细信息和介绍，您可以访问腾讯云官方网站：https://cloud.tencent.com/

页面内容是否对你有帮助？

有帮助

没帮助

了解dplyr和group_by

、

我在我的工作流程中使用dplyr已经有相当一段时间了。我开始意识到，也许我不理解group_by函数。有没有人能解释一下是否有更好的方法来实现我的目标。我最初的理解是，通过在操作(如变异)之前引入group_by()，变异函数将在group_by()指定的组中分别执行其函数，并在group_by()指定的每个条件下重新启动其操作。这似乎不是真的，我不得不按照之前在group_by()中输入的条件将我的数据表拆分成列表，执行我想要的函数，然后通过使用lapply将列表折叠回一个矩阵。下面

浏览 9提问于2020-11-02得票数 1

1回答

R组错误

想要跑 group_by(post_pagename) %>%但要犯错误：已经安装了dplyr和magrittr。Library(dplyr) Fehler

浏览 0提问于2018-06-20得票数 0

回答已采纳

6回答

计算不同因素组合的行数

、

例如，下面的代码将生成一个列N，其中包含每个级别的cyl和gear的观察次数，但不分别生成对cyl和gear的观察次数。mtcars %>% dplyr::group_by(cyl, gear) %>% dplyr::summarise(N = n()) df <- mtcars %>% dplyr::group_by(cyl, gea

浏览 6提问于2020-01-31得票数 2

回答已采纳

1回答

用dplyr summarize_all计算加权平均值时的“未找到”误差

、

我试图用dplyr和summarize_all来计算加权平均值。我见过类似的问题，特别是这篇文章： dplyr::summarize_all(mean) data %>%data %>% dplyr::group

浏览 2提问于2017-09-29得票数 0

回答已采纳

1回答

与tapply相比，自定义rcpp last函数使用dplyr* group_by和summarise时速度较慢*

、、、

我正在尝试了解如何编写使用dplyr会更快的Rcpp汇总函数。这样做的动机是dplyr似乎没有等效的函数，然而，为了简单起见，我将使用仅取向量的最后一个元素的示例。在下面的代码中，我考虑了三个不同的函数来获取向量的最后一个元素，并使用tapply和dplyr group_by/summarise来应用它们。2)), valn = rnorm(2L*n), stringsAsFactors = F) dplyr_num_last_element <- f

浏览 1提问于2017-09-07得票数 5

1回答

在dplyr链的所有列中替换NA

、、

的问题最终得到了解决用dplyr。我想用dplyr链来推测所有的列。没有要分组的单一列，而是希望所有数字列都用诸如列方法替换所有NAs。 --用tidyverse/dp替换所有NAs的最优雅的方法是什么？

浏览 2提问于2018-01-02得票数 7

回答已采纳

1回答

R函数使用管道

、

我正在尝试构建一个函数，它使用来自dplyr包的管道，但是它不能工作。udf_ctable <- function(x){ } Error

浏览 1提问于2018-11-30得票数 1

回答已采纳

1回答

group_by对data.table和data.frame的不同行为

、、

当在分组data.table上使用dplyr::mutate时，分组将随之丢失。这种行为不会发生在data.frame上。这是个虫子吗？我正在使用dplyr_0.4.1和data.table_1.9.4。require(data.table) dplyr::mutate( . ,maxmpg = max( mpg )groups( by_cy

浏览 0提问于2015-07-12得票数 0

回答已采纳

1回答

Group_by和summarize的行为很奇怪，没有提供预期的结果

、、、

虽然我以前使用过dplyr，但我遇到了一些问题，目前我对此还不是很了解。library(dplyr) dplyr::group_by(House = df_house[, 26]) %>% dplyr::summarise我已经检查了class()和typeof()函数，以确保它们都是数字和

浏览 0提问于2020-09-10得票数 0

1回答

在dplyr中选择几个使用group_by的列

、、、

现在我用这样的方法：我希望像这样使用。但目前的错误：select()可以选择列使用冒号(：) dplyr:: select (Sepal.Length:Petal.Width)dplyr

浏览 1提问于2016-10-19得票数 1

回答已采纳

1回答

以最有效的方式确保dplyr::summarise()中的唯一值

、、、

我通常有一个有很多character类型的列(在20到30之间)和只有3-4个类型的numeric列的tibble。::group_by(id) %>% dplyr::ungroup() dplyr::summarise_if(is.numeric, sum) %>% <

浏览 24提问于2019-04-05得票数 1

回答已采纳

3回答

dplyr表和group_by

、

vall=c(rep("x",100),rep("y",78),rep("x",50)),现在，我希望有以下输出： a2<-a %>% group_by

浏览 5提问于2017-02-05得票数 3

回答已采纳

2回答

创建一个用前导变量追加列的循环

、、

没有循环的代码如下所示： dplyr::group_by(id) %>% dplyr::group_by(id) %>% dplyr::mutate(category2 = dplyr::lead(cat

浏览 4提问于2022-09-22得票数 0

回答已采纳

1回答

数据帧操作:对变量的操作

、、

的数据框架是这样的：我想对这一数据进行统计：我已经安装了plyr和dplyr软件包，所以我知道我必须使用mutate()、summarise()和group_by()，但我不知道在哪种程序中，以及如何使用。

浏览 0提问于2019-05-01得票数 0

1回答

在ggvis中绘制step函数

、

我想在ggvis中绘制一个步长函数，通过一个因子变量将其中的因素转换成两种颜色。在ggplot中，可以通过以下操作来实现这个可重复的示例：set.seed(10)ggplot(data=df)+geom_step(aes(id,y,colour=col))在ggvis中我尝试过这样的方法：set.seed(10) df=data.frame(id=1:

浏览 1提问于2015-07-13得票数 0

回答已采纳

1回答

如何根据同一年份和R中的地块来总结(增加)一栏？

、、、

我有以下类型的数据。但是我想要用X轴作为年份的图表，并把当年所有的销售额加在Y轴上。📷 谢谢!

浏览 0提问于2016-10-22得票数 1

2回答

为什么我们不能用。作为使用%>%的匿名函数中的参数

、、

library(plyr)ll <- list(a = mtcars, b = mtcars)llply(ll, function(.) . %>% group_by(cyl) %>% summarise(min = min(mpg))) # using 'd' as function parameterllply(ll, function(d) d %>% group_by</em

浏览 0提问于2016-10-24得票数 6

回答已采纳

1回答

使用dplyr:对象找不到和找不到函数的多个错误

、

当输入此代码时，我会收到一条错误消息： mtcars %>% + summarise(n = n())错误:不应直接调用此函数计数错误(mtcars，cyl，齿轮)：找不到目标“齿轮” mtcars %.% + dplyr::summarise(

浏览 3提问于2017-12-21得票数 2

1回答

如何在R包中最好地使用%>%运算符？

、

管道和dplyr对于快速数据探索非常有用。一些人认为，在一个包中，它们的使用并不理想。然后当我使用任何函数时，我必须给它加上dplyr:：前缀。如何为管道操作员执行此操作？我应该说：magrittr::%>%data %<>% group_by(a,b,c) %>% summarize(total=sum(d))

浏览 1提问于2016-11-29得票数 0

1回答

dplyr -聚合不正确？

、、

我有一些dplyr和group_by函数不能按预期工作的问题。使用汇总，我希望获得输入到group_by语句中的每个唯一的id和年份组合的var1的平均值。这段代码应该创建一个具有id年观察值的df，其中我希望聚合id和年份的每个组合的var 1的平均值。但是，这并不像预期的那样工作，并且输出忽略了id，并且仅按年进行聚合。代码： group_by(id, year) %.% select(id, year, var1) %

浏览 0提问于2014-03-10得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

了解dplyr和group_by

相关·内容

了解dplyr和group_by

R组错误

计算不同因素组合的行数

用dplyr summarize_all计算加权平均值时的“未找到”误差

与tapply相比，自定义rcpp last函数使用dplyr* group_by和summarise时速度较慢*

在dplyr链的所有列中替换NA

R函数使用管道

group_by对data.table和data.frame的不同行为

Group_by和summarize的行为很奇怪，没有提供预期的结果

在dplyr中选择几个使用group_by的列

以最有效的方式确保dplyr::summarise()中的唯一值

dplyr表和group_by

创建一个用前导变量追加列的循环

数据帧操作:对变量的操作

在ggvis中绘制step函数

如何根据同一年份和R中的地块来总结(增加)一栏？

为什么我们不能用。作为使用%>%的匿名函数中的参数

使用dplyr:对象找不到和找不到函数的多个错误

如何在R包中最好地使用%>%运算符？

dplyr -聚合不正确？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐