dplyr中group_by的另一个大数据问题

文章/答案/技术大牛

发布

1回答

、、

我的数据帧中有大约一百万行和许多列。我需要一个group_by和mutate来清理我的数据。我将缺少的值(负数)归因于特定个人或组的任何其他正值。data$x[3] <- -1 # negative numbers represent missings data$x[12] <- -1 group_bybigdata = data.frame(id=rep(c(1:1

浏览 15提问于2019-11-22得票数 0

回答已采纳

1回答

将函数应用于dplyr的group_by输出

、、

我想要子集一个大的数据，并创建一个每个分组的全球图表。听起来是dplyr的完美候选，但我遇到了调用group_by结果上的函数的问题。任何提示都将不胜感激。geom_point())} # I'm trying to get something like this using

浏览 1提问于2014-12-18得票数 3

回答已采纳

1回答

为什么R中的group_by()函数不能正常工作？

、、

我有一个大型的dataframe，我试图在一个列中按8个类别进行排序，然后使用group_by()查找它们的权重之和(kg)，并总结来自dplyr包的函数。然而，在创建的“总”变量中，某些类别的和产生N/A，我不知道为什么，因为它们应该是数值。我能看到的数据没有什么奇怪的地方。代码： totals <- db %>% group_by(cat

浏览 3提问于2022-08-09得票数 0

2回答

dplyr函数group_by错误

、、

我对库dplyr的一个函数有问题。我想按不同的值("group_by")对数据帧进行分组。这些值中的一些是固定的(总是相同的)，另一些是通过向量引入的。这个向量的维度是可变的。当数据帧被分组时，我想要应用函数“变异体”。我试过用不同的方法来做这件事。第一个被复制到下面，其中包括一个遍历向量

浏览 1提问于2017-11-28得票数 4

2回答

在dplyr R中有条件地将列添加到groupby

、

这个问题-- --与我的问题有关，但我不认为答案是令人满意的。are always in data dplyr::group_by(player, team, game, season) %>%} 我的问题是-我只想在game时添加some_condition ==

浏览 0提问于2018-12-21得票数 0

回答已采纳

1回答

删除dplyr::group_by后和prcomp之前的等方差列

、、

我使用dplyr在一个大型数据集中为多个组执行pcas。当使用group_by函数将数据分割成组时，一些变量具有相等的方差，因此pca无法运行。如何删除任何方差相等的列，然后对剩余的内容执行prcomp？下面是假数据。谢谢。尝试以等方差运行pcas > iris%

浏览 0提问于2019-09-24得票数 1

回答已采纳

1回答

在R中定义函数时，如何统计一列中的观察值数量？

、、、、

我正在尝试定义一个函数，它将接受两个参数，并且将根据另一列(The_words)计算给定数据帧的列(Morph_column)中的括号数量。之后，我需要计算长度列中的观察值的数量，例如，如果"the_words“返回的括号数量为1，我需要知道数据帧中有多少项具有相同的长度(1)。2，3，4，5的观测值也是如此。当我尝试在dplyr中使用n()时，它告诉我

浏览 81提问于2021-06-17得票数 1

回答已采纳

1回答

来自组的样本，并且只在数据中保持独特的观测。

、、、

我有一个数据模型，其中一些参与者(并非全部)出现两次，每次出现在不同的组中，即v1=A和v2=1组中，理论上也可以出现在v1=B和v2=3组中，一个组是由v1和v2两个变量定义的，因此根据下面的代码，共有现在，我希望避免数据中任何参与者的双重外观，方法是每组抽取样本，随机删除任何参与者的一个观察结果，同时保持相同大小的样本。我构造了下面的丑陋代码来展示我的问题。如

浏览 2提问于2018-04-16得票数 1

回答已采纳

2回答

group_by +变异中的过滤器不像dplyr中的group_by +摘要那样工作

、

当筛选使用tidyverse变异数据时，我遇到了问题。，直接使用概述，正确地应用了过滤器： dplyr::group_by(group) %>% 1 A 3desired.df <- sample.df %&g

浏览 2提问于2020-06-11得票数 1

回答已采纳

3回答

R，dplyr - group_by()和of ()的组合不会产生预期的结果？

、

在使用dplyr函数group_by()时，以及在使用dplyr函数arrange()之后，我希望得到一个输出，其中数据帧是在我在group_by()中声明的组中排序的。我对文档的解读是，这种组合应该会产生这样的结果，但是当我尝试时，这不是我得到的结果，而且googling没有表明其他人遇到了相同的问题。我预期这个结果是错误的吗？下面是一个示例，

浏览 5提问于2014-07-09得票数 50

回答已采纳

2回答

group_by()级别在未使用ungroup的filter()/mutate()/count()之后消失

、

问题是，group_by级别将在筛选器()、mutate()、count()等一行代码之后消失，为了保持该级别，我需要每次在这些代码之后添加group_by()以保持组级别。下面我附上一个例子。正如您所看到的，如果我在过滤器之后添加group_by，它可以正常工作。1编辑:在我将R版本更新到4.0.2 (我以前<

浏览 4提问于2020-11-20得票数 1

1回答

基于样本均值的分组条件抽样

、、、

我试着用R来做一系列不同的小测验。我有一个大型数据集(quiz_df)，其中包含许多问题，分为类别和困难，如下所示：1 1library(dplyr)这就产生了一个随机的小测验集，每个类别有3个

浏览 2提问于2022-02-03得票数 1

回答已采纳

6回答

计算不同因素组合的行数

、

考虑到像经典的mtcars这样的数据集，我想知道不同级别的因素的观察数(=行)，并将它们分开以及放在一起。mtcars %>% dplyr::group_by(cyl, gear) %>% dplyr::summarise(N = n()) 我知道，对于cyl和gear，可以通过类似的方式获得单独的观察数，创建单独的数据格式，并将所有数据合并在一起。以下内容将产生预期的</em

浏览 6提问于2020-01-31得票数 2

回答已采纳

2回答

来自`dplyr:::print.tbl_df`的“本地数据帧”消息的含义是什么？

、、

当使用dplyr时，tbl_df函数打印一条语句，表示数据框架是“本地的”：+ group_by(gear) Source: local data frame [32我认为本地数据帧意味着内存中的数据，而非本地数据帧是类似于SQL的数据库。不过，我觉得我的假设是错的。在这个大约25:25的

浏览 4提问于2015-03-16得票数 24

3回答

如何在函数中加入基于Vector的数据帧行的重新排序

、

library(tidyverse)我的函数在运行时遇到了问题。我试图做的是，在本例中使用钻石数据集表单ggplot2，对“dplyr::group_by”和"color“进行”剪切“和”dplyr：：group_by“，然后使用dplyr::summarise获取计数我使用rlang和purrr将两个计数的摘要输出到list<e

浏览 30提问于2018-02-04得票数 4

回答已采纳

1回答

在R中这个For循环有问题吗？

我尝试在R中使用这个For循环创建一个从电子表格中的7列接收数据的DB，但它不起作用。data.frame(a=a, b=b)} 'a‘表示创建从电子表格的第一列接收数据的列“b”从第二列到第六列接收数据。"Dados“正在创建数据帧。"RESUMOVE

浏览 0提问于2019-02-19得票数 0

1回答

purrr::map()一个深度嵌套的列表，用于测试数据帧的相等性

、、

问题我有一个列表，其中包含多组嵌套列表。我需要测试最低级别中的所有数据帧是否都相等，并且在执行此测试时需要尊重数据的分组。我正在尝试使用purrr::map()来解决这个问题，但是我真的很难理解如何遍历每个子列表。我在这个例子中使用gapminder只是因为它可以嵌套两次，这与我的实际数据相同(我不能在这里分享)。数据 library(dplyr)libr

浏览 31提问于2020-11-03得票数 0

回答已采纳

2回答

创建一个用前导变量追加列的循环

、、

我的数据框架包含以下列:日期、id、类别。我希望创建一个循环，该循环附加附加列(category1、category2等)，其中包含按日期划分的每个id的前导类别。没有循环的代码如下所示： dplyr::group_by(id) %>%

浏览 4提问于2022-09-22得票数 0

回答已采纳

1回答

我如何group_by，总结，然后选择最小和最大？

、、

0.60 35010 0.79 235012 1.00 4850min <- df %>% dplyr::group_by(claim_x) %>% dplyr::summarise(Fx=min(Fx))max <- po

浏览 2提问于2019-06-18得票数 1

回答已采纳

1回答

按R中的多列分组

、、、

我正在尝试创建一个包含多个变量的表我使用了dplyr包中的group_by，但它没有提供我想要的东西。 excel数据透视表中的例子给出了我想要的结果。 ? R不是像excel数据透视表那样对它们进行分组，而是按观察值返回。这是我用来从dplyr包中group_by然后总结的代码。Update_Cc_X2 %>%

浏览 13提问于2021-04-12得票数 0

点击加载更多