在没有funs()的summarize_at()和summarize_all()中使用其他列作为函数的参数

、

我有一个非常大的数据集(265,874 x 30)，有三个有意义的组:年龄类别(1-6岁)、日期(5479个这样)和地理位置(4个总数)。每条记录都包含一个选择，加上27个计数变量。我一直在尝试使用dplyr (v0.2)来完成这个任务，因为手动执行它最终会设置许多冗余的东西(或者使用循环来迭代分组选项，因为缺少一个优雅的解决方案)。我猜问题归结为:如何最好地使用do()函数和。运算符通过colSu

浏览 4提问于2014-05-20得票数 10

回答已采纳

1回答

、

我正在寻找一种不使用funs()的替代方案(这是作为解决方案提供的)，因为funs()在dplyr 0.8.0版本中已被软淘汰： mtcars %>% group_by(cyl) %>%summarize_at(vars(disp, hp), funs(weighted.mean(.

浏览 16提问于2020-05-14得票数 0

回答已采纳

1回答

在R中合并数据集中的行时求和

、、

我通过下面的代码合并了我想要的行： Similarities <- Home %>% summarize_all(.funs= function(x) paste(unique(x), collapse = ',')) 在这段代码中，对于组合在一起并具有不同值的其他行，它们的输出将变成一个用逗号分隔的列表。但是，现在我想对一个特定列

浏览 22提问于2020-06-30得票数 0

回答已采纳

1回答

传递字符向量作为summarize_at的funs参数

、

我正在处理一个函数，它接受一个参数funs，它是要应用于一组变量vars的一系列函数。最简单的方法似乎是使用dplyr的summarize_at和SE版本的funs函数。这适用于内置于R中的函数，但似乎不适用于用户定义的函数。它报告一个错误，它找不到用户定义的</em

浏览 3提问于2016-08-31得票数 1

回答已采纳

3回答

在dplyr中使用summarize_at的额外统计信息

、

有没有办法向summarize_at调用中添加额外的统计信息？例如将计算4列的平均值和标准差(总共8列)。mean, sd)) + summarise(n())iris %>% group_by(Species) %>

浏览 8提问于2017-04-25得票数 5

回答已采纳

1回答

过滤时间序列中的所有列，使其仅保持顶部1/3

、、

我有一个时间序列，大约有100个日期，每个日期有50个实体(如此5,000行)和50列(都是不同的变量)。如何筛选数据帧中的每一列(每个唯一日期)，以保持每个日期上每列值的前1/3。我的数据组织如下，但每列中的数字都是随机的，就像"a“列中的数字一样(这是一个示例，实际数据有更多的<

浏览 0提问于2019-03-13得票数 1

回答已采纳

5回答

对多列使用dplyr汇总的不同操作

、

好吧，我知道已经有很多相关的问题，但没有人回答我的特殊需要。例如，让我们假设虹膜数据集将有50列<

浏览 2提问于2018-02-23得票数 9

回答已采纳

2回答

对不同变量使用不同函数的summarise_at

、、

当我在dplyr中使用group_by并进行总结时，我可以自然地将不同的摘要函数应用于不同的变量。1 a 6 6 8 3 c 2 8 1一旦我转到sum

浏览 1提问于2017-09-13得票数 16

回答已采纳

1回答

在summarize()中使用变量作为参数

、、、

我希望将用户输入变量传递给group_by()和summarize()函数。summ 在我正在开发的应用程序中我将读取.csv文件中的文件名、要分组的<em

浏览 0提问于2018-03-20得票数 1

3回答

如何使用summarize_all为每个组获取与最大索引相关的非缺失值

、、

对于许多列，我希望找到与最大索引值相关联的每个组的非缺失值。通过使用summarize_all和which.max，我已经非常接近了，但是在找到最新的值之前，我不确定如何从每个向量中删除NAs。我读到过在summarize_all中使用na.rm和mean这样的函数，但不确定如何在没有内置函数</em

浏览 33提问于2019-01-05得票数 2

回答已采纳

1回答

在dplyr中同时使用summarize_all和summarize

、

有没有办法在dplyr链中将summarize_all和汇总语句组合在一起？如下所示： group_by(cyl) %>% summarize_all(funs(mean(., na.rm预期结果是按cyl分组的单个data.frame，每列按平均值汇总，观察次数按cyl计数。我可以通过使用bind_cols组合两个单独的</

浏览 2提问于2018-04-13得票数 3

3回答

dplyr:两个数据tbls之间的减法

、

我有一个背景数据文件和一个实验数据文件。我需要的是从背景文件中计算colMeans，并从实验数据中减去相应的平均背景读数。dataField2)] <- exprData [, c(dataField1, dataField2)] - ctrlMeans [c(dataField1, dataField2)]ctrlMeansTbl <- read_csv ('c

浏览 10提问于2017-07-12得票数 0

回答已采纳

1回答

使用其他列作为参数在summarize_at()中起作用

、

这很好用：# A tibble: 3 x 3cyl disp hp1 4.00 105 82.63 8.00 353 209 但是现在我想使用mtcar中的一个列作为weighted.mean<

浏览 0提问于2018-03-20得票数 4

回答已采纳

1回答

dplyr summarise_at无法在函数对象中找到额外的变量

、

我想在一个列集合上使用dplyr::summarise_at，其中函数对象使用一个附加变量。 x1 = 1:4,在dplyr::funs()内部使用summarise_at工作： t1 %>% su

浏览 0提问于2018-10-31得票数 1

回答已采纳

1回答

对需要和不需要na.rm=T参数的函数使用summarize_all

、、、

我的数据中的观察值包含在组中，我试图使用summarize_all函数获取每个组的多个汇总统计数据(例如，平均值、中位数、长度、标准差)。问题是一些函数(例如，mean、median)需要na.rm=T参数，而其他函数(例如，n())则不需要。当我在summarize_all中指定na.rm=T时，它会将na.rm参数应用于列出

浏览 0提问于2019-08-07得票数 1

3回答

简化在人群中获取多种疾病比例的代码

、、、

我有这样的数据cancer = c(1, 0, 0, 0, 0, 1, 0, 0, 0, 0),asthma = c(0, 0, 0, 0, 1, 1, 0, 0, 0, 0),我的数据要大得多每一行都是一个人，变量对应于人的疾病(1 = yes)。我想要的是一份数据，其中包括人口中有和</

浏览 1提问于2018-11-21得票数 1

回答已采纳

1回答

R-平均大矩阵

、

我现在有一个大型矩阵，72行和919列。amatrix <- matrix(rexp(919, rate=.1), ncol=919, nrow=72) 到目前为止，我一直在手工完成这部分工作，并将数据导入R中。在<

浏览 0提问于2018-07-22得票数 2

回答已采纳

1回答

如何更改现在已弃用的dplyr::funs()，它包含了一个ifelse参数？

、

.)) > 0) %>% mutate_if(is.character, funs(ifelse(is.character%>% .funspattern = "'",

浏览 0提问于2019-02-23得票数 18

回答已采纳

2回答

在从组外调用值时使用自定义函数进行总结

、

我试图使用带有自定义函数的summarize_at()对多个列进行总结。我坚持的部分是函数ssmd()，它是从group_by()创建的组中获取一个值向量，以及从这个组外部获取另一个值向量。在下面的示例中，x应该是Month设置的每一组值的向量(根据当前组的不同而变化)，而y应该是Month == 5的固定值集。Month and the mea

浏览 4提问于2020-04-15得票数 0

回答已采纳

4回答

在R中，将数据帧中的向量值列拆分为多列。

我有一个dataframe，其中一个列是一个矩阵，而不是一个向量，我想把它分成多个向量值列。x.2 x.32 1 0.5769064 0.6220120 0.2683387[1,] 0.4710224 0.4280053 0.3206661我想把这个矩阵分成三个列向量median sd 1 0

浏览 0提问于2017-02-22得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

dplyr: colSums on子分组(group_by)数据帧:优雅