使用dplyr is slow选择每个组中的最后一行

文章/答案/技术大牛

发布

1回答

、、

本质上，我要求R根据邮政编码和paon排列数据集，然后按id对它们进行分组，最后只保留每个组中的最后一行。然而，R需要超过3个小时才能做到这一点。我不确定我的代码做错了什么，因为这里没有for循环。 epc2是一个有324,368行的向量。., 1)) 感谢您的帮助。

浏览 8提问于2019-02-15得票数 2

回答已采纳

1回答

用which.max函数

、

您也许可以帮助我:对于每个ID，我希望提取最大的"a“值，其中有最大的"b”值。换句话说，我希望扫描"b“值，确定最高值(此处为b=40)。如果几个"a“具有相同的最高"b”值(这里是a=20和a=30)，那么我希望选择最高的"a“值(这里是a=30)。以下是我迄今所做的工作： df<- data.frame(ID=c('1','1','1',&

浏览 0提问于2018-09-24得票数 0

回答已采纳

3回答

使用grepl和组中相对行位置的条件过滤

、、、、

90,10000,12000,80,9000,500,65,2500)对于每个Journal_ref组，我试图根据以下条件筛选/选择行：如果"Adj“包含在Journal_type中，则筛选/选择以返回Journal_ref组中的最后一行"A

浏览 0提问于2018-11-11得票数 1

回答已采纳

4回答

删除每组R中的最后一行/第一行

、

这是我的数据value <- c(1,2,5,4,5)我想按categ列分组，并删除每个组中的第一个/最后一个元素。理想情况下，我希望创建一个列，指示每个组中的第

浏览 6提问于2016-12-09得票数 6

回答已采纳

1回答

查找并合并组中的最后一行

、

我可以使用dplyr找到数据集中的最后一行，并将该行的特定值合并回整个数据集。,row_number()==n())$A) 如何找到每个组的最后一行并将其合并回对应组。

浏览 1提问于2018-02-14得票数 0

2回答

按条件查找最后值

、、

我有一个非常大的数据框架，我需要根据最后的值进行子集。我知道data.table库包含last()函数，它返回数组的最后一个值，但我需要的是根据id中的最后一个值对track中的每个单独值进行子集。id中的值是连续整数，但每个track的最后一个值都不同。43.26124 4 0 3

浏览 6提问于2016-12-26得票数 0

回答已采纳

1回答

对于每个组，在R中保持一行的列条件。

、

问题的构建sample_df <- data.frame(id = c(14129, 14129, 14129, 29102, 29102, 2191, 219106-15 00:15:40 0 wednesday您可以看到，一旦收集到所有的day值，就会复制它的值，理想情况下，我希望每个id分组中有一个day行，而对应的date是每个组

浏览 1提问于2018-10-25得票数 0

1回答

选择第一个非NA值的dplyr:: first ()

、

我正在寻找一种方法，以提取第一个和最后一个非NA值从每个组。我使用的是dplyr:: first ()和dplyr：：and ()，但我无法确定如何选择第一个或最后一个非NA值。library(dplyr)d <- data.frame( year = rep(seq(2000,2002,13 2000 5

浏览 1提问于2018-09-07得票数 28

回答已采纳

1回答

如何只删除满足R中另一个条件的重复项？

、、、

我只想从UUID列中删除在Shape_Area列中具有最高值的重复项。必须创建一个循环来检测重复项，并比较找到的重复项中的列区域的值。我已经尝试过duplicate函数，但我不能相信所选的值是列区域中的最大值。我想要一个输出表，其中包含在列区域中具有最大值的唯一值。有人能在这个问题上提供帮助吗？

浏览 12提问于2019-04-23得票数 0

回答已采纳

1回答

dplyr中的访问组级别

、

我想在dplyr中获取分组对象的分组级别。这当然等于分组后的分组变量。分组的变量不能修改，但可以扩展。.)) %>% 因此，向每个组添加一个空行，作为第一行或最后一行。在最后的do中，我想将'gr‘设置为它的组级别。是否有一种方法可以访问组级别，以便最终的</e

浏览 0提问于2017-01-22得票数 0

2回答

应用rollmean，但如果公司没有k>2，则保留单个值。

、

但是，对于我的一些观察，我只有第一个值，所以我会保留它来代替默认的NA。为了实现这一点，我过滤了那些我比k>2更多的数据，所以我可以简单地应用下面的代码。对于那些k< 2，我只是把它们插在后面。我有更好的方法吗？city = sample(LETTERS[1:11], 10, rep=TRUE), df %>%

浏览 4提问于2020-08-31得票数 0

回答已采纳

2回答

删除一列中的重复值，并在另一列中返回基于最新值的值

我创建了以下数据集，以便复制我的问题。我有重复的Module/Filename。但是，我希望能够返回具有最新日期的副本。日期必须是动态的。 owaspSample <- owaspSample[!

浏览 30提问于2017-01-12得票数 0

回答已采纳

2回答

分组，然后从一列中选择最下面的行

、

我有一个数据集，其中我需要按一列分组，并在另一列中选择该组中的最后一行，并取第三列的平均值。name=c("a1","a2","a3","b1","b2","b3","c1","c2","c3"), 我已经<e

浏览 1提问于2019-04-07得票数 1

2回答

使用dplyr按组获取第一行和最后一行。

、

我试图使用dplyr按组获取重复值的第一行和最后一行。我这样做是为了提高效率，尤其是为了更快地绘制图形。这不是的复制，因为我不是要求组中严格的第一行和最后一行，而是按级别(在我的例子中是1和0)要求在多个块中出现的组中的第一行和最后

浏览 3提问于2017-03-30得票数 1

回答已采纳

1回答

聚合具有多个类型列(字符和数字)的数据框

、、

在100s到1000s的条目/观测值的数据帧中。列A-E &G有重复项，列F有新数据。我想将所有这些集合或组合到行求和列F中。我尝试过aggregate和group_by，但结果并不像预期的那样好。P1RRRRS0003400S 108 LIS下面的示例是我聚合F列所需的重复数据

浏览 0提问于2020-08-06得票数 0

3回答

按组选择随机连续行作为组长度的比例

、、

假设我有一个具有不同群长的不同组的时间序列。我如何按组随机选择连续行，并将其作为每个组长度的函数(例如，每组的10 %)library(dplyr) cell <- c(rep("a", 100), rep("b", 80：它不以某

浏览 0提问于2021-07-21得票数 1

回答已采纳

1回答

将R中的行与除一个重复值以外的所有行合并

、、、

我找了一个答案，但找不到一个我确信是一个难以置信的简单的解决办法。我有这样的数据集 year1 = c(0, 1, 1),正如您可以看到的那样，ID 1是伪复制的，因为它为每年创建了一个新行，因此我试图将这两行合并在一起，以便每个ID都类似于下面的一行</em

浏览 1提问于2021-02-02得票数 0

回答已采纳

5回答

dplyr -按组并选择顶x%

、

使用包dplyr和函数sample_frac，可以从每个组中抽取一个百分比。我需要的是首先排序每个组中的元素，然后从每个组中选择顶部x%？例如，以下数据按齿轮分组，并在每组中按wt进行排序：mtcars %>% group_by(gea

浏览 0提问于2015-10-19得票数 14

回答已采纳

3回答

将重复元素和整个数据帧保持在r中。

、

我希望根据第一列中的重复元素删除行，但也希望保留第二列。与第二列中的重复元素相关联的任何值。到目前为止，使用以下命令进行了尝试，但没有保留整个数据帧： df[(duplicated(df$col1)),]

浏览 0提问于2017-01-20得票数 1

回答已采纳

2回答

Aggregate/Group_by R中的第二个最小值

、、

我在dplyr中使用了group_by()，或者在R中使用了aggregate()函数来聚合列。对于我目前的问题，我想按个人分组，但找到一列(数字)中的第二低值和另一列中的最低值(年份)。所以，如果我的数据看起来像这样：123 M.

浏览 4提问于2017-08-07得票数 2

回答已采纳

点击加载更多