R中的所有组仅返回1个值的group_by_R如何在group_by之后仅替换列中连续的重复值_group_by并保留所有不包含特定值的组，并筛选有特定值的组 - 腾讯云开发者社区

r、dplyr、tidyverse

给定一个列出用户、产品和产品功能的tibble，我尝试计算拥有特定产品功能的不同产品用户的比例： library(dplyr) #> #> Attaching package: 'dplyr' #> The following objects are masked from 'package:stats': #> #> filter, lag #> The following objects are masked from 'package:base': #> #> inte

浏览 15提问于2020-10-24得票数 0

回答已采纳

1回答

根据条件按组进行变异

r、dplyr

我正在尝试向dataframe添加一个摘要列。尽管汇总统计应应用于每一列，但统计数据本身应仅基于条件行计算。举个例子，考虑到这个数据： x <- data.frame(usernum=rep(c(1,2,3,4),each=3), final=rep(c(TRUE,TRUE,FALSE,FALSE)), time=1:12) 我想添加一个usernum.mean列，但是只有在final=TRUE时才计算平均值。我试过： library(tidyverse) x %>% group_by(usernum) %&

浏览 1提问于2020-01-27得票数 1

回答已采纳

1回答

根据单列查找所有唯一行，并排除所有重复行

我有两个要求在单列中查找所有重复的值查找与第一个问题相反的所有唯一行，这甚至不应该包括来自重复行的单个对。我从过去的两周开始学习。看YouTube视频，指的是Stackoverflow和其他网站，所以不多。请参考任何材料或课程。所以回答我在这里发现的第一个问题() # All duplicated elements mtcars %>% filter(carb %in% unique(.[["carb"]][duplicated(.[["carb"]])])) 所以我想和这个相反谢谢我有非技术背景。我在这里经历了几个问题和答

浏览 0提问于2019-07-16得票数 0

回答已采纳

3回答

在保留所有列信息的同时对数据应用group_by和汇总

r、dplyr

我有一个22000行25列的大型数据集。我尝试根据其中一列对我的数据集进行分组，并根据分组后的数据集获取另一列的最小值。然而，问题是它只给我两个列，其中包含分组的列和具有最小值的列…但我需要与最小值相关的行的所有其他列的信息。这里有一个简单的例子，只是为了使它可重现： data<- data.frame(a=1:10, b=c("a","a","a","b","b","c","c","d","d","d"), c=c(1.

浏览 1提问于2015-05-04得票数 69

回答已采纳

1回答

如何在R中将x轴拆分为十进制并生成ggplot

r、ggplot2、quantile

嗨，我想知道如何将x轴拆分为R中的十进制，并制作ggplot？我目前有年龄范围数据和NO2污染数据。这两个数据集共享名为ward的相同地理参考。我希望将我的人口统计数据绘制成相同数量的分位数(总共298个)。我在R中尝试了分位数回归，其中我使用了以下内容： library(SparseM) library(quantreg) mydata<- read.csv("M:/Desktop10/Test2.csv") attach(mydata) Y <- cbind(NO2.value) X <- cbind(age.0.to.4, age..

浏览 16提问于2018-01-06得票数 0

回答已采纳

1回答

删除异常值

r、outliers

我有一个包含2000多个观察值的大型数据集。这些数据涉及动物组织中的毒素浓度。我的响应变量是myRESULT，并且我对每个感兴趣的ANALYTE都有多个观察值。我需要从每个ANALYTE组中删除离均值超过三个SD的数值。虽然我意识到我通常不应该从数据集中删除异常值，但我仍然想知道如何在R中做到这一点。下面是我的数据的一小部分： ?

浏览 17提问于2019-01-13得票数 0

2回答

dplyr::mutate: sum()的令人费解的结果

r、dplyr

在学习了R中的一些数据科学工具之后，我偶然发现了以下“错误”：(这是Wickham &Grolemund的"R for data Science“第12章中的代码)： library(forcats) library(tidyverse) by_age <- gss_cat %>% filter(!is.na(age)) %>% group_by(age, marital) %>% count() %>% mutate(prop= n/sum(n)) 与书中的语句相反，我错误地得到了每一行只包含1(例如100%)的支柱列

浏览 8提问于2022-08-08得票数 0

6回答

如何选择dplyr组中具有最大值的行？

r、dplyr、plyr、greatest-n-per-group

我想用dplyr在每个组中选择一个具有最大值的行。首先，我生成一些随机数据来显示我的问题。 set.seed(1) df <- expand.grid(list(A = 1:5, B = 1:5, C = 1:5)) df$value <- runif(nrow(df)) 在plyr中，我可以使用自定义函数来选择此行。 library(plyr) ddply(df, .(A, B), function(x) x[which.max(x$value),]) 在dplyr中，我使用此代码获取最大值，但不是最大值行(本例中为C列)。 library(dplyr) df %>% g

浏览 4提问于2014-06-16得票数 157

回答已采纳

3回答

R dplyr:按组过滤常用值

r、dplyr

我需要找到不同组之间的共同值，最好使用dplyr和R。从我这里的数据集中： group val <fct> <dbl> 1 a 1 2 a 2 3 a 3 4 b 3 5 b 4 6 b 5 7 c 1 8 c 3 预期输出为 group val <fct> <dbl> 1 a 3 2 b 3 3 c 3 因为在所有组中只出现数字3。这段代码似乎不起作

浏览 17提问于2020-12-02得票数 3

回答已采纳

2回答

如何在条件行之前提取字段

set.seed(123) d <- data.frame( group = rep(1:3, each = 3), year = c("2001", "2002", "2003", "2002", "2003","2004", "2001", "2002", "2004"), value = sample(1:9, r = T)) 如果同一组中最后一行的年份是"2003“，我如何提取前一行？例如： group year

浏览 18提问于2019-07-26得票数 0

4回答

使用dplyr基于列值的子集data.frame

r、dataframe、dplyr

library(dplyr) mydat1 <- data.frame(ID = c(1, 1, 2, 2), Gender = c("Male", "Female", "Male", "Male"), Score = c(30, 40, 20, 60)) mydat1 %>% group_by(ID, Gender) %>% slice(which.min(Score)) # A tibble: 3 x 3 # Group

浏览 1提问于2017-12-20得票数 1

回答已采纳

2回答

如何在聚合表达式中使用每个“当前行”值作为条件参数

我希望通过按和条件聚合我的表生成一个相应的值(在新的最后一列中)，在此条件和计算中使用每个对应的行值中的一些：示例：所有“秒”之和，如果“第一”等于当前第一值(A)，“第二”等于当前第二值(5) 在Excel中，我们通过轻松使用当前行的地址和通过拖动扩展公式来解决当前行。在poweBI/DAX中，我们使用前面的函数来引用当前的行值。我不知道我应该在R里做什么。

浏览 1提问于2020-03-31得票数 0

回答已采纳

1回答

如何只删除满足R中另一个条件的重复项？

r、dataframe、dplyr、duplicates

我想清理这个数据集。示例表格 ? 它包含许多重复项。我只想从UUID列中删除在Shape_Area列中具有最高值的重复项。必须创建一个循环来检测重复项，并比较找到的重复项中的列区域的值。我已经尝试过duplicate函数，但我不能相信所选的值是列区域中的最大值。我想要一个输出表，其中包含在列区域中具有最大值的唯一值。有人能在这个问题上提供帮助吗？

浏览 12提问于2019-04-23得票数 0

回答已采纳

1回答

R:如何按组计算变量占某个值的百分比？

r、dplyr、group-by、percentage

所以我试图让r报告某个变量在组中的份额，该变量在一个组中具有特定值。例如:让我们考虑一个由组1,2和3组成的数据集。现在我想知道一个Variable1在组1,2和3中的值500中所占的百分比，并将其合并为一个新的变量。有没有一种方便的方法来找到解决方案？所以它应该看起来像这样： df Group Var1 Var1_perc 1 0 50 1 400 50 1 500 50 1 500 50 其他组依此类推

浏览 110提问于2020-09-23得票数 0

2回答

具有独特价值的dplyr填充

r、dplyr

这是一个非常基本的问题，但我想知道，在一个组标识符定义唯一值和/或丢失的数据集中，使用dplyr的唯一值会给您带来什么感觉呢？如果它是一个数字列，我只需执行如下操作： data %>% group_by(groupIDs) %>% mutate(VARwithNA=max(VARwithNA, na.rm=TRUE) 但是如果它是一个字符列呢？有更好的方法吗？谢谢!

浏览 1提问于2019-11-14得票数 1

回答已采纳

2回答

在R (dplyr)中，为什么我使用过滤器的顺序会影响输出？

r、dplyr

我在R中使用flights数据集，并希望分析哪些平面(由尾数标识)延迟最严重。我想筛选出航班总数少于10次的航班，并考虑了两种可能的输入： library(tidyverse) library(nycflights13) flights %>% group_by(tailnum) %>% filter(arr_delay>0) %>% mutate(prop_delay = arr_delay/sum(arr_delay), count = n()) %>% filter(count >10) %>

浏览 3提问于2020-06-29得票数 1

回答已采纳

2回答

是否有一个R函数用于按一个变量(列)对数据进行分组？

r、grouping

我测量了细菌对病毒的抑制力。我有n行(个体)和4列(a，b，c，x)的数据矩阵。根据第x栏的不同，我想将它们定义为好的抑制者或坏的抑制者。然而，我不确定如何根据其他测量的列(a，b，c)来设置列x的treshold。有没有R函数可以对我的数据帧进行分隔/分组？

浏览 0提问于2019-09-27得票数 0

1回答

如何使用R求两个值之间的最小值

在一列数据中，我试图确定一个新的高点和前一个新的高点之间的最小值。在下面的例子中，我标记了新的高点在哪里，它们之间的最小值是多少。什么是R公式来解决这个问题？在excel中，我可以使用匹配和max/min公式来完成它。我不知道如何在r列的某一段中找到最小值。 data 0 New High -80 -160 -160 -160 -160 -160 -347 -351 -351 -444 -444 -444 43 New High -444 43 10 10 -6 20 352 New High -6 352 352 528 New High 352 528 511 511 518 47

浏览 2提问于2020-10-03得票数 0

回答已采纳

1回答

查找多个测试中表示的组

r、dataframe、unique

在R中，我有三个条件中的一个发生的事件对，并希望找到在每个条件下发生的事件对。例如： label1 label2 factor value bob ted A 4 bob carol A 3 ted carol A 2 bob ted B 3 ted carol B 4 bob ted C 2 bob carol C 9 ted carol C

浏览 0提问于2018-06-04得票数 2

回答已采纳

2回答

如何根据列聚合数据

r、postgresql、dplyr

我是R的新手，我试图弄清楚如何将数据合并成一种独特的格式，然后将这些数据输入postgres数据库。下面是提供格式示例的代码： df <- data.frame("1"=c("us","fr","us","fr","de", "de"), "2"=c(35, 20, 35, 20, 22.25, 125), "3"=c(105, -67.56, 105, -67.56, 138, 12), "4"=c(100, 200, 80,

浏览 4提问于2016-09-18得票数 0

回答已采纳

1回答

python正则表达式: re.findall(r"(do|re|mi)+"，"mimi rere midore")

python、regex

我不明白为什么这个正则表达式， re.findall(r"(do|re|mi)+","mimi rere midore"), 生成此结果， ['mi', 're', 're']. 我的预期结果是'mimi'，'rere'，'midore'... 但是，当我使用这个正则表达式时， re.findall(r"(?:do|re|mi)+","mimi rere midore"), 它会按照预期生成结果。你能告诉我两个正则表达式之间的区别吗？

浏览 3提问于2013-03-21得票数 3

回答已采纳

1回答

如何通过Ruby数组中的哈希循环

ruby-on-rails、ruby

我使用group_by来获得某种期望的结果。根据答案中的解释，我更新了我的问题，以反映答案，查看它为达成解决方案所采取的步骤，查看编辑历史。 @grouped_test_specific_reports = TestSpecificReport.all.group_by(&:equipment_type_name) 上述代码产生了以下结果： 2.5.1 :026 > pp @grouped_test_specific_reports {"Ultrasonic Probes"=> [#<TestSpecificReport:0x00007f8

浏览 1提问于2018-12-30得票数 1

回答已采纳

1回答

如何以优雅的方式将每组变量的平均值添加到列中？

我想将每月平均温度作为列添加到空气质量数据集中。所以，我想要这样的东西： Ozone Solar.R Wind Temp Month Day NEW COLUMN 41 190 7.4 67 5 1 77.9 36 118 8 72 5 2 77.9 12 149 12.6 74 5 3 77.9 18 313 11.5 62 5 4 77.9 NA NA 14.3 56 5 5 7

浏览 11提问于2019-09-28得票数 1

2回答

使用-inf = TRUE时返回na.rm的总结

r、dplyr、summarize

我最近构建了一个简单的R脚本来总结三种不同的数据框架。自从更新到最新版本的R和function之后，当我在dplyr中只对其中一个数据帧使用汇总函数(其他两个都很好)时，我遇到了一个从未见过的输出。我还收到了一系列我不熟悉的警告。请注意，在更新之前，我完全按照编写的方式运行脚本，没有任何数据帧的问题。该问题的数据框架称为VO2，其设置如下： Name Sex VO2 AthleteA M 50 AthleteA M 52 AthleteA M NA AthleteB M 49 A

浏览 3提问于2017-09-18得票数 6

回答已采纳

2回答

使用Itertools按字符串中出现的次数分组字符

rust

我有两种方法可以根据字符串中出现的次数对字符进行分组。其中一个使用std::collections::HashMap，第二个使用。不幸的是，与Itertools一起分组会给我带来不理想的结果。输入单词示例："Barbara" 使用std::collections::HashMap let map1 = word.to_lowercase() .chars() .fold(HashMap::new(), |mut acc, c| { *acc.entry(c).or_insert(0) += 1; acc }); {

浏览 10提问于2022-06-10得票数 0

回答已采纳

1回答

如何根据另一个变量的值使用dplyr::Distinct

r、tidyverse

library(tidyverse) 使用下面的示例数据，我想根据一个条件使用dplyr::distinct()。我想要消除ID列中的重复项，但只删除具有最低值"Rate“的重复项。例如，对于"A1A1"，速率为2的行应该去重；而对于"CC33"，速率等于2和3的行应该被删除。我还希望通过使用dplyr::distinct和".keep_all=TRUE“来结束所有列。我尝试了下面的代码，但这会删除Subject列。 DF2%>%group_by(ID)%>%summarise(Min_rate=min(Rate)) 我也尝试过gr

浏览 11提问于2018-03-04得票数 0

1回答

如何根据R中其他两列的分组来标准化列中的值？

r、dplyr

我相信这是一件很简单的事情，但我对R. 我有三个专栏，一个是我需要标准化的价值观，一个是年龄组，一个是性别。我想要一个新的专栏，标准化是按年龄组和性别进行的，例如18-28岁的女性与18-28岁的男性有不同的分数。 R函数(Foo)：打印(Foo) agegroup gender value 1 68-90 M 0.55140187 2 38-48 M 0.93333333 3 18-28 F 0.43283582 4 0-18 F

浏览 0提问于2019-05-30得票数 1

回答已采纳

1回答

方法查找数组rails中最常用的名称。

ruby-on-rails、arrays

我有一系列的物品。我需要一种方法来确定哪一项在数组中重复最多。 array = "Car","Car","Bank","Plane","Boat","Car","Car","Ship" 我需要一个方法来查看这个数组并打印显示最多的项。产出应是： => "Car"

浏览 2提问于2015-07-15得票数 0

回答已采纳

2回答

查找组的最大值并在R中打印相关行

r、dataframe、groupwise-maximum

我有这样的数据： V1 V2 V3 V4 V5 MAX ROW 2 5 -8 19 -20 V5 R1 12 3 5 6 -9 V1 R2 5 7 8 -1 19 V5 R3 3 -2 -5 2 4 V3 R4 6 1 -1 15 9 V4 R5 -3 -4 7 2 8 V5 R6 -6 -9 3 6 2 V2 R7 18 11 -3 13 2 V1 R8 -3 -4 7

浏览 0提问于2019-04-12得票数 0

回答已采纳

1回答

安卓系统上的SQLite MAX

android、sqlite、max

我有一个数据库，其中有一个表格记录了一辆车最后一次加油的时间。它有一个整数类型的日期列。我需要能够确定哪一个是最后的燃料补给日期。我正在使用： Cursor cursor = db.query(FUEL_USE_TABLE_NAME, LAST_FUEL_UP_DATE_CLAUSE, REGISTRATION_NO_COLUMN + "=? ", new String[]{registrationNumber}, null, null, null); 其中LAST_FUEL_UP_DATE_CLAUSE为MAX(date_t

浏览 4提问于2012-06-21得票数 1

回答已采纳

2回答

如何将tibble从一列转换为两列并进行重复观测

r、tibble

我试着把df转换成df2。我已经使用df3通过一种非常零散的方式完成了这项工作，有没有更简单、更优雅的方式呢？ library(tidyverse) # I want to transform df df <- tibble(id = c(1, 2, 1, 2, 1, 2), time = c('t1', 't1', 't2', 't2', 't3', 't3'), value = c(2, 3, 6, 4, 5, 7)) df #>

浏览 11提问于2020-11-25得票数 1

回答已采纳

1回答

比较具有重复值的行(在指定列中)，然后根据它们在另外两个指定列中的值确定的标准删除行。

我在R中有一个数据框架，类似于我在下面创建的一个框架(用于说明)。对于具有重复ID的帐户(在我的示例中，ID是一个名称，但也可能是一个数字)，我想编写一些代码，删除重复ID条目中的关闭值与打开值匹配的行。例如，前三行是属于John的3个不同帐户( ID列中"John“的重复ID )。前两项(其中三项)均于2017年9月30日关闭(与第三组的开放值相匹配)，因此应从产出数据框架中删除。玛丽也是如此(她两个账户中的一个账户的关闭日期与另一个账户的开立日期相匹配，因此关闭的一个账户应该被删除)。但是，对于Jack和Pete，它们各自的帐户都应该保存在输出数据框架中，因为(在每种情况下)，关闭

浏览 6提问于2017-10-04得票数 0

回答已采纳

2回答

汇总dataframe以包括分组中的所有唯一值

r、dataframe、dplyr

我想总结一个数据文件，这样一个列就包含了一个特定组中唯一值的字符串。因此，使用虹膜数据集： iris %>% group_by(Species) %>% summarise(mPW=mean(Petal.Width)) 这给出了按物种分组的Petal.Width平均值。但是，如果我想要输出所有用于计算这个值的值，那会怎么样呢？我希望这些唯一的值在一个列表中，但不是在一个列表的R意义中。我试过了，但很明显这是错误的： iris %>% group_by(Species) %>% summarise(lPW=paste(Petal.Width, sep

浏览 1提问于2016-01-06得票数 5

回答已采纳

1回答

根据数据大小对“R”中的数据进行分区

r、tree、subset、partitioning

我目前正在开发一个程序，它可以分析叶子的面积，并将其与簇中叶子的位置进行比较(例如，它是第一个叶子，第三个，最后一个。等)并分析了位置、面积、质量等之间的关系。我有一个数据库，大约有5,000个叶子和1,000个簇，这就是问题出现的地方。簇有不同的数量，大多数有5个叶子，但也有一些有2个、8个或介于两者之间的任何一个。我需要一种方法来区分集群中的数量，这样程序就不会处理带有3个叶子的集群与具有7个叶子的集群相同。我的.csv让每个叶子单独输入，所以简单地手动输入不同的集合是不可能的。我是“R”的新手，所以我可能在这里遗漏了一项明显的技能，但任何帮助都将不胜感激。我也理解这是相当令人困惑的，

浏览 0提问于2017-11-14得票数 0

1回答

离群点:如何在R中的数据集中标记异常值？

r、loops、dplyr

我正在尝试从我的数据集中提取异常值，并相应地标记它们。样本数据 Doctor Name Hospital Assigned Region Claims Illness Claimed 1 Albert Some hospital Center R-1 20 Sepsis 2 Simon Another hospital Center R-2 21 Pneumonia 3 Alvin ...

浏览 0提问于2019-01-31得票数 0

回答已采纳

1回答

sqlite的聚合函数

sql、sqlite、group-by、aggregate-functions

执行下面的脚本以创建测试表。 create table if not exists t1 (id1 int,id2 int); 现在，表被创建了，它是空表。执行下面的脚本， select max(id1), max(id2) from t1 它将返回结果下方(一行)。 max(id1) max(id2) ----------- -------- <null> <null> 执行下面的脚本， select max(id1), max(id2) from t1 group by id1,id2 它将返回低于result(无result)。 ma

浏览 0提问于2012-11-01得票数 3

回答已采纳

1回答

R:如何将列中的值替换为具有重复项的随机数

r、dataframe、random、replace、dplyr

我有一个包含数据的df，以及每行的名称。我希望名称替换为随机字符串/数字，但使用相同的字符串，当一个名称出现两次或更多(例如，下面是Adam和Camille )。 df <- data.frame("name" = c("Adam", "Adam", "Billy", "Camille", "Camille", "Dennis"), "favourite food" = c("Apples", "Banana", "Or

浏览 16提问于2020-12-23得票数 1

回答已采纳

1回答

筛选模式上的行和列中的位置

r、regex、dplyr

我需要帮助完成这项任务。我有一个与扬声器ids和他们的speech对话的数据文件： df <- data.frame( line = 1:10, id = c("A", "A", "B", NA, "A", "B", "B", "B", "B", "B"), speech = c("hi", "how are you [Larry]?", "[uh]", "(0.123)"

浏览 2提问于2021-02-23得票数 1

回答已采纳

4回答

JQ -删除重复的数组值

json、jq

编辑以提高清晰度我使用以下jq查询来提取AWS、ARN和相关协议。但是，我只需要将ARN列出一次，然后是端口和协议。我的代码是jq -r '.Listeners[] | (.LoadBalancerArn), (.Protocol)'，结果是 "arn:aws:elasticloadbalancing:us-xxxx-1:123456789:loadbalancer/app/msword-123456789/20b73abcde" "HTTP" "arn:aws:elasticloadbalancing:us-xxxx-1:12345

浏览 5提问于2022-07-05得票数 0

回答已采纳

2回答

使用for循环基于不同列在R中创建新列

r、for-loop、mean

我试图在R中创建一个新列，该列包含不同列的值的平均值，但它们各自的日期除外。我的数据框架如下所示： Temp Date 4 2018-01-01 3 2018-01-01 2 2018-01-02 2 2018-01-02 现在我想创建第三列，它是每天的平均温度。所以看起来是这样的： Temp Date mean_Temp 4 2018-01-01 3.5 3 2018-01-01 3.5 2 2018-01-02 2 2 2018-01-02 2 我已经试过了 for (i in as.list(df$D

浏览 8提问于2022-02-02得票数 0

回答已采纳

1回答

如何合并R中的重复行

r、twitter、rtweet

我对R很陌生，我一直试图用不同的方法解决这个问题。我有数据，我想绘制成一个图表，显示每天的twitter活动。要做到这一点，我需要合并所有的“创建在”行，因此每一行只有一个数据，而且每个日期都有分配给它的“总约定”。以下是数据：到目前为止，我尝试过这样做，但似乎无法使分组工作。我对数据进行了变异，以获得一个新的“完全投入”专栏： lgbthm_data_2 <- lgbthm_data %>% mutate( total_engage = favorite_count + retweet_count ) %>% 然后我试着把日期合并： on

浏览 9提问于2022-04-04得票数 0

1回答

根据数据帧中的其他值，按组选择顶部n个值

r、dataframe、dplyr、tidyverse、top-n

一般来说，我对r和编码都很陌生。你的帮助将不胜感激:) 我试图根据数据帧中的其他值(在下面名为factor)按组选择n个值。然后，对选定的值进行分组汇总，计算平均值(d100)。我的目标是为每个组获得一个d100值。 (背景:在林业中，有一个名为d100的指标，它是每公顷最茂密的100棵树的平均直径。如果采样区域的大小小于1ha，则需要相应地选择较少的树来计算d100。这就是原因所在。) 首先，我尝试将factor作为自己的专栏放在数据框架中。然后我想，也许有一个“查找表”之类的东西会有帮助，因为R说，n必须是一个单一的数字。但我不知道如何创建一个查找函数。(请参阅示例代码的最后一部分。)或者

浏览 2提问于2021-04-16得票数 3

1回答

R错误:需要单个值，这意味着什么？

r、dataframe、dplyr、summarization

我在R中使用dplyr做了一个简单的操作，得到了‘期望的单值’错误 test <- data.frame(a=rep("item",3),b=c("step1","step2","step3")) test%>%group_by(a)%>%(summarize(seq=paste0(b)) 我见过类似的线程，但这些用例更复杂，我不明白为什么这两行不能工作。

浏览 0提问于2017-04-04得票数 4

回答已采纳

2回答

是否有一种方法可以对列的特定行进行求和？

r、sum、rowsum

I有一个数据集(请参阅所附文件)，其中我希望根据特定的标准对数字列'tdiff‘进行求和，例如行(1 + 2)、行(3 + 4)，但不是行(11、12、13、14)。我试过了，但没有运气， xx<- chaPe [rowSums(1:2, 3:4, 11, 12, 13, 14, 15:16),] xx<- sum(chaPe $tdiff [c(1:2, 3:4, 11, 12, 13, 14, 15:16)],) 基本上，如果您查看列'xsampa'，只需要对'tdiff‘列中'p’和'A‘的数值进行求和。例如，预期结果为行

浏览 3提问于2020-10-17得票数 0

回答已采纳

2回答

按两列对数据进行分组和筛选分组(dplyr)

r、filter、group-by、dplyr

我有一个关于使用dplyr过滤数据集的问题。我想按其RestaurantID对数据进行分组，然后对wage >= 5在Year==1992中的所有组执行filter()操作。例如：我有： RestaurantID Year Wage 1 92 6 1 93 4 2 92 3 2 93 4 3 92 5

浏览 6提问于2017-12-19得票数 1

1回答

当R中有多个不正确的数据点时，选择最后一个值

r、data-cleaning

我有个数据清理的问题。数据收集发生了三次，有时数据输入不正确。因此，如果学生收集的数据超过一次，则需要复制最后一个数据点。下面是我的数据集，如下所示： df <- data.frame(id = c(1,1,1, 2,2,2, 3,3,3, 4), text = c("female","male","male", "female","female","female", "male","female","female&#

浏览 3提问于2022-09-12得票数 1

回答已采纳

1回答

如何在数据列表中使用group_by函数

r、data-wrangling

我正在尝试从数据文件列表中删除重复的行，并且只包括绝对最小的行(同时保留符号)。 gene log2 a 0.1 b 0.3 c -0.1 c 0.2 d -0.2 e -0.8 e 0.3 Desired output a 0.1 b 0.3 c 0.1 d -0.2 e 0.3 我理解group_by函数是有用的，并且似乎适用于单个df。 df1 %>% group_by(gene) %>%

浏览 0提问于2021-08-08得票数 0

回答已采纳

1回答

在R中采样具有多个级别的类别，并从每个类别中提取特定的样本大小

r、random、dplyr

我有以下数据集它包含3个字符变量(A、B、C)。变量A由13个级别组成，我想在每个类别中随机抽取大小为n=30的样本。最终的数据集，我希望包含所有行中的样本和合适的B。我试过了 data%>% group_by(B)%>% sample_n(size=30,replace = TRUE) 但是它不是work.Any帮助吗？

浏览 18提问于2021-09-11得票数 1

回答已采纳

1回答