子集dplyr结果

是指使用dplyr包中的subset函数对数据进行筛选操作后得到的结果。dplyr是一个在R语言中用于数据处理和操作的强大工具包，它提供了一组简洁且高效的函数，可以方便地对数据进行筛选、排序、汇总、变形等操作。

子集dplyr结果的分类主要有以下几种：

筛选行：可以根据某些条件筛选出符合要求的行数据。例如，可以使用subset函数根据某一列的取值进行筛选，比如筛选出年龄大于30岁的人员数据。
选择列：可以根据需要选择特定的列数据。使用select函数可以指定需要保留的列，同时可以对列进行重命名或创建新的计算列。
变形数据：可以对数据进行变形操作，例如使用mutate函数创建新的列，使用transmute函数创建新的数据框。
汇总数据：可以对数据进行汇总操作，例如使用summarize函数计算某一列的总和、平均值等统计量。

子集dplyr结果的优势包括：

简洁高效：dplyr提供了一组简洁且一致的函数，可以大大简化数据处理的代码，提高开发效率。
高度可读性：dplyr的函数命名和语法设计非常直观，易于理解和阅读，降低了代码的维护成本。
兼容性强：dplyr可以与其他R语言的数据处理和可视化工具包无缝集成，如ggplot2、tidyr等，提供了更加完整的数据分析解决方案。

子集dplyr结果的应用场景包括：

数据清洗：可以使用dplyr对数据进行筛选、变形、汇总等操作，清洗掉不需要的数据，提取出关键信息。
数据分析：可以使用dplyr对数据进行分组、排序、计算统计量等操作，进行数据分析和探索。
数据可视化：可以使用dplyr处理数据后，再结合其他可视化工具包，如ggplot2，进行数据可视化展示。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云云服务器（ECS）：提供弹性计算能力，满足各种规模和业务需求。详情请参考：https://cloud.tencent.com/product/cvm
腾讯云对象存储（COS）：提供安全、稳定、低成本的云端存储服务。详情请参考：https://cloud.tencent.com/product/cos
腾讯云数据库（TencentDB）：提供多种类型的数据库服务，包括关系型数据库、NoSQL数据库等。详情请参考：https://cloud.tencent.com/product/cdb

请注意，以上推荐的腾讯云产品仅供参考，具体选择应根据实际需求进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

在R中过滤数据帧时保持顺序

、、

我有一个数据集df，如下所示： df = structure(list(filename = c("df1.txt", "df2.txt", "df3.txt", "df4.txt"), project = c("alpha", "beta", "gamma", "delta"), lat = c(55.1852777777778, 52.6252777777778, 51.446272, 50.688111), long = c(7.15138888888889

浏览 2提问于2022-06-13得票数 1

回答已采纳

1回答

使用map()函数从列表中提取名称

、

通过使用以下代码，我已经有了一个包含dplyr中所有函数的列表。 content <- mget(ls("package:dplyr"), inherits = TRUE) dplyr_functions <- Filter(is.function, content) 我想得到的结果就像 names(dplyr_functions) 它将是一个chr向量，包含dplyr包中的所有函数名。但是当我使用map()函数时，我的代码如下所示： dplyr_name <- map_chr(dplyr_functions, names) 有个错误说， “结果1必须是单个字

浏览 3提问于2019-10-11得票数 1

回答已采纳

1回答

方法提取两列中的所有现有组合。

我为我的问题准备了一个简单的代码，因为原始数据量很大。 df <- data.frame(X=c(0,0,1,1,1,1),Y=c(0,0,0,0,1,1),Z=c(1.5,2,5,0.7,3.5,4.2)) 我正在尝试提取列X和Y中所有实际存在的组合。因此，预期的结果将是(0,0)，(1,0)，(1,1)。但是，如果我使用expand.grid，它将以数学方式返回所有可用元素0和1的组合。所以我的问题是如何在两个不同的列中只提取实际存在的组合？欢迎提出任何意见！

浏览 0提问于2020-02-26得票数 0

2回答

将R中数据帧中某列的“NA”值替换为同一数据帧中另一列中的值

、、、

我是R编程的新手。我读了一个csv文件。我想将某列中的某些'NA‘值替换为来自其他列的同一行中的值。因此，我编写了一个“if语句”，如下所示，但不是只替换“NA”值，该列中的所有值都将替换为另一列中的值。这里到底出了什么问题？欢迎任何帮助。数据看起来像这样 Group Skill A1 ABC A1 ABC A1 ABC A1 ABC A1 A1 A1 A1 期望的结果是 Group Skill A1 ABC A1 ABC A1 ABC A1

浏览 1提问于2018-10-30得票数 0

1回答

在两个数据帧之间找到相同的配对值

我使用R来识别数据帧的两列中的配对值，这些值与另一个数据帧的两列中的配对值相同。我以为我找到了解决办法，但结果与我所期望的不太一样，我想知道是否有人能解释原因。 df1看起来是这样的： Col1 Col2 Col3 A 1000 5 A 1500 10 A 2000 15 A 2500 20 B 900 5 B 1200 10 B 1500 15 C 1000 5 C 1200 10 C 1700 15 C 2200 20 C 2250 22 df2包含与df1相同的内容，外加

浏览 2提问于2019-06-28得票数 1

回答已采纳

1回答

为什么max( df $date)可以工作，但是df %>% select(date) %>% max()会出现错误？

、、、

我正在处理包含日期字段作为字符的covid数据。我试图找到最大日期，然后尝试使用dplyr命令，这给了我错误：df %>% select(date) %>% max()。 Error in FUN(X[[i]], ...) : only defined on a data frame with all numeric variables 作为max(df$date)，它运行得很完美，给了我结果：[1] "2020-08-17"。我无法理解为什么会发生这种情况。这是数据的代码等等： library(flexdashboard) library(tidyverse)

浏览 3提问于2020-08-18得票数 0

2回答

R中的条件行选择

我有一个这样的df ? 我只想选择VALUE2和VALUE4重合的那些行。因此，在本例中，结果应该是： ? 在R中这样做是可能的吗？

浏览 16提问于2021-08-01得票数 1

回答已采纳

2回答

如何删除数据文件中所有列中具有相同元素的行？

、

我有一个包含以下元素的dataframe： > x[3536:3540,] V1 V2 3536 2 6 3537 13 6 3538 9 6 3539 6 6 3540 2 2 我希望删除所有列中具有相同元素的行。我所期望的结果如下： > x[3536:3540,] V1 V2 3536 2 6 3537 13 6 3538 9 6 我试过这个： x<-x[,1] != x[,2] 但是，我只获得每一行的布尔值，而不是列中具有不相同元素的行的矩阵： > x [1] FALSE FALSE FALSE FALSE F

浏览 5提问于2022-04-03得票数 0

回答已采纳

2回答

如何用R编程对列值进行分组

、、

浏览 2提问于2017-02-28得票数 2

回答已采纳

2回答

我似乎不能计算我的项集的频率

、、、

我有一个事务数据，我正在尝试获取所有可能的组合的计数。我得到的问题是，它似乎过多地计算了我的组合。例如:给定以下项目集： A {1,2,3} B {1,2,3,4} 如果我想计算{1, 2，3}一起出现的次数，结果是计数为2，而不是我想要的1。以下面创建的虚拟数据为例 t1 <- data.frame(ID = c("A","A", "A", "B", "B", "B", "B"), num = c(1,2,3,1,2,3,4)) transactions<-split

浏览 7提问于2019-09-11得票数 0

1回答

转换R中变量列表的数据类型

我想将数据帧中的字符变量列表转换为数字格式。我使用了变换和LAPPLY函数。方法1 var <- c('year', 'age', 'days', 'visits') df <- lapply(var, function(x) {transform(df, x = as.numeric(x))} 方法2 var <- c('year', 'age', 'days', 'visits') for (i in 1:length(var)) {

浏览 2提问于2020-04-09得票数 2

回答已采纳

1回答

stringr::str_locate返回给定模式的第一次出现

、、

当我想要查找字符串中的子字符串的位置时，我有以下代码和结果。我认为返回值应该是3和1，但两个记录的返回值都是3。怎样才能得到正确的结果？我使用的是R3.5.3和stringr 1.4.0。 t1 <- tibble(x = c("aaded", "dedere")) t1 # A tibble: 2 x 1 x <chr> 1 aaded 2 dedere bb <- t1 %>% mutate(str_locate(x, "de")[1]) bb # A tibble: 2 x 2 x

浏览 0提问于2020-07-19得票数 1

1回答

如何从不同整数的列表中提取值(由列表定义)

、、、、

我想以不同的间隔从dataframe的列中提取值。间隔存储在列表中。有办法提取这个吗？列如下所示： 6211 6111 711 414 3211 3311 3411 3511 6211 6111 ... 清单是这样的： "2" "4" "2" "6" "15" "2" "9"... 现在，我想在df列上应用列表(列表定义了所需值之间的步骤。结果应该作为一个新变量存储在df中。由于缺少值，我们需要用NAs.These填充新列，应该将其存储在列表中定义的间隔

浏览 0提问于2019-04-02得票数 0

回答已采纳

2回答

如何从R中重复测量的数据集中提取“最后访问”的值？

、

假设我有一个具有重复测量的数据框架： >m id age diagnosis 1 4 0 1 7 1 1 9 0 2 6 1 4 9 1 4 10 0 诊断不是时间不变的。我怎样才能在最后一次就诊时提取诊断结果(最年长的年龄)才能得到这样的结果？ id age diagnosis 1 9 0 2 6 1 4 10 0

浏览 5提问于2015-09-10得票数 2

回答已采纳

2回答

用x以上的观测值按因子水平划分观测值

、、

我有一个数据集，其中一个因素有很多级别(+/- 140)，因此(我认为) lm函数失败： Error in `contrasts<-`(`*tmp*`, value = contr.funs[1 + isOF[nn]]) : contrasts can be applied only to factors with 2 or more levels 我想做的是子集lm-函数，只使用比x观测值更多的因子级别。例如，该data.table有一个因子(some_NA_factor)，对于该因子，级别1, 2 , 4, 5有17个观测值，而级别3有16个。我想直接(在lm-functio

浏览 0提问于2019-08-14得票数 2

回答已采纳

1回答

如何有效地对列表中的大型data.frame对象进行子集？

、、、

我在列表中有data.frame对象，我将根据每一列的最后一列(A.K.A，分数)过滤掉。对我来说，列表的子设置是直观的，但我希望有两个不同的集合(即传递/失败)，这是对每个data.frame对象过滤的结果。我认为我使用的方式是不优雅的，并寻求更好/有效的解决方案。有人能告诉我如何为这类任务找到更优雅的解决方案吗？非常感谢！玩具数据： mylist <- list(df1=data.frame( from=seq(1, by=4, len=16), to=seq(3, by=4, len=16), score=sample(30, 16)), df2=d

浏览 0提问于2016-09-21得票数 4

回答已采纳

1回答

摘要一种细分模式

我得到了一个可以扩展的脚本，而且我经常看到这种模式： newdf <- df[ which(df$someCol %in% c(values...)), ] 经过一段时间的困惑之后，我发现它是基于列中存在的值来设置数据集的。为了使代码更容易阅读，我想把它抽象成一个函数。如下所示： subset_column.vals <- function(x, col, selectors) { return(x[which(x$col %in% selectors),]) } 但是函数总是返回0行的数据帧。即使在函数外部具有相同输入的表达式返回预期结果时也是如此。有人知道出了什么问题吗？

浏览 1提问于2016-01-28得票数 0

回答已采纳

1回答

根据某一值，是否有任何函数可以拆分R中的数据？

、、

我想创建一个具有以下条件的新表:所有在transition=13-14中的数据都是size_age=j。

浏览 2提问于2022-02-12得票数 0

1回答

如何在R中分组和选择最小值

假设以下数据 OriginId, OriginName, DestinationId, DestinationName,Time 1 , Origin 1, 1 , Destination 1 , 20 1 , Origin 1, 2 , Destination 2 , 25 2 , Origin 2, 3 , Destination 3 , 14 2 , Origin 2, 4 , De

浏览 0提问于2015-12-09得票数 2

回答已采纳

2回答

在R中使用聚合函数进行t检验

、

我很难用不成对的t检验和聚合函数。示例 dd<-data.frame(names=c("1st","1st","1st","1st","2nd","2nd","2nd","2nd"),a=c(11,12,13,14,2.1,2.2,2.3,2.4),b=c(3.1,3.2,3.3,3.4,3.1,3.2,3.3,3.4)) dd # Compare all the values in the "a" column that match wit

浏览 1提问于2014-07-01得票数 1

回答已采纳

1回答

如何系统地处理R中长格式数据中的缺失值

、、、

我有不同年份的个人收入数据，数据框架类似于： case.id <- c(1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3,3,4,4,4,4,4,4) years <- c(1998,2000,2002,2004,2006,2008,1998,2000,2002,2004,2006,2008, 1998,2000,2002,2004,2006,2008,1998,2000,2002,2004,2006,2008) income <- c(1100,NA,NA,NA,NA,1300,1500,1900,2000,NA,2200,NA, NA,NA,NA,

浏览 0提问于2016-05-26得票数 0

1回答

如何在数据框中选择最接近零(正负)的值

、、

我有这种df f <- data.frame(gene=c("gene1", "gene1", "gene2", "gene2", "gene2", "gene3","gene3", "gene3"), distance = c(10, -5, 40, -60, 0, -150, 5, -200)) 为了得到这个结果，我只想选择距离最接近零(但不是零)的基因 gene distance gene1 -5 gene2

浏览 19提问于2021-09-21得票数 0

回答已采纳

4回答

创建一个新列，其中包含R中字符串出现的总数

我想在一个新列(即: country_count)中指定一个值，表示特定字符串在我的数据框架中发生的时间(总计)。 country = c("DE", "FR", "FR", "FR", "NL","DE") data_frame =data.frame(country) 这将是结果数据框架。 country = c("DE", "FR", "FR", "FR", "NL","DE") country_c

浏览 6提问于2021-06-07得票数 1

回答已采纳

1回答

(频率)表中一行的箱形图

我有一个.csv文件形式的数据集(基本上是:人们对酒的选择与周围音乐播放的来源有关)。将其作为数据帧读取会导致如下所示的df： Music Wine 1 French French 2 Italian French 3 None Italian 4 Italian Italian 5 French Other ... 作为一个表，它看起来像这样： Wine Music Other French Italian French 35 39 1 None 4

浏览 14提问于2019-04-29得票数 0

回答已采纳

1回答

如何用R中的样本ID创建样本类型值差异的数据框架？

、、、

我想要为每个样本ID创建两种类型的样本之间的值差异的数据框架，问题是有些样本ID不具有这两种样本类型。我想我正在寻找一个for循环/条件语句，但是我没有成功地创建一个我在下面创建了一些示例数据： ID <- c(1,3,3,4,6,6,7,7,8,8) Type <- c('soil', 'soil', 'water','soil','soil', 'water','soil', 'water','soil', 'water

浏览 3提问于2020-10-10得票数 0

回答已采纳

1回答

无法从dataframe筛选空列值的行。

我有这样的数据： Note.Reco Raison.Reco DATE_SAISIE idpart 9 19/03/2014 102856992 1 always good 19/03/2014 102853645 8 very good service 19/03/2014 1072309 10 19/03/2014 191391 我试图筛选出raison.Reco列值

浏览 5提问于2017-03-13得票数 2

回答已采纳

1回答

将ggplot中的facet_wrap应用于列中的某些值

、、、

我写了一段代码： ggplot(mpg, aes(displ, hwy)) + geom_point() + facet_wrap(~drv) 下面是输出：如您所见，这里有三个方面，因为在列"dev“中有三种类型的值。现在，我想得到相同的图，但只有"f“和"r”两种类型。因此，它必须看起来完全像上面的一个，但没有第一个面"4“。我怎么能这么做呢？我试过了，但不起作用： ggplot(mpg, aes(displ, hwy)) + geom_point() + facet_wrap(~drv==c("f", "r&#

浏览 3提问于2020-08-18得票数 0

2回答

列中的子集数据转换为值或错误

我正在处理这个数据集- https://www.kaggle.com/volodymyrgavrysh/bank-marketing-campaigns-dataset 我正在尝试将一列中的整个数据子集，以便包括谁说是(最后一列'y') 如果我这样做，我会得到以下错误 bankyes <- bank[which(bank$y == 'yes')] Error in `[.data.frame`(bank, which(bank$y == "yes")) : undefined columns selected 如果我这样做，它会变成

浏览 24提问于2020-10-03得票数 1

3回答

R-过滤包含向量中字符串的行

、

浏览 3提问于2016-08-02得票数 11

回答已采纳

1回答

如何根据中心划分训练/测试数据集？

、、、

我有一个数据集，有3个预测因子(P1-P3)和1个响应变量作为结果(响应)。这些数据是从5个中心(200个ID)收集的。我将整个数据分为列车(70%)和测试(30%)。样本数据： ID Centers P1 P2 P3 Response ID1 Center1 12 1 1 Class1 ID2 Center2 73 1 3 Class2 ID3 Center3 56 2 1 Class1 ID4 Center1 44 1 3 Class2 ID5 Center4 33 1 1

浏览 0提问于2018-12-19得票数 0

回答已采纳

1回答

用glm函数中的特定值对数据进行细分

我需要研究2万元和40000元的具体收入开支。我的glm()可以工作，但是当我添加子集时，我会得到一个错误： glm(district21$expend ~ 1 + income, family = gaussian(link = "identity"),data = district21, subset = income == 20000) glm.fit中的错误(x=数值(0)，y= NULL，start = NULL，start = NULL，：object 'fit‘at )，此外:警告消息: 1:在glm.fit中(x=数值(0)，y=数值(0)，权重= N

浏览 3提问于2021-01-14得票数 0

1回答

在R中使用Shapiro检验的不同结果

、、

我有一个包含两个因素的独立样本t检验的大量数据，其中一个是性别。我想让它检查变量中每组的正态性，以决定下一步。因此，我采用了我在这个论坛中找到的以下脚本，并进行了一些修改。 for (i in 9:ncol(AF)) { print(names(AF)[i]) print(AF %>% group_by(Gender) %>% summarise(`W Statistic` = ifelse(sd(AF[, i])!=0, shapiro.tes

浏览 19提问于2021-08-20得票数 0

2回答

利用dplyr的流水线特性导出数据作为R中的data.frame对象

、

我在data.frame中有数据，我将尝试使用dplyr包的管道特性在R中执行很少的管道操作。例如，给定dataframe对象，我首先做子集，然后导出为csv文件格式。我正在研究dplyr包的特性，所以不能完全理解这一点。有什么帮助吗？下面是一个简单的可复制的模拟示例： a <- GRanges( seqnames=Rle(c("chr1", "chr2", "chr3", "chr4"), c(3, 2, 1, 2)), ranges=IRanges(seq(1, by=9, len=8), seq(7, by=9

浏览 2提问于2016-06-15得票数 1

回答已采纳

1回答

基于行中的不同数据创建新的数据帧

、、、

我正在将一个操作从Excel Power Query移到R，它的速度要快得多。结果是我有一个有数千行的数据框，然而，我希望创建一个样本数据框，其中包括15列的第5:10列的每个不同选项(因子级别)的一行，这样人们就可以手动测试每个选项(比如真值表？) 我可以手动做这件事，但我想知道我是否可以自动做。 col1 col2 col3 name option1 option2 name2 option1 option2 name3 option1 option2 name4 option2

浏览 0提问于2018-11-14得票数 0

2回答

如何根据另一个数据帧R (dplyr)从一个数据帧中选择行

、

我有两个数据框：df1和df2 ID <- c('PD1', 'PD1', 'PD2', 'PD2') run <- c('A1', 'A4', 'A6', 'A7') df <- data.frame(ID=ID, run =run) name <- c('n1', 'n1', 'n1','n1', 'n1', 'n1') run <-

浏览 3提问于2021-11-13得票数 0

回答已采纳

1回答

基于事件发生的数据集过滤

我有一些大型数据集(超过500,000行)，我想在R中过滤它，我只想保留最相关的信息，所以我认为只保存元素的出现大于某个值的行是个好主意。例如，我有以下数据： A B 2 5 4 7 2 8 3 7 2 9 4 2 1 0 我希望保留A行的元素出现大于1的行。在这种情况下，输出将是： A B 2 5 4 7 2 8 2 9 4 2 我知道如何使用for循环和重新绑定，但是由于我使用的数据集非常大，因此性能受到了很大的阻碍。有什么建议吗？

浏览 3提问于2015-10-09得票数 1

回答已采纳

1回答

as.formula函数调用，其中公式输入是闪亮的反应性对象

、、、

这件事困扰我很久了。我有一个函数，其中第一个参数要么是表单function(data~ group_variable)，要么是表单function(data, group = data$group_variable)。这个函数在控制台中运行很顺利，但它是我闪亮的应用程序的一部分，它困扰我很长时间了，因为数据和组都是用户选择的反应性对象，所以它需要采取如下形式： function(datasetInput() ~ !!input$group_variable)或其某些版本。我还没有找到任何组合的!!，enquo()，substitute()，as.function(substitute()

浏览 3提问于2020-10-21得票数 0

回答已采纳

3回答

如何在R语言sum()中添加函数

我有个数据： SampleName <- c(A,A,A,A,B) NumberofSample <- c(1,2,3,1,4) SampleResult <- c(3,6,12,12,14) Data <- data.frame(SampleName,NumberofSample,SampleResult) head(Data) SampleName NumberofSample SampleResult 1 A 1 3 2 A 2 6 3 A 3 12 4 A 1 12 4 B 4 14 我的想法是:当SampleResult <15 &&am

浏览 4提问于2018-06-04得票数 3

回答已采纳

1回答

R-从因素中选择元素

、、、

如果我有如下数据 a b 1 5 red 2 11 red 3 7 red 4 1 red 5 3 green 6 8 green 7 12 green 8 6 green 9 2 blue 10 9 blue 11 10 blue 12 4 blue 如何从每个因素中选择某个元素？例如，我怎样才能选择. 每种颜色的第三种元素。每种颜色的最小值。我想以数据形式显示结果，显示每种颜色的结果。像这样 result red 1 green 3 blue 2

浏览 2提问于2015-10-02得票数 2

2回答

选择具有特定ID值的数据帧行的最快方法是什么？

、、

现在我正在分析一些数据 row = dataset[dataset$id == id1,] 和 row = subset(dataset,id == id1) 其中所有id值都是整数。然而，在使用更大的数据集时，我取得了令人失望的缓慢结果。我有没有办法加快这个具体的任务？

浏览 2提问于2015-04-01得票数 0

回答已采纳

4回答

R按值选择，避免NA

、、、

我尝试通过值提取行。 col1 <- c("A", "B", "C", NA) df <- data.frame(col1) df$col1[col1 == "A"] 控制台中结果是 > df$col1[col1 == "A"] [1] "A" NA 但我当然只想要"A“如何避免R选择NA值？顺便说一句，我认为这种行为是非常危险的，因为很多人都会陷入这种陷阱，例如替换值、子集等。

浏览 0提问于2021-03-20得票数 2

1回答

条件变异但返回完整数据集的dplyr和filter

、、、

我一直在使用dplyr和filter创建一个基于几个因素的条件突变。然而，我不只是返回过滤的结果，我需要这个新列的长度与原始数据集相同。使用下面的示例数据:我希望为每个Result创建一个名为Condition的新列，并将行标记为"pass“，其中至少两个不同的Names的Value大于3，否则标签为"fail”。注意-我想用长格式保存数据。示例数据+我的工作： data <- tibble( Condition = c(rep("Apple", 20),rep("Banana", 20),rep("Cherry",

浏览 2提问于2022-01-17得票数 1

回答已采纳

2回答

用r中的索引替换多列数据帧

、、、、

我正在尝试用索引替换一个大型数据框中的多列。到目前为止，我想要/已经完成的工作是将this post和this post结合起来。为了清楚起见，让我提供示例。以下是采用dput格式的简化示例数据： DF <- structure(list(Fruits = structure(c(1L, 3L, 4L, 2L), .Label = c("Apples", "Avocado", "Oranges", "Pineapple"), class = "factor"), Weight2 = c(20L, 15

浏览 18提问于2020-04-18得票数 1

回答已采纳

2回答

如何对与R中另一列中的重复项相关联的列中的值求和？

我在R中工作，我有一个出租车数据帧，我已经按车辆id排序，然后是时间戳(从最早到最晚)，所以它看起来如下所示： Taxi = arrange(Taxi, Taxi$vehicle_id, Taxi$timestamp) Excel中数据框示例的图像您会注意到"distance“列涵盖了每辆出租车的每次行程之间的距离。我想使用一个公式来计算每辆出租车的距离之和。同样，我将在时间戳上重复此过程，从最早日期减去最新日期，以计算每辆车的上路时间。我希望同时使用距离总和和时间差来计算每辆出租车的速度。因此，最终的乘积将是一个矩阵，如下所示(等待转换为米和秒)： Excel中的最终产品

浏览 0提问于2016-01-29得票数 1

1回答

如何通过只读入包含数值数据的数据集的列来执行PCA？

、、

我正在尝试执行每月温度的PCA，但我得到的数据集包含的列比每月的数据多。如何仅读取月份列来执行PCA？这是我到目前为止所拥有的一切： dat_TEMP=read.table("TEMPERATURE.csv",header=TRUE, sep=";", dec=",",row.names=1) attach(dat_TEMP) df=data.frame(January,February,March,April,May,June,July,August,September,October,November,December) dat.pca=pr

浏览 0提问于2017-04-06得票数 0

1回答

R中具有重复恒等式的高效子数据

、、

假设我有以下数据并应用第一个筛选器 A <- (5:24) B <- (10:29) data <- data.frame(A,B) data$C <- rep(1:((length(A)/2))) data2 <- subset( data, B < 26) 现在我想进一步减少数据，以便只保留重复的C值的情况。我使用了以下代码： data3 <- subset(data2, (summary(as.factor(C))) == 2) 是否可以使用pmatch()或其他有效的方式？

浏览 2提问于2015-01-15得票数 1

回答已采纳

1回答

对于每一行，如何计算一个组的“前一个”平均值？

、

我有一个数据帧，看起来像这样： df = data.table(type=rep(x=LETTERS[1:2], each=4),year=list(2009,2010,2013,2016,2003,2005,2009,2015), outcome = list(1,2,1,4,3,1,5,3)) type year outcome 1: A 2009 1 2: A 2010 2 3: A 2013 1 4: A 2016 4 5: B 2003 3 6: B 2005 1 7

浏览 0提问于2016-09-10得票数 0

1回答

如何选择R中满足参数的N个资产数

、

我想选择4种资产，其BETAdn列之和为0。大型矩阵称为ALPHABETA &我运行以下命令以获得满足sum to zero参数的资产子集。 AB <- subset(data.frame((ALPHABETA)), BETAdn+BETAdn >= -0.01 & BETAdn+BETAdn <= .01) 上面的代码返回以下内容： AB <- structure(list(ALPHAdn = c(0, -2e-04, -2e-04, -0.002, 0.0129, -0.0071, 7e-04, -0.0019, -2e-04, -2e-04, -

浏览 1提问于2015-01-30得票数 0

回答已采纳

3回答

使用dplyr()随机删除重复行

、

作为这个问题的后续问题：，我有以下问题：如何使用dplyr() (以及其他方法)随机删除重复行？我现在的命令是： data.uniques <- distinct(data, KEYVARIABLE, .keep_all = TRUE) 但是它返回KEYVARIABLE的第一次出现。我希望这种行为是随机的:所以在1和n之间发生的KEYVARIABLE之间的任何地方。例如： KEYVARIABLE BMI 1 24.2 2 25.3 2 23.2 3 18.9 4 19 4 20.1 5 23.0 目前，我的命令返回： KEYVARIABLE BMI 1 24.2 2 25.3 3

浏览 3提问于2017-08-21得票数 6

回答已采纳

1回答

R滤波器中的子集(来自dplyr)给出了不同的结果

、

我想知道您是否可以分享您对我在R中的以下问题的见解:我正在做一项涉及以下数据集的作业：问题要求只考虑此数据集中的特定日期的数据，第一个问题是绘制直方图。以前，我在R中使用了下面的代码，我得到的结果有3121个观察结果。 ...data操作步骤，然后是： data2 <- data1[(data1$DateTime >= "2007-02-01 00:00:00" & data1$DateTime <= "2007-02-03 00:00:00"), ] 在了解了dplyr之后，我回到了同一个问题，以确保使用dplyr获得相同的结果。然

浏览 2提问于2021-02-02得票数 1

回答已采纳