对group_by()和dplyr使用ntile()

文章/答案/技术大牛

发布

1回答

、、、、

我想要计算data.frame中组的五分之一，如下所示： df <- data.frame(x=1:100, y=c(rep("A", 50), rep("B", 50))) 使用dplyr中的ntile()函数和group_by，我想我可以得到如下所示的分组的五分位数。我想要得到一个结果，在这种情况下，A和B的每个五分位都有10。df$z <- df %>% group_by(y) %>% mutate(

浏览 15提问于2019-12-18得票数 2

回答已采纳

2回答

根据组为每行分配十进制数

我有一个包含10,000个观察值的数据帧，并希望有一个新列，其中每一行都有相应的十进制数。十进制分布应按年分组。最好的方法是什么？1 2000 2.55118169 NA3 2000 0.16918905 NA5 2001 0.41027113 NA7 2002 -1.35901658 NA 8

浏览 2提问于2018-12-04得票数 0

1回答

在使用for循环时无法总结最小值和最大值

、、

70 220 025 45 1 140 40 230 130 2 160 1dt %>% mutate(dec=ntile(drop, n=2)) %>% filter(ch == 1) -> datcbld(drop, n=2)) %>%

浏览 0提问于2018-07-07得票数 1

回答已采纳

1回答

R中子群的联并

、、

我有市场，零售商和销售部的数据。我需要把每个市场内的零售商放入5分位数。

浏览 3提问于2020-05-13得票数 0

回答已采纳

1回答

R如何使用条件从dplyr执行findInterval或ntile

、、

下面是一个可重复使用的示例： tbl = tibble(profession = c(rep('doctor', 50), rep('professor', 75), rep('student', 75)), response = rnorm(200)) 我想实现的是这样的东西： tbl <- tbl %>% group_by(profession) %>% mutate(rank = ntile(10

浏览 13提问于2020-07-10得票数 1

回答已采纳

2回答

以编程方式使用purrr创建新变量？

、、

是否有人对如何使用purrr包来提高以下任务的效率提出建议？我需要为空间多边形数据中的记录分配五分之一个组。除了记录标识符之外，还有其他几个变量，我需要计算每个变量的五分之一个组。可复制示例图书馆和设置library(operator.tools) # %!::ntile(pop1990,5)) # Find the outliers for a different variable (e.g

浏览 7提问于2016-07-25得票数 2

回答已采纳

1回答

多元群的四分位数r均值

、、、

我使用以下代码基于一个变量(BE)创建了四分位数：现在我想看看每个变量的平均值(x1，x2我试图使用以下代码，但它给了我太多的信息，因为我只需要手段。如何编辑代码，使R只给我的手段？ Quantile_Testvar %>% split(.

浏览 4提问于2021-08-15得票数 0

回答已采纳

1回答

分组因素中的低分位数和上分位数

、、

我有一个包含两个分组变量grp1和grp2以及一个连续变量val的dataframe。我想在两个分组变量中修剪上下十层。3.2542891745 A f -0.554915077在分组变量中添加一个计数器：# counter within grouping factors x0 <

浏览 2提问于2015-03-18得票数 0

回答已采纳

2回答

按R中分组变量计算的十进制

、、、、

我专门寻找使用dplyr和lapply的方法。如果你能帮我个忙我会很感激的。尝试1set.seed(10)尝试2 我尝试用describe替换ntile，但是下面的代码给了我一个对我来说毫无意义的输出，因为列的数量不是10。,by=c(&quo

浏览 3提问于2017-02-10得票数 1

回答已采纳

1回答

如何在dplyr中应用基于ntile()-groups的变异？

、

我尝试过基于类似的questions查找答案作为tidyverse的新手，我有以下问题:如何使用dplyr估计每个ntile()的中位数 # Data data(lung) 首先 p <- lung %>% mutate(test=ntile(inst,3)) 所以现在 table(p$test) 76 76 75 我想估计每个p$test的中位数时间，即p$time 像这样的东西 p %>% mutate(test=ntile

浏览 16提问于2020-02-03得票数 2

回答已采纳

1回答

dplyr::ntile和statar::xtile之间的差异

、、

我的理解是，dplyr::ntile和statar::xtile正试图实现相同的目标。但有时输出是不同的：# [1] 1 1 2 2 3 3 4 4 5 5 # [1] 1 1 2 2 3 33 4 5 5 我正在将Stata代码转换为R，因此statar::xtile提供了与原始Stata代码相同的输出，但我认为dplyr::ntile在R中是等价的。dplyr</e

浏览 4提问于2017-02-20得票数 3

回答已采纳

2回答

使用pROC包发布计算AUC

、、、、

我试图使用一个函数，调用R中的pROC包来计算曲线下的面积，得到许多不同的结果。for function dplyr::rename(predictor_1 = Petal.Width) #

浏览 8提问于2021-12-08得票数 2

回答已采纳

1回答

使用ntile拆分成2个或3个组

、

我想使用dplyr包中的ntile来生成分位数的向量。当我要将数据划分到的组数很少时，就会出现问题。例如，如果我有一个由-1和1组成的向量，值-1应该在分位数1中，值1应该在分位数2中：index2 <- rep(c(-1,1,-1),each=4) 但是，使用ntile时，最后两个数据点位于错误的分位数(2而不是1) ntile(i

浏览 2提问于2017-03-15得票数 0

回答已采纳

1回答

使用R (dplyr)将梯田转换为二进制

、、、

data.frame (df)：1.2 2.2 3.3 4.4 5.2 2 7 3 4 6 我想用下面的代码在R中使用dplyr来创建B列的一个简单的组：library('dplyr')所以我从B栏中得到了三组：ntile(df$B,3)==1#group3 n

浏览 2提问于2014-08-28得票数 2

回答已采纳

1回答

在dplyr管道中取ntiles与bind_rows之间的差异

、、、

编辑：，我附加了实际数据，并重新解释了一些更好的：# A tibble: 6 x 3 <int> <date> <dbl> 1 1 2005-08-31 -2.39== '1'] - df$score[df$ntile == '5']，它计算ntiles之间的差异。=

浏览 5提问于2019-10-09得票数 2

回答已采纳

1回答

动态地改变不毛之地的顺序

是否可以使用如下所示的dplyr::ntile语句动态地更改ifelse的顺序？library(dplyr) y <- "asc" mutate(tile = ntile(ifelse(y == "asc

浏览 2提问于2021-06-03得票数 1

回答已采纳

1回答

在R中按组高效地分组数据

、

对于我的简单示例，这可以很好地工作： df %>% mutate(bucket = as.numeric(cut(value,%>% mutate(bucket = map2_dbl(value, breaks, ~cut(.x, breaks = unlist(.y), include.lowest = T))) 对如何优化这个有什么想法吗强烈倾向于将其保留在dplyr/tidyverse领域，尽管我对应用/data.table解决方案持开放态度

浏览 25提问于2019-01-24得票数 3

1回答

相等范围的()等价

、

例如，看一个向量，我可以这样做library(dplyrntiles <- ntile(vec, bins)如果有一种有效而干净的方法来做到这一点，我将不胜感激。data.frame( val = sample(1:100, 20) df_ntiles <- df %&

浏览 2提问于2022-08-09得票数 1

1回答

R中的分位数()函数

、

我在R中找到了两个用于计算十进制的线程，但是，dplyr::ntile和quantile()这两种方法都产生了不同的输出。事实上，dplyr::ntile()无法输出适当的十进制文件。方法1:使用来自线程的ntile()，我们可以使用ntile()。, 0.0208212839791787, NA, 0.0462887301644538, 0.0224952741020794, NA, NA, 0.000984952654008

浏览 2提问于2017-01-14得票数 20

回答已采纳

1回答

使用if语句和条件进行筛选: dplyr管道

、

对于有“太多”观察的观测，我只感兴趣于最上面的ntile，这就是为什么我按cosine_ntile分组并创建了更多的名为cosine_ntile_ntile的无标记。现在，我只对cosine_ntile_ntile中的1有兴趣，例如，如果观察的数量超过100。我尝试的是filter(total_obs > 100 & cosine_ntile_ntile == 1)，它没有提供所需的输出。如果total_obs大于100，则尝试过滤，然后

浏览 4提问于2019-10-12得票数 1

回答已采纳

点击加载更多