首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何让分位数与summarise_at和group_by一起使用(dplyr)

在使用dplyr包进行数据处理时,可以通过summarise_at和group_by函数结合使用来计算分位数。

首先,需要加载dplyr包:

代码语言:txt
复制
library(dplyr)

假设我们有一个数据框df,其中包含了需要进行分位数计算的变量x和需要进行分组的变量group:

代码语言:txt
复制
df <- data.frame(x = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10),
                 group = c("A", "A", "B", "B", "A", "A", "B", "B", "A", "A"))

现在,我们想要计算变量x的分位数,并按照group变量进行分组。可以使用以下代码实现:

代码语言:txt
复制
result <- df %>%
  group_by(group) %>%
  summarise_at(vars(x), list(q25 = ~quantile(., 0.25),
                             q50 = ~quantile(., 0.5),
                             q75 = ~quantile(., 0.75)))

在上述代码中,group_by函数用于按照group变量进行分组,summarise_at函数用于对变量x进行汇总计算。vars(x)指定了需要进行计算的变量,list(q25 = ~quantile(., 0.25), q50 = ~quantile(., 0.5), q75 = ~quantile(., 0.75))指定了需要计算的分位数,并为每个分位数指定了一个别名。

最后,将结果存储在result变量中。result将是一个包含了分组变量和计算的分位数的数据框。

这是一个使用dplyr包中的summarise_at和group_by函数计算分位数的示例。在实际应用中,可以根据具体的数据和需求进行相应的调整和扩展。

腾讯云相关产品和产品介绍链接地址:

  • 腾讯云计算服务:https://cloud.tencent.com/product/cvm
  • 腾讯云数据库服务:https://cloud.tencent.com/product/cdb
  • 腾讯云人工智能服务:https://cloud.tencent.com/product/ai
  • 腾讯云物联网服务:https://cloud.tencent.com/product/iotexplorer
  • 腾讯云移动开发服务:https://cloud.tencent.com/product/mobile
  • 腾讯云存储服务:https://cloud.tencent.com/product/cos
  • 腾讯云区块链服务:https://cloud.tencent.com/product/baas
  • 腾讯云元宇宙服务:https://cloud.tencent.com/product/3d
  • 腾讯云网络安全服务:https://cloud.tencent.com/product/ddos
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

tidyverse|数据分析常规操作-分组汇总(sumamrise+group_by)

,一多,多合一 Tidyverse| XX_join :多个数据表(文件)之间的各种连接 本次介绍变量汇总以及分组汇总。...一 summarize汇总 汇总函数 summarise(),可以将数据框折叠成一行 ,多与group_by()结合使用 1.1 summarise完成指定变量的汇总 统计均值,标准差,最小值,个数逻辑值...分组汇总 group_by() summarise() 的组合构成了使用 dplyr 包时最常用的操作之一:分组摘要 2.1 按照Species分组,变量汇总 iris %>%...当数值型函数一同使用时, TRUE 会转换为 1, FALSE 会转换为 0。...这使得 sum() mean() 非常适用于逻辑值:sum(x) 可以找出 x 中 TRUE 的数量, mean(x) 则可以找出比例 . iris %>% group_by(Species

2.4K60

R语言缺失值探索的强大R包:naniar

简介 缺失值在数据中无处不在,需要在分析的初始阶段仔细探索处理。在本次示例中,会详细介绍naniar包探索缺失值的方法理念,它ggplot2tidy系列使用方法非常相似,上手并不困难。...本次学习主要探讨3个问题: 开始探索缺失值 探索缺失值的机制 模型化缺失值 如何开始探索缺失值 当你面对新的数据时,可能首先会使用各种汇总函数查看数据的基本情况,比如: summary() str()...() 支持ggplot2的各种特性,比如labs: gg_miss_var(airquality) + labs(y = "Look at all the missing ones") 支持面的语法上面稍有不同...NA ## # … with 143 more rows 把数据框形式的缺失值数据原数据整合到一起:bind_shadow(): aq_shadow <- bind_shadow(airquality...函数,还可以group_by连用探索缺失值!

1.3K40

「R」数据操作(七):dplyr 操作变量汇总

然后,当你使用dplyr动词对分组的数据框进行操作时,它会自动进行分组计算。...()summarize()的联合使用是我们最常用的dplyr工具:进行分组汇总。...当你看到这种类型图时,过滤掉有很少数目的组别是很有用的,可以看到数据更多的模式更少的极端值。这正是下面代码做的事情,它同时展示了整合dplyrggplot2的一种手动方式。...9.66 #> 10 IND 9.46 #> # … with 94 more rows 等级度量 min(x),quantile(x, 0.25),max(x) 位数是中位数更通用化的一种形式...这sum()mean()变得非常有用,sum(x)可以计算x中TRUE的数目,mean()可以计算比例: # 多少航班在5点前离开 not_cancelled %>% group_by(year

2.5K20

如果伦敦地铁图是数据科学家画的……

1.完全忽略地理位置:使用“力导向图”决定站点的位置,实际地理位置信息不相关。 2.完全遵从地理位置:类似于原始早期的Beck地铁图,使用空间坐标将网络叠在伦敦地铁上。...鉴于已有的数据networkD3函数易于使用,这里不需要写太多复杂的代码。我们先加载库三个调整过的原始文件。...::group_by(station1) %>% dplyr::summarise(line = min(line)) colnames(connections_unique_lines1) <...: 因为stations 数据框有每个站点的空间坐标信息,画站点就十方便。...更厉害的是,合理的信息分布这一切都能被很好地呈现在一张小纸片上。 Harry的作品也被称为“世上最易识别最有影响力的交通地图”。

93030

R语言之数值型描述分析

对于数值型变量,如 age、lwt、plt、ftv bwt,函数 summary( )给出最小值、下四位数、中位数、均值、上四位数最大值;对于分类变量,如 low、race、smoke、ht...这里 smoke 是一个二类变量,我们在把它转换成因子时已经为其两个水平定义了标签:“no”“yes”。...psych 包里的函数 describe( )可以计算变量忽略缺失值后的样本量、均值、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、全距、偏度、峰度均值的标准误等。...实际上,在第 3 章介绍的 dplyr 包里的函数 group_by( ) summarise( )就能非常灵活地计算分组统计量。...例如: library(dplyr) birthwt %>% group_by(smoke) %>% summarise(Mean.bwt = mean(bwt), Sd.bwt = sd(bwt

18820

「R」dplyr 列式计算

❝在近期使用dplyr」 进行多列选择性操作,如 mutate_at() 时,发现文档提示一系列的 「dplyr」 函数变体已经过期,看来后续要退休了,使用 across() 是它们的统一替代品,所以最近抽时间针对性的学习翻译下...我们可以使用数据框汇总函数返回多列。 我们可以使用没有外部名称作为将数据框列解包为单独列的约定。 你如何转移已经存在的代码?...它们已经有选择语义,所以通常以 across() 不同的方式使用,我们需要使用新的 rename_with() 代替。...先前 filter() all_vars() any_vars() 帮助函数配对使用。...」 的开发者们通过 across() 简化了 「dplyr」 对于一些数据复杂操作的处理逻辑,提高了整体的学习使用效率,让我们使用者更关注于逻辑而非实现上。

2.4K10

R数据科学|3.6内容介绍

上节我们对选择现有的列使用mutate添加新列做了介绍。现在对数据框使用summarize()进行分组摘要进行介绍。...group_by() summarize()的组合构成了使用 dplyr 包时最常用的操作之一:分组摘要。...例如,如果对按日期分组的一个数据框应用上面完全相同的代码,那么我们就可以得到每日平均延误时间: by_day <- group_by(flights, year, month, day) summarize...四位距IQR()绝对中位差mad(x)基本等价,更适合有离群点的情况。 秩的度量:min(x)、quantile(x, 0.25)max(x) 位数是中位数的扩展。...,但如果想要使用加权平均方差的话,就要仔细考虑一下,在基于秩的统计数据(如中位数)上是无法进行这些操作的。

97820

「R」绘制分组排序点图

在 R 包中,我有看到过 maftools 中可以绘制这样的图,用来表示新的数据队列 TCGA 数据的比较,这也是应用于 TMB 分析。因为研究问题,我最近也想尝试使用改种图形来展示数据。...下面是一个使用示例,通过构建一个示例数据进行绘图,展示如何传入分组变量值变量、分组标签位置、排序以及点的透明度等: set.seed(1234) data <- data.frame( yval...使用 ggplot2 实现这个图我遇到了不少难点,在实现的过程中除了深入理解了 ggplot2,我也同时感受到了它的灵活限制。...我尝试过 geom_ribbon() geom_area() 来实现都不行。我最后使用了 geom_rect(),我是怎么保证矩形画出来的填充跟背景效果一致的?...::mutate(.order = dplyr::row_number()) %>% dplyr::group_by(.data$.gvar) %>% dplyr::arrange(.data

1.6K30
领券