group_by - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

group_by()和split()函数的运用

group_by()和split()函数的运用考虑下面一种情形，要根据 "drug" 列中的相同值提取出对应的 "molecules"，并将 "molecules" 对应的值按每个 "drug" 分组，...可以使用 dplyr包中的 group_by()和 summarize()函数，或者直接使用 split()函数来达到目的方法一：library(dplyr)# 使用 group_by() 和 summarize...() 创建每个 drug 对应的 molecules 列表result % group_by(drug) %>% summarize(molecules_list = list...用着两种方法也能实现方法一：# 使用 group_by() 和 group_split() 创建每个 drug 对应的数据框result_list % group_by(drug

2150 0

R语言分组计算，不止group_by

目录 1 dplyr包中的group_by联合summarize 1.1 group_by语法 1.2 summarise语法 1.3 group_by和summarise单变量分组计算 1.4...group_by和summarise多变量分组计算 2 ddply 2.1 ddply语法 2.2 ddply分组计算示例 3 aggregate 3.1 aggregate语法 3.2 aggregate...$ carb: num 4 4 1 1 2 1 4 2 2 4 ... 1 dplyr包中的group_by联合summarize 1.1 group_by语法 data为数据集 ...为分组变量...，可以是一个也可以是多个，多个的话以逗号分割group_by(mtcars, vs, am) 1.2 summarise语法 data为数据集，如果data被group_by定义分组，则根据分组变量分组计算...和summarise多变量分组计算示例 > mtcars %>% group_by(vs, am) %>% summarise(n = n()) # A tibble: 4 x 3 # Groups:

8.4K5 0

您找到你想要的搜索结果了吗？

是的

没有找到

分组统计你只想到group_by操作吗？

目录 1 dplyr包中的group_by联合summarize 1.1 group_by语法 1.2 summarise语法 1.3 group_by和summarise单变量分组计算 1.4...group_by和summarise多变量分组计算 2 ddply 2.1 ddply语法 2.2 ddply分组计算示例 3 aggregate 3.1 aggregate语法 3.2 aggregate...$ carb: num 4 4 1 1 2 1 4 2 2 4 ... 1 dplyr包中的group_by联合summarize 1.1 group_by语法 data为数据集 ...为分组变量...，可以是一个也可以是多个，多个的话以逗号分割group_by(mtcars, vs, am) 1.2 summarise语法 data为数据集，如果data被group_by定义分组，则根据分组变量分组计算...和summarise多变量分组计算示例 > mtcars %>% group_by(vs, am) %>% summarise(n = n()) # A tibble: 4 x 3 # Groups:

1.1K3 0

R语言包_dplyr_2

(month, day) %>% slice(1:3) # sample three rows from each group flights %>% group_by(month, day) %>%...sample_n(3) # keep three rows from each group with the top dep_delay flights %>% group_by(month, day...) %>% top_n(3, dep_delay) # also sort by dep_delay within each group flights %>% group_by(month, day...(month) %>% tally() flights %>% count(month) # you can sort by the count flights %>% group_by(month)...(month) %>% group_size() # n_groups() simply reports the number of groups flights %>% group_by(month

7704 0

R代码|dplyr包的使用示例

--------------------------------------------------- df %>% mutate(x_category = classify(x)) %>% group_by...(A, B) %>% summarise(min_c = min(C), max_c = max(C)) df2 %>% group_by(A, B) %>% summarise(min_c =...min(C), max_c = max(C)) %>% summarise(max_diff = max(max_c - min_c)) df2 %>% group_by(A, B, D) %>%...summarise(min_c = min(C), max_c = max(C)) df2 %>% group_by(A, B, D) %>% summarise(min_c = min(C)...(x_category) %>% mutate(mean_x = mean(x)) %>% group_by(y_category) %>% mutate(mean_y = mean(y))

1.8K3 0

累积柱状图加误差棒

#每组分别计算不同mismatch的标准偏差及坐标 library(tidyverse) E_A = x %>% filter(Type == "E",primer=="A") %>% group_by...for_sd=unlist(c(100,E_A[2,2],E_A[2,2]+E_A[3,2]))) E_B = x %>% filter(Type == "E",primer=="B") %>% group_by...unlist(c(100,E_C[2,2],E_C[2,2]+E_C[3,2])) ) EK_A = x %>% filter(Type == "EK",primer=="A") %>% group_by...=unlist(c(100,S_A[2,2],S_A[2,2]+S_A[3,2])) ) S_B = x %>% filter(Type == "S",primer=="B") %>% group_by...unlist(c(100,S_B[2,2],S_B[2,2]+S_B[3,2])) ) S_C = x %>% filter(Type == "S",primer=="C") %>% group_by

1.7K4 1

R语言包_dplyr_1

有5个基础的函数： - filter - select - arrange - mutate - summarise - group_by (plus) 可以和databases...table grouped by Dest, and then summarise each group by taking the mean of ArrDelay flights %>% group_by...# for each carrier, calculate the minimum and maximum arrival and departure delays flights %>% group_by...%>% arrange(desc(flight_count)) # rewrite more simply with the `tally` function flights %>% group_by...count the total number of flights and the number of distinct planes that flew there flights %>% group_by

1.1K2 0

巧用R语言中各类聚合窗口函数

下面举例说明一下，计算每位客户消费总额以及按照购买时间的顺序累计消费总额：消费总额： data1 %>% group_by(user_no) %>% mutate(sum_amt =...按照购买时间计算每位客户的累计最小消费金额： data1 %>% group_by(user_no) %>% mutate(cuminamt = order_by(buy_date, cummin(...按照购买时间计算每位客户的累计最大消费金额： data1 %>% group_by(user_no) %>% mutate(cumaxamt = order_by(buy_date, cummax(...按照购买时间计算每位客户的累计平均值 data1 %>% group_by(user_no) %>% mutate(cumeanamt = order_by(buy_date, cummean(amt...5 n函数 R语言中的n函数与sql中的count函数相同，计算每组内记录总数：历史上每位客户的消费次数 data1 %>% group_by(user_no) %>% mutate(cnt

2.4K2 0

kaggle案例重复：科比的投篮选择之二

-na.omit(shots) dim(shots) library(ggplot2) library(tidyverse) library(gridExtra) 不同进攻方式的投篮命中率这里用到 group_by...Accuracy counts 1 A 1.33 3 2 B 5.00 3 shots%>% group_by...每个赛季的命中率 shots%>% group_by(season)%>% summarise(Accuracy=mean(shot_made_flag))%>% ggplot(aes(x=...两分球和三分球命中率 shots %>% group_by(season) %>% summarise(TwoPoint=mean(shot_made_flag[shot_type=="2PT...不同的对手两分球三分球命中率 shots %>% group_by(opponent) %>% summarise(TwoPoint=mean(shot_made_flag[shot_type=

6921 0

【R语言】dplyr对数据分组取各组前几行

BiocManager::install("dplyr") #加载dplyr包 library(dplyr) 我们先来看看直接head的效果 #直接head，结果不对 GO_result %>% group_by...(ONTOLOGY) %>% head(n = 5) 虽然，我们使用了group_by进行了分组，但是head并没有应用到三个分组上面，而是直接应用到了整个数据框上，事与愿违。...接下来我们来看正解方法一、通过do来执行 #通过do来执行 r1=GO_result %>% group_by(ONTOLOGY) %>% do(head(., n = 5)) r1 可以看到15条结果...，三类都有方法二、使用top_n #使用top_n r2=GO_result %>% group_by(ONTOLOGY) %>% top_n(n=-5,wt=p.adjust) r2 这里可以使用...) %>% group_modify(~ head(.x, 5)) r5 方法六、使用filter #使用filter r6=GO_result %>% group_by(ONTOLOGY) %>%

2.1K2 1

内容补充---单细胞轨迹分析（SCP）

, show_column_names = TRUE)print(ht$plot)PAGA analysispancreas_sub group_by...plot_type = "stream")Differential expression analysispancreas_sub group_by...= "CellType", fc.threshold = 1, only.pos = FALSE)VolcanoPlot(srt = pancreas_sub, group_by = "CellType...width = 4)print(ht$plot)Enrichment analysis(over-representation)EnrichmentPlot( srt = pancreas_sub, group_by..."GO_BP", species = "Mus_musculus", DE_threshold = "p_val_adj group_by

1502 0

R海拾遗_再谈非标准评估

概述老话题重谈 gogogo 从一个错误开始 grouped_mean <- function(data, group_var, summary_var) { data %>% group_by...summary_var) { group_var <- enquo(group_var)# 引用 summary_var <- enquo(summary_var)# 引用 data %>% group_by...打开 library("dplyr") by_cyl % group_by(!!...summary_var) { group_var <- enquo(group_var) summary_var <- enquo(summary_var) data %>% group_by...group_var <- sym(group_var)# 代替了enquo summary_var <- sym(summary_var)# 代替了enquo data %>% group_by

7802 0

dpois函数_frequency函数

delay = mean(dep_delay, na.rm = TRUE)) #> # A tibble: 1 x 1 #> delay #> #> 1 12.6 除非我们将它与group_by...例如，如果我们将完全相同的代码应用于按日期分组的数据框，我们会得到每个日期的平均延迟： by_day group_by(flights, year, month, day) summarise(by_day...5.6.1 通过管道连接多个操作符想要探索每个位置的距离和平均延迟之间的关系，可以编写如下代码： by_dest group_by(flights, dest) delay %： delays % group_by(dest) %>% summarise( count = n(),...(Hint: think about flights %>% group_by(carrier, dest) %>% summarise(n())) 6.

2K1 0

巧用R语言中常见的各类偏移窗口函数

，lead(column,n)获取当前数据行按照某种排序规则的下第n行数据的某个字段：例如，计算每位客户购买时间之间的时间间隔，故先在当前购买时间后面添加下次购买时间： data1 %>% group_by...然后添加一个新的字段：两个时间相减 data1 %>% group_by(user_no) %>% mutate(lead_date = lead(buy_date, 1, order_by...例如计算每个客户消费金额的环比变化： data1 %>% group_by(user_no) %>% mutate(lead_amt = lead(amt, 1, order_by =...例如：获取每位客户当前购买时间的上一次时间： data1 %>% group_by(user_no) %>% mutate(lag_date = lag(buy_date, 1, order_by...first函数和last函数，first函数是取某个字段的最早记录，last函数取某个字段的最晚记录，而nth是取某个字段的第n个记录：例如取每位客户的第二次购买时间： data1 %>% group_by

6.8K1 0

跟着Molecular Systems Biology学作图：R语言ggplot2多图组合到一起

CC_Y1H_network") 整理数据的代码 binding_summary % select(Promoter_AGI, Target_Pathway) %>% unique() %>% group_by...network %>% select(TF_AGI, Promoter_AGI, Target_Pathway) %>% unique() %>% group_by...rename(num_int = n)) 这里遇到一个新的函数tally(),这个函数来自dplyr这个包，作用是统计每个元素出现的个数，比如用iris这个数据集做一个简单的演示 iris %>% group_by...black", size = "10")) panel_d num_path % select(TF_AGI, Target_Pathway) %>% unique() %>% group_by...(TF_AGI) %>% tally() numpathbar % group_by(n) %>% tally() panel_e <- ggplot(numpathbar

6642 0

R数据科学|3.7内容介绍及习题解答

示例如下：找出每个分组中最差的成员： flights_sml %>% group_by(year, month, day) %>% filter(rank(desc(arr_delay)) < 10...more rows, and 1 more variables: #> # air_time 找出大于某个阈值的所有分组： popular_dests % group_by...is.na(arr_delay)) %>% group_by(tailnum) %>% summarise(arr_delay = mean(arr_delay), n = n()) %>%...flights %>% group_by(hour) %>% summarise(arr_delay = mean(arr_delay, na.rm = TRUE)) %>% arrange...(dest, origin, carrier, flight) %>% summarise(arr_delay = sum(arr_delay)) %>% group_by(dest) %>%

4.2K3 2

tidyverse evaluation

也称作非标准评估代码 rm(list = ls()) library("tidyverse") library(rlang) # 在编写代码时遇到不同数据集或者不同变量的操作比如 iris %>% group_by...group_by(!!var_group) %>% summarise(!!varname:=mean(!!...var_group,varname, var_mean) { var_group <- enquo(var_group) var_mean <- enquo(var_mean) data %>% group_by...使用大括号 ## 大括号同时包含的转换表达式和求解表达式 group_mean <- function(data, var_group,varname, var_mean) { data %>% group_by...df %>% group_by(!!!group_var) %>% summarise(mean = mean(!!

6443 0

tidyverse|数据分析常规操作-分组汇总（sumamrise+group_by)

一 summarize汇总汇总函数 summarise()，可以将数据框折叠成一行 ,多与group_by()结合使用 1.1 summarise完成指定变量的汇总统计均值，标准差，最小值，个数和逻辑值...分组汇总 group_by() 和 summarise() 的组合构成了使用 dplyr 包时最常用的操作之一：分组摘要 2.1 按照Species分组，变量汇总 iris %>%...group_by(Species) %>% summarise(avg_pet_len = mean(Petal.Length), sd_pet_len = sd...iris %>% group_by(Species) %>% summarise( n_pet_len = n(), noNA_n_pet_len = sum...这使得 sum() 和 mean() 非常适用于逻辑值：sum(x) 可以找出 x 中 TRUE 的数量， mean(x) 则可以找出比例 . iris %>% group_by(Species

2.7K6 0

R数据科学|3.6习题解答

解答方法一 not_cancelled %>% count(dest) 方法二 not_cancelled %>% group_by(dest) %>% summarise(n = length...(dest)) 方法三 not_cancelled %>% group_by(dest) %>% summarise(n = n()) 问题三我们对已取消航班的定义(is.na(dep_delay...（提示：考虑一下flights %>% group_by(carrier, dest) %>% summarize(n())。）...解答延误情况最严重的航空公司： 1:3 + 1:10 flights %>% group_by(carrier) %>% summarise(arr_delay = mean(arr_delay,...is.na(arr_delay)) %>% group_by(origin, dest, carrier) %>% summarise( arr_delay = sum(arr_delay

3.9K3 0

跟着Nature microbiology学作图:R语言ggplot2堆积柱形图柱子单独配色多个图例排序

(df) 每一列单独统计频率 df %>% select(Phylum) %>% mutate(Phylum=str_replace(Phylum,"p__","")) %>% group_by..." ~ "Firmicutes", Phylum == "Proteobacteria" ~ "Proteobacteria", TRUE ~ "Others" )) %>% group_by...Bacilli", Class == "Gammaproteobacteria" ~ "Gammaproteobacteria", TRUE ~ "Others" )) %>% group_by...Christensenellales", Order == "Lactobacillales" ~ "Lactobacillales", TRUE ~ "Others" )) %>% group_by...Acutalibacteraceae", Family == "Bacteroidaceae" ~ "Bacteroidaceae", TRUE ~ "Others" )) %>% group_by

6545 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭