开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

用dplyr计算多变量分组时的变量占比

dplyr是一个在R语言中用于数据处理和数据操作的包。它提供了一组简洁而强大的函数，可以对数据进行筛选、排序、分组、汇总等操作。

在使用dplyr计算多变量分组时的变量占比时，可以使用group_by()和summarize()函数来实现。

首先，使用group_by()函数按照需要进行分组的变量进行分组。然后，使用summarize()函数结合mutate()函数来计算变量占比。

以下是一个示例代码：

library(dplyr)

# 假设有一个数据框df，包含两个变量var1和var2
df <- data.frame(var1 = c("A", "A", "B", "B", "C", "C"),
                 var2 = c("X", "Y", "X", "Y", "X", "Y"))

# 按照var1和var2进行分组，并计算变量占比
result <- df %>%
  group_by(var1, var2) %>%
  summarize(count = n()) %>%
  mutate(percentage = count / sum(count) * 100)

# 输出结果
print(result)

在上述示例代码中，首先使用group_by()函数按照变量var1和var2进行分组。然后使用summarize()函数计算每个组的数量，并使用mutate()函数计算变量占比。最后，将结果打印输出。

这样，我们就可以得到每个组的数量和相应的变量占比。

腾讯云提供了一系列云计算产品，其中与数据处理和分析相关的产品包括腾讯云数据仓库（TencentDB）、腾讯云数据湖（Tencent Cloud Data Lake）、腾讯云数据集成服务（Tencent Cloud Data Integration）等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息。

相关搜索:根据多列因子水平计算多个变量的占比 dplyr:忽略函数输入的分组变量 dplyr基于分组变量的行中位数使用分组变量计算多列中的值计算分组变量的总体sd R:如何按组计算变量占某个值的百分比？根据分组变量计算百分比 R Dplyr:按两个变量分组，并计算外部组的行数使用dplyr进行编程:间接控制分组依据的变量多类别分组变量的条形图按dplyr分组的多个二进制变量的频率/百分比 R dplyr按两个以上的变量分组，并计算每个第一个变量组内的相对百分比使用dplyr对选定变量进行分组的时间序列滞后使用dplyr计算两个向量/变量的运算时传播NA 如何使用dplyr对这些变量进行分组以生成分组的摘要？如何计算不同分组变量的合计？R:多个变量分组时如何比较单个变量的值对变量进行分组的百分比变化在dplyr中使用"contains“创建使用多列的指标变量如何在使用Dplyr::Group_by和Dplyr::Summarise时输出来自不同分组变量的摘要列表

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

数据处理|R-dplyr

dplyr包实现数据的清洗处理，包括数据整合、关联、排序、筛选、汇总、分组等。...Q：按品种分组，分别计算花萼宽度的均方差 summarise(group_by(iris,Species),sd=sd(Petal.Width)) 8）连接操作符 dplyr包里还新引进了一个操作符,%...抽样 sample_n()随机抽取指定数目的样本，sample_frac()随机抽取指定百分比的样本，默认都为不放回抽样，通过设置replacement =TRUE可改为放回抽样，可以用于实现Bootstrap...(x,y,by = NULL) #内连接，合并数据仅保留匹配的记录 by设置两个数据集用于匹配的字段名，默认使用全部同名字段进行匹配，如果两个数据集需要匹配的字段名不同，可以直接用等号指定匹配的字段名...，如， by = c("a" = "b")，表示用x.a和y.b进行匹配。

2K1 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

data.table可是比dplyr以及Python中的pandas还好用的数据处理方式。...data.table包提供了一个非常简洁的通用格式：DT[i,j,by]，可以理解为：对于数据集DT，选取子集行i,通过by分组计算j。...2、按条件行筛选从前用subset的方式进行筛选比较多， new=14,select=a:f) （1）单变量现在data.table与dplyr from_dplyr =...DT数据集按照x分组，然后计算v变量的和、最小值、最大值。（2）dplyr函数利用%>%（链式操作）来改进：链式操作是啥意思呢？...2016-11-28补充：留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用： data.table取列时，可以用data[,1,with=FALSE]取data的第一列

9.3K4 3

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

## #dplyr中基本函数 select——子集选取（筛选变量，列） select(Hdma_dat,pclass,survived) ##选择pclass变量 ?...lapply函数可以对每组数据都执行同样的算法。Split和lapply两者结合可以实现本案例。 2.由于分组后的数据可以复用，因此本算法比aggregate性能更高。...tapply 只对单字段分组适用，在进行双字段联合分组时其结果为二维矩阵，用户还需要进行复杂的处理才行，比如 tapply(orders$AMOUNT, orders[,c("SELLERID","CLIENT...可见order用法 subset()在数据集中非常好用，which是针对较小的数据筛选，比较低纬度的数据筛选时候可以用的。 subset=which+数据集操作 which=order+多变量运行。...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的

20.9K3 2

R语言数据处理：飞机航行距离与到达延误时间有什么关系??

数据分析有一半以上的时间会花在对原始数据的整理及变换上，包括选取特定的分析变量、汇总并筛选满足条件的数据、排序、加工处理原始变量并生成新的变量、以及分组汇总数据等等。...这一点，我想大部分使用EXCEL的童鞋都深有体会，写论文时，这么多的数据进行处理，手动汇总、筛选、变换，工作量实在是太大。...3.数据计算数据处理之后，就进入计算分析步骤啦。在这个环节，主要历经三个过程：数据分组（Split）：可以指定目标变量，将数据进行分组。...比如本次不同目的地的平行航行距离以及平均延误时间；组合结果(Combine)：将计算后的统计指标值与第一步当中对应的分组进行组合。...3.2 应用函数及组合结果我们使用dplyr包中的summarize()函数，进行数据统计指标的获取及组合。计算出不同目的地的平行航行距离以及平均延误时间。

3.1K4 0

用R处理不平衡的数据

数据列 Time: 该笔交易距离数据集中第一笔交易的时间（按秒计）。 V1-V28:用PCA获得的主成分变量。 Amount:交易金额。...检查非平衡数据通过下面的操作我们可以看到应变量的不平衡性：我们可以借助dplyr包中的group_by函数对Class的值进行分组： library(dplyr) creditcard_details...： [正样本和负样本的占比] 检查每小时的交易笔数要按填或者小时查看交易笔数，我们需要首先将日期标准化，并且根据每天的时间将一天划分为四等份。...检查PCA变量的均值为了发现数据异常，我们计算了V1-V28变量的均值并检查了每个变量的方差。从下图可以看到异常的交易数据（蓝点）具有更大的方差。...[正常记录和异常记录的方差] 数据切分在预测问题的建模当中，数据需要被切分为训练集（占数据集的80%）和测试集（占数据集的20%）。在数据切分之后，我们需要进行特征缩放来标准化自变量的范围。

1.7K5 0

scRNA｜ComplexHeatmap自定义单细胞转录组celltype-level 热图可视化

，通过subset.row函数指定待计算均值的基因。...函数，在之前的多个推文中scRNA分析|单细胞GSVA + limma差异分析-celltype分组？...celltype的sample/group 占比 indication 分组？...，信息非常多，这里简单介绍下热图，柱形图，点图，色块几种常见的注释方式，更多的相见官网About | ComplexHeatmap Complete Reference (jokergoo.github.io

1.7K3 2

R 数据整理（七：使用tidyr和dplyr处理数据框 2.0）

2.8 mutate 可以为数据框计算新变量，返回含有新变量以及原变量的新数据框： mutate(test, new = Sepal.Length * Sepal.Width) > head(test,...summarize(test, mean(Sepal.Length), sd(Sepal.Length)) 在有多个变量需要汇总时，summarise 的格式就会比较罗嗦。...比如，需要对 cancer 数据集中 v0 和 v1 两个变量同时计算平均值和标准差: 显然，如果有许多变量要计算不止一个统计量，就需要人为地将每一个变量的每一个统计量单独命名。...avg = ~mean(.), std = ~sd(.)), na.rm=TRUE) %>% knitr::kable() 其中的变量子集也可以用序号范围表示，或者用 vars() 函数写成不加撇号的格式...3 Quebec Qn3 7 4 Quebec Qc1 7 5 Quebec Qc3 7 6 Quebec Qc2 7 这里有个小问题，交叉分组计算频数后的结果仍按照外层分类变量

10.9K3 0

dplyr数据处理

(starts_with('Pop')) %>% View() 五、抽样抽样的函数使用起来比较容易，可以按照个数抽样，也可以按照百分比进行抽样。...mtcars %>% dplyr::sample_n(10) mtcars %>% dplyr::sample_frac(0.2) 六、创建新变量有时需要对已有变量进行重新计算，例如计算几列的和...，会某一列取对数，这样将生成新的变量，这个时候可以使用 mutate 函数。...()函数一起使用，可以进行分组统计。...分组统计：group_by()函数与 summarise()配合一起使用，可以进行分组统计。

1.5K1 0

从一件数据清洗的小事说起

这是一个类json格式嵌套的数据，其中存在两个变量，第一个变量是cusnum作为序号，第二个是一个类json的嵌套变量，里面以类jsno格式嵌套了很多变量。需要将这个数据集转换成如下格式： ?...然而大佬毕竟是大佬，用科学的态度做了实验并给出了结论： ?...其实这一期这么扯淡的讲这么多事情，只是为了说明一点，data.table真的有很好的性能，尤其在处理海量数据方面（在分组特别多的时候，相比dplyr和pandas有2x~10x的提升，来自官方文档）。...编程的效率最重要的来自于框架，框架如果一开始就不那么有效率，再怎么改进都是有限的。那么data.table的框架优秀在哪儿呢？ data.table之所以比dplyr要快，在于两者设计的哲学不同。...相较之下，data.table则通过把数据处理中最常见的“选取行”、“修改列”、“分组”三大操作通过dt[i,j,by]的语法统一了一起来。

6901 0

Matt Dowle 演讲节选（二）

Matt 接着想，如果我还想要将数据集按照特定变量分组呢？何不把分组这个命令也一块给整合进去？...虽然在dplyr包中可以用 pipe 符号%>%实现类似的功能，但是小伙伴不觉得用[进行 pipe 要显得 neat 很多么？最终，data.table诞生了。...在这个2012年（注意dplyr的最早版本在2016年！）的帖子中，一个用户需要处理以下数据集（这里只显示前6行） ? 他想首先按照gene_id分组，然后分别计算特定变量的极值和均值。...Matt 用 StackOverflow （全球最大的编程问答网站）的数据给出了答案：在过去的 7 天中，有 21 条关于 data.table 的问题没有被回答，占 19%；在过去的 30 天中...，有 85 条关于data.table的问题没有被回答，占 15.3%；所有关于data.table的历史问题中，1542条没有被回答，占 8.6%。

1.1K4 0

R语言之数值型描述分析

数值型变量的描述性统计分析本节将讨论数值型变量的集中趋势、离散程度和分布形状等。这里我们关注 3 个连续型变量：年龄（age）、母亲怀孕前体重（lwt）和婴儿出生时体重（bwt）。...cont.vars dplyr::select(birthwt, age, lwt, bwt) 接下来，先计算这 3 个变量的描述性统计量，然后按照母亲吸烟情况（smoke）分组考查描述性统计量。...例如，计算变量 age 的样本量、样本均值和样本标准差： length(cont.vars$age) mean(cont.vars$age) sd(cont.vars$age) 我们还可以用函数 sapply...summ(birthwt$bwt, by = birthwt$smoke) 用函数 summ( )输出的有序点图探索数值型变量的分布尤其是数据的密集趋势和异常值非常方便。...实际上，在第 3 章介绍的 dplyr 包里的函数 group_by( )和 summarise( )就能非常灵活地计算分组统计量。

2502 0

tidyverse：R语言中相当于python中pandas+matplotlib的存在

tidyverse就是Hadley Wickham将自己所写的包整理成了一整套数据处理的方法，包括ggplot2、dplyr、tidyr、readr、purrr、tibble、stringr、forcats...；查看数据时，不再会一行显示不下（会自动隐藏一部分，自带head）；有两种方式来创建tibble格式的数据： 1....4.6 分组: group_by # install.packages("dplyr") library(dplyr) 4.1 筛选: filter() #按给定的逻辑判断筛选出符合要求的子数据集...#key：将原数据框中的所有列赋给一个新变量key #value：将原数据框中的所有值赋给一个新变量value #…：可以指定哪些列聚到同一列中 #na.rm：是否删除缺失值 widedata 变量值拓展为字段的变量 #value：需要分散的值 #fill：对于缺失值，可将fill的值赋值给被转型后的缺失值 stocks <- data.frame( time = as.Date

4.2K1 0

R数据科学-1（dplyr）

那么就涉及到变量的提取。就会用到select函数，可以提取需要的变量。有一个好处就是，不修改原是数据。...# … with 22 more rows 3.数据-变量条件筛选 dplyr::filter()函数对上述新产生的变量的数据df，进行筛选。...new=mpg*cyl) df %>% dplyr::filter(am==1) df %>% dplyr::filter(am==1 & gear==4) 5.数据分组计算有时候，需要分组计算均值标准差...譬如，对不同gear计算mpg的均值及标准差。或者根据am及gear分组计算mpg均值标注差。...这时候就需要用到ifelse函数（转换成二分类变量），或者cut函数转换成多类别变量。

1.6K2 0

转载︱案例基于贪心算法的特征选择

本文转载于R语言中文社区，详情链接相关帖子转载︱案例基于贪心算法的特征选择用GA算法设计22个地点之间最短旅程-R语言实现 ————————————————————————————————...———————————————————————— greedy Algorithm Feature Selection 贪心算法（又称贪婪算法）是指，在对问题求解时，总是做出在当前看来是最好的选择。...KS值计算方法：将所有样本根据预测得分从低到高排序均分成N组，分别计算这N组的实际好样本数、坏样本数、累积好样本数、累积坏样本数、累积好样本数占比、累积坏样本数占比，差值。...其中，实际好坏样本数分别为该组内的好坏样本数，累积好坏样本数为该组累积的好坏样本数，累积好坏样本数占比为累积好坏样本数占总好坏样本数的比值，差值为累积坏样本数占比减去累计好样本数占比。...[,-1] data = data.frame(apply(data, 2, function(x) ifelse(is.na(x),median(x,na.rm = T),x))) # 剔除近似常量的变量

1.1K1 0

tidyverse

《R 数据科学》电子书：https://r4ds.had.co.nz/ tidyverse 包重构了 R 语言处理数据的语法，比默认的 R 函数更加方便，相当于一套新的语法，使用起来更加方便...tidyr 与 dplyr 包是用 R 语言中用来处理各种数据整合分析的包，可以说是 R 数据整合的“瑞士军刀”，tidyr 包负责将数据重新整合，dplyr 包可以完成数据的排序，筛选，分类计算等都等操作...tidyr 之前的版本主要包含以下几个重要函数： gather：宽数据变成长数据； spread：长数据变成宽数据； unite：将多列按指定分隔符合并为一列...简而言之：易阅读，方便用。数据的整理是一个从数据框的统计结构（变量与观察值）到形式结构（列与行）的映射。...稀疏矩阵与稠密矩阵在矩阵中，若数值为 0的元素数目远远多于非0元素的数目，并且非 0元素分布没有规律时，则称该矩阵为稀疏矩阵；与之相反，若非 0 元素数目占大多数时，则称该矩阵为稠密矩阵

1.7K1 0

R语言之 dplyr 包

# 当然如果想要用新变量替换原来的变量，只需把新变量命名为原来的变量名： mutate(birthwt, lwt.kg = lwt*0.4536) 5.使用 summarise( ) 计算统计量函数...summarise( ) 可以用于计算数据框中某个变量的指定统计量。...我们可以用函数 as_tibble( ) 将传统的数据框转换为 tibble，也可以用函数 as.data.frame( ) 将 tibble 转换成传统的数据框。...race = factor(race, labels = c("white", "black", "other"))) # 第二步把数据框 birthwt1 按照变量 race 分组，把分组后的对象命名为...birthwt.group； birthwt.group <- group_by(birthwt1, race) # 第三步对于分组对象 birthwt.group 计算各组中变量 bwt 的平均值

4502 0

一篇小短文助你打开数据可视化的任督二脉！

所以说geom_ploygon()所要显式声明的参数至少需要四个： data(地理信息数据框) long(经度简写) lat(维度简写) group(多边形分组变量) 即该图层至少需要这四个参数才能保证可以输出一张具有完成地理信息边界的地图出来...这个问题是个好问题，一语中的，确实，order变量十分重要，但是通常获取的地理信息文件中，order变量是已经按照group分组变量排序过的，即通常所用到的地理信息数据框中，所有的边界点经纬度信息，是先按...，是因为这里的对应关系可能是一一对应，也可能是一对多的关系，因为之前在讲述如何从json素材提取地理信息数据框已经讲述过原理，有些国家或者行政区仅有一个轮廓，而有些国家或者地区有多个地理上相互分离的领土...通常只需追加一句代码： dplyr::arrange(mymapdata,group,order) 即先按照group分组，组内按照order排序，这样既可保证最终的数据是符合几何图层映射规则，...（但是只这样往往是不可取的，因为轮廓线颜色色彩占比太少，不利于肉眼识别，区分度不高） ggplot(data=world_map)+ geom_polygon(aes(x=long,y=lat,group

1.4K4 0

tidyverse|数据分析常规操作-分组汇总（sumamrise+group_by)

，一分多，多合一 Tidyverse| XX_join ：多个数据表（文件）之间的各种连接本次介绍变量汇总以及分组汇总。...一 summarize汇总汇总函数 summarise()，可以将数据框折叠成一行 ,多与group_by()结合使用 1.1 summarise完成指定变量的汇总统计均值，标准差，最小值，个数和逻辑值...: any(), all() 1.2 , summarise_if完成一类变量的汇总 iris %>% summarise_if(is.numeric, ~ mean(., na.rm...group_by() 和 summarise() 的组合构成了使用 dplyr 包时最常用的操作之一：分组摘要 2.1 按照Species分组，变量汇总 iris %>% group_by...50 19 #3 virginica 50 50 20 除此之外，还可以用dplyr

2.5K6 0

分组统计你只想到group_by操作吗？

最近在研究excel透视图，想到好像自己在R-分组操作并不是很流畅，顺便学习分享一下。R自带数据集比较多，今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算（操作）。...目录 1 dplyr包中的group_by联合summarize 1.1 group_by语法 1.2 summarise语法 1.3 group_by和summarise单变量分组计算 1.4...分组计算示例 3.3 aggregate分组计算补充（formula形式） 4 splite ---- 正文首先给大家看一下mtcars数据集的基本情况，data.frame类型，32个观测对象，11...$ carb: num 4 4 1 1 2 1 4 2 2 4 ... 1 dplyr包中的group_by联合summarize 1.1 group_by语法 data为数据集 ...为分组变量...Useful functions拓展中英语不解释了，应该懂得 1.3 group_by和summarise单变量分组计算示例 > library(dplyr) #加载dplyr包 > by_cyl <-

9943 0

R语言学习 - 柱状图

柱子有点多，也可以利用mean±SD的形式展现首先计算平均值和标准差，使用group_by按gene分组，对每组做summarize # 获取平均值和标准差 data_m_sd_mean 分组信息，位置计算就正确了 # position="fill" 展示的是堆积柱状图各部分的相对比例 # position="stack" 展示的是堆积柱状图的原始值 p <- ggplot(data_m...在柱子中标记百分比值首先计算百分比，同样是group_by (按照给定的变量分组，然后按组操作)和mutate两个函数(在当前数据表增加新变量) # group_by: 按照给定的变量分组，然后按组操作...获取平均值和标准差 # 分组时不只Gene一个变量了，还需要考虑Condition data_m_sd_mean % group_by(Gene, Condition) %>%..., 文本显示位置还是跟之前一致) # group_by: 按照给定的变量分组，然后按组操作 # mutate: 在当前数据表增加新变量 # 第一步增加每个组 (Group和Condition共同定义分组

2.6K5 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭