开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Dplyr摘要和group_by，但保留非数值变量

Dplyr是一个R语言中用于数据处理和操作的包，它提供了一组简洁且一致的函数，可以轻松地进行数据筛选、排序、汇总、变形等操作。而摘要（summary）和group_by是dplyr包中两个常用的函数。

摘要（summary）函数：摘要函数用于计算数据集的统计摘要信息，包括计数、均值、中位数、最小值、最大值等。它可以帮助我们快速了解数据的整体情况，发现异常值或者数据分布特征。
group_by函数： group_by函数用于按照指定的变量对数据集进行分组，以便进行分组操作和汇总计算。通过group_by函数，我们可以将数据集按照某个或多个变量进行分组，然后对每个组进行相应的操作，如计算每组的均值、中位数、总和等。

Dplyr在数据处理和操作方面具有以下优势：

简洁高效：dplyr提供了一组简洁一致的函数，使得数据处理和操作变得更加直观和高效。
高性能：dplyr使用了C++的底层实现，使得数据处理速度更快，尤其适用于大规模数据集。
易于学习和使用：dplyr的函数命名规范和语法结构都很规范，易于学习和记忆，使得数据处理变得更加简单和便捷。

Dplyr的应用场景包括但不限于：

数据清洗和预处理：通过dplyr的函数可以对数据集进行筛选、排序、去重、缺失值处理等操作，以便进行后续的分析和建模。
数据汇总和统计：使用dplyr的函数可以对数据集进行分组、汇总、计数、摘要等操作，以便进行数据分析和可视化。
数据变形和重塑：通过dplyr的函数可以对数据集进行变形、透视、合并等操作，以满足不同分析需求。
数据抽样和采样：使用dplyr的函数可以对数据集进行随机抽样、分层抽样等操作，以便进行数据分析和模型训练。

腾讯云提供了一系列与云计算相关的产品，其中与数据处理和操作相关的产品包括：

腾讯云数据仓库（TencentDB）：提供高性能、可扩展的云数据库服务，支持数据存储、查询、分析等操作。
腾讯云数据分析（Data Analysis）：提供数据分析和挖掘的云服务，支持数据清洗、建模、可视化等操作。
腾讯云大数据分析平台（Tencent Cloud Big Data）：提供大数据处理和分析的云平台，支持数据处理、机器学习、人工智能等操作。

你可以通过以下链接了解更多关于腾讯云相关产品的详细信息：

请注意，以上答案仅供参考，具体产品选择和推荐应根据实际需求和情况进行评估。

相关搜索:dplyr::group_by保留变量未分组如何在指定数值变量精度的同时，使用` `dplyr::distinct()`在数据框中保留唯一行？小数位数过多的Odoo货币舍入 rsync的排除不会根据模式排除吗？使用AutoGenerateColumns和Cellbackground的C# wpf数据网格 axios.post.then在所有其他操作之后都会被调用如何从数组中计算string类型的时间为什么xgboost在与mlr3一起使用时没有计算所有变量的重要性？Angular 9:上传图像时如何将HEIF文件格式转换为已知的web格式如何在类型上使用属性包装器来抽象单例？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

数据处理|R-dplyr

（列）更名变量名： Select & Rename head(select(iris,Sepal.W=Sepal.Width)) #只会保留选择的变量 4）数据排序（重要，大小，去除异常值） arrange...arrange(iris,Sepal.Length) # 将数据按照Sepal.Length升序排序 5）变量变换/重构 mulate()函数可以数据拓展，也可以在保留原变量的基础上增加变量，进行数据处理...计算一个或多个新列并删除原列 6）数据汇总 summarize()函数实现数据集聚合操作，将多个值汇总成一个值 summarise(iris,avg = mean(Sepal.Length)) 利用概述函数概括数据，输入数值向量而返回单一数值...7）数据分组 group_by函数对数据进行分组后，结合summarize函数，可以对分组数据进行汇总统计。...Q：按品种分组，分别计算花萼宽度的均方差 summarise(group_by(iris,Species),sd=sd(Petal.Width)) 8）连接操作符 dplyr包里还新引进了一个操作符,%

1.9K1 0

R 数据整理（七：使用tidyr和dplyr处理数据框 2.0）

dplyr 包的 distinct() 函数可以对数据框指定若干变量，然后筛选出所有不同值，每组不同值仅保留一行。...指定变量名时不是写成字符串形式而是直接写变量名： d.class %>% distinct(sex, age) %>% knitr::kable() 如果希望保留数据框中其它列，可以加选项 keep_all...R 数据整理（六：根据分类新增列的种种方法 1.0）其他函数 slice dplyr 包的函数 slice(.data, ...) 可以用来选择指定序号的行子集，正的序号表示保留，负的序号表示排除。...，不保留原来的所有变量。...group_by 按照某列对数据框进行分组，非常适合联合summarize 使用，获取指定组别不同类型内容的统计数值。

10.8K3 0

tidyverse|数据分析常规操作-分组汇总（sumamrise+group_by)

一 summarize汇总汇总函数 summarise()，可以将数据框折叠成一行 ,多与group_by()结合使用 1.1 summarise完成指定变量的汇总统计均值，标准差，最小值，个数和逻辑值...library(dplyr) iris %>% summarise(mean(Petal.Length), #无命名 sd_pet_len = sd(Petal.Length...分组汇总 group_by() 和 summarise() 的组合构成了使用 dplyr 包时最常用的操作之一：分组摘要 2.1 按照Species分组，变量汇总 iris %>%...is.na(x)) ：返回非缺失值的梳理； n_distinct(x)：返回唯一值的数量。...n # #1 setosa 50 #2 versicolor 50 #3 virginica 50 2.3 逻辑值的计数和比例当与数值型函数一同使用时

2.4K6 0

教你几招R语言中的聚合操作

在R语言中提供了几种实现数据聚合的常用函数，它们分别是基于stats包中的aggregate函数、基于sqldf包中的sqldf函数以及基于dplyr包中的group_by函数和summarize函数。...，包含多种聚合函数）；另一个是无法对数据集中多个不同的数值型变量使用不同的聚合函数。...如上表所示，利用sqldf函数可以轻松得到不同变量的不同聚合结果，但前提是读者必须掌握数据库SQL的语法。...基于group_by和summarize函数的聚合 ---- 结合dplyr包中的group_by函数和summarize函数实现数据的分组聚合可以避开aggregate函数和sqldf函数的一些缺点，...其中group_by函数用于指定分组变量，summarize函数用于指定具体的聚合过程，关于这两个函数的用法及参数含义如下： group_by(.data, ..., add = FALSE) .data

3.3K2 0

「R」dplyr 列式计算

原文来自 [dplyr 文档](Column-wise operations • dplyr (tidyverse.org "dplyr 文档")) - 2021-01❞ 同时对数据框的多列执行相同的函数操作经常有用...但你也可以联合 across() 和任意其他的「dplyr」动词函数，我们后面会提及。...max_min_height , max_min_mass , #> # max_min_birth_year （可能有一天这种操作会通过 across() 的一个参数进行支持，但目前我们还没找到解决方案...」动词函数一起工作： •重新缩放所有数值变量到范围 0-1： rescale01 <- function(x) { rng <- range(x, na.rm = TRUE) (x - rng..._at() 函数是「dplyr」中唯一你需要手动引用变量名的地方，这让它们比较奇怪且难以记忆。为什么过了这么久才发现 across()？

2.4K1 0

R语言安装R包DAY6-Gaozsi

")library(dplyr)3.dplyr五个基础函数test left_join(x, y, by = "key")#如果x中的key变量，在y中有多个同样的key，那么所有的结合可能都会罗列出来left_join(x, y1, by = "key")#右连接...：保留 y 中的所有观测right_join(x, y, by = "key")#全连接：保留 x 和 y 中的所有观测。

1371 0

Day6 呦呦鹿鸣—学习R包

)以dplyr包为例官方包的文档dplyr示例数据test % arrange(cyl, disp)5.summarise()：汇总，对数据进行汇总操作,结合group_by...1：管道操作 %>% (cmd/ctr + shift + M)向右传递test %>% group_by(Species) %>% summarise(mean(Sepal.Length), sd(...Sepal.Length))R中的管道操作符2：count统计某列的unique值count(test,Species)分类变量每个变量值的频数dplyr处理关系数据将2个表进行连接1.內连inner_join...left_join(test2, test1, by = 'x')3.全连full_joinfull_join( test1, test2, by = 'x')列表书写顺序决定了最终合成列表中列的顺序,每列数值的类型必须相同

1501 0

R语言之 dplyr 包

dplyr 包里处理数据框的所有函数的第一个参数都是数据框名。下面以 MASS 包里的 birthwt 数据集为例，介绍 dplyr 包里常用函数的用法。...使用 group_by( ) 拆分数据框函数 group_by( ) 可以将数据框按照某一个或某几个分类变量拆分成多个数据框。...因此，上面的输出结果看上去和原来的数据框没有什么差别，但实质上是不同的。最本质的差别是多了一个分组属性（Groups），即上面的结果包含了 3 个数据框，分别对应于变量 race 的 3 个类别。...as_tibble(birthwt) 下面我们将会看到，把函数 group_by( ) 和 summarise( ) 联合使用能方便地对变量进行分组统计。 7....我们需要给这些中间变量命名，而且这些中间变量会保存在工作空间中占用内存。传递操作符 %>% 将该符号之前的对象传递给符号后面的函数并作为函数的第一个参数值。

4032 0

R数据科学-1（dplyr）

我们经常会用到，只需要里面的几个变量，不是所有的变量都输出。...# … with 22 more rows 3.数据-变量条件筛选 dplyr::filter()函数对上述新产生的变量的数据df，进行筛选。...，或者看gear不同水平下的最大值最小值，那么就用到group_by()与 summarise() 函数。...# group by gear df %>% group_by(gear) %>% summarise(mean=mean(mpg), sd=sd(mpg))...，譬如字符串，因子及数值类型相互转换，上述数据里面dbl 意思是数值类型（double class）我们现在产生新的字符串chr及因子fct。

1.6K2 0

生信星球Day4 学习R包

install.packages安装时的默认镜像options()$BioC_mirror 查看使用bioconductor的默认镜像R最重要的两个配置文件: 一是.Renviron，能够设置R的环境变量...="https://mirrors.ustc.edu.cn/bioc/") install.packages("dplyr") #或BiocManager::install("dplyr")library...(dplyr)dplyr五个基础函数mutate() 新增列，(x，列名=相关数据)select() 筛选列，（x，列号或列名）filter() 筛选行，（x，列名==想要的行）需要逻辑判断arrange...() 按某1列或某几列对整个表格进行排序，默认从小到大，用desc()可从大到小summarise() 汇总，配合group_by()分组，可以mean()求平均值，sd()求标准差test <-...Sepal.Length))2、count() 统计某列的unique值，即统计同类项连接两个表的不同方式inner_join() 內连，取交集，by="x"基于x的列left_join() 左连，保留前一个表

1944 0

从头学R语言——DAY 3

包dplyr作为tidyverse中的核心包之一，主要用于数据转换。...因为用ggplot等进行可视化，必须要求数据格式完全符合要求，但这种情况极其罕见，所以我们需要dplyr来转换数据。...此处先掌握dplyr的5个基本函数：mutate()，select()，filter()，arrange()，summaries()；1个重要的管道工具%>%#用dplyr包进行数据转换#5个核心函数test...运行报错，要求test为list，但此处test是data.frame#关联数据，合并数据框#内连接，取交集inner_join(test1, test2, by = "x")#左连接，完善左数据left_join...：int：整数型变量dbl：双精度浮点数型变量，即实数chr：字符串dttm：日期+时间型变量lgl：逻辑型变量fct：因子，R中具有固定数目的值的分类变量date：日期型变量深刻感受不同连接的区别存疑问题

691 0

「R」数据操作（七）：dplyr 操作变量与汇总

然后，当你使用dplyr动词对分组的数据框进行操作时，它会自动进行分组计算。...使用你已经知道的dplyr知识，你可能会写出下面的代码： by_dest <- group_by(flights, dest) delay <- summarize(by_dest,...这个代码写的有点令人沮丧，尽管我们不关心中间变量（临时变量），但我们却不得不创造这些中间变量存储结果数据框。命名是一件非常困难的事情，它会降低我们分析的速度。...为了对非缺失值计数，使用sum(!is.na(x))。...当你按多个变量分组时，可以非常容易地对数据框汇总： daily <- group_by(flights, year, month, day) (per_day <- summarize(daily

2.5K2 0

R语言之数值型描述分析

对于数值型变量，如 age、lwt、plt、ftv 和 bwt，函数 summary( )给出最小值、下四分位数、中位数、均值、上四分位数和最大值；对于分类变量，如 low、race、smoke、ht...library(epiDisplay) summ(birthwt) 需要注意的是，对于因子型的变量，函数 summ( )把变量的各个水平当作数值计算统计量。...数值型变量的描述性统计分析本节将讨论数值型变量的集中趋势、离散程度和分布形状等。这里我们关注 3 个连续型变量：年龄（age）、母亲怀孕前体重（lwt）和婴儿出生时体重（bwt）。...实际上，在第 3 章介绍的 dplyr 包里的函数 group_by( )和 summarise( )就能非常灵活地计算分组统计量。...例如： library(dplyr) birthwt %>% group_by(smoke) %>% summarise(Mean.bwt = mean(bwt), Sd.bwt = sd(bwt

1962 0

Day6——R包

BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") install.packages("dplyr")library(dplyr)dplyr五个基础函数示例数据...数据框是一种二维的表格结构，其中包含了多个变量(字段)和观测值(行)。在进行数据分析时，有时我们只对数据框中的特定字段感兴趣，而不需要使用所有的字段。...处理关系数据可参考https://www.jianshu.com/p/1f4c7bfed3d4內连inner_joininner_join(test1, test2, by = "x")#保留同时存在于两个表中的观测左连...left_joinleft_join(test1, test2, by = 'x')#保留 test1 中的所有观测全连full_joinfull_join( test1, test2, by = 'x...')#保留test1和test2 中的所有观测半连接semi_joinsemi_join(x = test1, y = test2, by = 'x')#返回能够与y表匹配的x表所有记录反连接anti_joinanti_join

1431 0

34. R 数据整理（六：根据分类新增列的种种方法 1.0）

使用，获取指定组别不同类型内容的统计数值。...group_by(test, Species) tmp = summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))...arrange(x2,Sepal.Length) 如果依靠变量的传递，每一步都需要将结果指定若干个中间变量，再将指定的这些中间变量，作为输入值传递给下一个值。...处理关系数据即通过dplyr 包将表格进行连接。...left_join&&right_join 左连（按照左边，保留所有左边数据），右连（按照右边，保留所有右边数据）。其中另外一边中缺失的数据用NA 填充。

2K2 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

="Hospice"] （3）还有一些复杂结构： dt[a=='B' & c2>3, b:=100] #其他结构在dt数据集中，筛选a变量等于"B"，c2变量大于3，同时将添加b变量，数值等于...这里有一个重要的点:使用”==”操作符，那么它会扫描整个数组，虽然data.table用这种方法也可以提取，但很慢，要尽量避免。...——————————— 四、分组求和、求平均 mygroup= group_by(try,gender,buy_online) from_dplyr<-summarize(mygroup,mean=...(gender,buy_online)] #data.table用一步 dplyr：先用group_by设置分组，然后利用summarize求平均，mean=mean()； data.table...from_dplyr=try %>% group_by(gender,buy_online) %>% summarize(mean=mean(new_car)) ————————————————————

7.8K4 3

生信代码：数据处理（ tidyverse包）

大家在学习R语言的时候，大多参考《R语言实战》这本书，但这本书年代过于久远（中文第二版是2016年），主要着力点也是在R base上，R语言可视化的ggplot2包也只是简要介绍，而对于tidyverse...在Rstudio中加载tidyverse包，可以看到该包下有8个子包，著名的ggplot2包即是其中的一个子集，我们先着重讲一下数据处理有关的包——dplyr包。...)——汇总数据而这些函数都可以与group_by结合，分组对原数据框进行处理。...包中与排序相关的是arrange()包，默认是从高到低进行排序，如果变换排序顺序则可以使用-(变量)或者desc(变量)。...() group_by可以对原数据框进行分组计算，例如对于我们本文中的数据框，我们如果对个人或者科目感兴趣的话，可以使用group_by（name或者type），然后利用summarize函数就可以求出分类之后的各个统计值

2K1 0

快速掌握R语言中类SQL数据库操作技巧

参考→《R语言数据（集）合并与连接/匹配 | 专题2》 4.过滤/筛选过滤，是对数据集按照某种规则进行筛选，去掉不符合条件的数据，保留符合条件的数据。...可参考↓↓ R语言 | 第一部分：数据预处理 7.数据筛选和8.抽样 R语言数据管理与dplyr、tidyr | 第4讲 5 dplyr中5.1筛选filter和5.3选择select R...4.3 数值分段数值分段，就是把一个连续型的数值型数据，按区间分割为因子类型的离散型数据。...》 dplyr包中的group_by联合summarize group_by和summarise单变量分组计算 group_by和summarise多变量分组计算 ddply分组计算示例 5.1 aggregate...排序 #order默认升序，变量前加“-”代表降序 #排序的操作，大多都是基于索引来完成的 #用order()函数来生成索引，再匹配的数据的数值上面。

5.6K2 0

R语言学习 - 柱状图

20.8 9.8 7.0 3.7 19.2 c 10.0 11.0 9.2 12.4 9.6 d 9.0 3.3 10.3 11.1 10.0 整理数据格式，保留基因名字信息...%>% group_by(gene) %>% dplyr::summarise(sd=sd(value), value=mean(value)) data_m_sd_mean <- as.data.frame...在柱子中标记百分比值首先计算百分比，同样是group_by (按照给定的变量分组，然后按组操作)和mutate两个函数(在当前数据表增加新变量) # group_by: 按照给定的变量分组，然后按组操作...# mutate: 在当前数据表增加新变量 # 第一步增加每个组的加和，第二步计算比例 data_m % group_by(variable) %>% mutate(count...，还需要考虑Condition data_m_sd_mean % group_by(Gene, Condition) %>% dplyr::summarise(sd=sd(Expr

2.5K5 0

R入门？从Tidyverse学起！

这种入门的学习路径属于base R first，学习的流程基本是先了解变量的类型、数据的结构，再深入点就会学到循环与自定义函数。...数据整理 tibble格式 R中的对多变量数据的标准保存形式是 dataframe，而tibble是dataframe的进化版，它有如下优点： 1....dplyr包 dplyr基本包含了我们整理数据的所有功能，堪比瑞士军刀，这里介绍以下函数： filter: filters out rows according to some conditions （...2. select 只保留Species 和 Sepal.Length 这两列 ? 除了Species以外，其他的列都保留 ?...5. summarise & group_by group_by通常与summarise搭配使用，如果我们需要对不同species的数据计算均值，那么利用group_by指定需要分组的列，summarise

2.5K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭