Dplyr group_by和replace创建同一变量的多个子组 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

R语言之 dplyr 包

这个包以一种统一的规范更高效地处理数据框。dplyr 包里处理数据框的所有函数的第一个参数都是数据框名。

02

34. R 数据整理（六：根据分类新增列的种种方法 1.0）

通过 gather ，并设定key（原先的列），与value（原先的数据），并通过 - （原先的行），对数据框进行转换。

02

您找到你想要的搜索结果了吗？

是的

没有找到

35. R 数据整理（七：使用tidyr和dplyr处理数据框 2.0）

假设数据以 tibble 格式保存。数据集如果用于统计与绘图，需要满足一定的格式要求，(Wickham, 2014) 称之为整洁数据 (tidy data)，基本要求是每行一个观测，每列一个变量，每个单元格恰好有一个数据值。这些变量应该是真正的属性，而不是同一属性在不同年、月等时间的值分别放到单独的列。

03

分组统计你只想到group_by操作吗？

最近在研究excel透视图，想到好像自己在R-分组操作并不是很流畅，顺便学习分享一下。R自带数据集比较多，今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算（操作）。

03

R语言分组计算，不止group_by

最近在研究excel透视图，想到好像自己在R-分组操作并不是很流畅，顺便学习分享一下。R自带数据集比较多，今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算（操作）。

05

数据处理|R-dplyr

arrange函数按给定的列名进行排序，默认为升序排列，也可以对列名加desc()进行降序排序。

01

R海拾遗_再谈非标准评估

上面的例子summary的变量是disp，分组变量是cyl和am，使用三个点这里传递了任意个参数

02

生信代码：数据处理（ tidyverse包）

大家在学习R语言的时候，大多参考《R语言实战》这本书，但这本书年代过于久远（中文第二版是2016年），主要着力点也是在R base上，R语言可视化的ggplot2包也只是简要介绍，而对于tidyverse包，《R语言实战》并未涉及，这也导致R语言的学习难度增加，今天我们给大家引入tidyverse包的学习。

01

「R」dplyr 行式计算

通常 dplyr 和 R 更适合对列进行操作，而对行操作则显得更麻烦。这篇文章，我们将学习围绕rowwise() 创建的 row-wise 数据框的 dplyr 操作方法。

02

R语言包_dplyr_1

有5个基础的函数： - filter - select - arrange - mutate - summarise - group_by (plus)

02

dplyr数据处理

filter()函数用于筛选出一个观测子集，第一个参数是数据库框的名称，第二个参数以及随后的参数是用来筛选数据框的表达式。

01

R语言 | 第一部分：数据预处理

1.创建数据集/矩阵【data.frame数据框、matrix矩阵、array数组】

00

R语言学习 - 柱状图

柱状图绘制柱状图也是较为常见的一种数据展示方式，可以展示基因的表达量，也可以展示GO富集分析结果，基因注释数据等。常规矩阵柱状图绘制有如下4个基因在5组样品中的表达值 data_ori <- "Grp_1;Grp_2;Grp_3;Grp_4;Grp_5 a;2.6;2.9;2.1;2.0;2.2 b;20.8;9.8;7.0;3.7;19.2 c;10.0;11.0;9.2;12.4;9.6 d;9;3.3;10.3;11.1;10" data <- read.table(text=data_ori

05

R语言 | 第一部分：数据预处理

1.创建数据集/矩阵【data.frame数据框、matrix矩阵、array数组】

02

R语言之数值型描述分析

在分析之前，先将数据集 birthwt 中的分类变量 low、race、smoke、ht 和 ui 转换成因子。

02

R语言交互式绘图echarts4r包初探

“ echarts4r 包是R 语言访问/调用百度ECharts的接口，语法结构简单，可读性强，是很好的交互式绘图包。”

03

R tips：使用!!来增加dplyr的可操作性

dplyr包在数据变换方面非常的好用，它有很多易用性的体现：比如书写数据内的变量名时不需要引号包裹，也不需要绝对引用，而这在多数baseR函数中都不是这样的，比如：

03

「R」dplyr 列式计算

同时对数据框的多列执行相同的函数操作经常有用，但是通过拷贝和粘贴的方式进行的话既枯燥就容易产生错误。

01

【R语言】基础知识|dplyr管道函数处理表格

data<-read_excel("~/Desktop/Excel学习/表姐牌口罩销售数据.xlsx")

03

「R」分组应用和排序去重的应用与比较

如果使用惯了tidyverse套装，我们脑子里容易冒出来的是这样的解法：使用分组应用。

02

【R语言】dplyr对数据分组取各组前几行

所以在画图的时候，也需要区分这三类。下面这张表就是GO富集分析得到的结果，我们可以根据ONTOLOGY这一列来分组，就可以得到BP，CC和MF三个组。然后取每一个组的前10个条目或者前5个条目来绘制柱形图或者气泡图。

02

R海拾遗-tidyverse

tidyverse函数高效，代码简洁，受过专业训练的一般都用这个，除非记不住，能记一点是一点吧。 love&peace

01

R tips：dplyr编程

dplyr的函数由于使用tidy evaluation（R中的一种非标准执行（NSE）实现方式）的方法，可以使得其具有更好的易用性：变量不需要绝对引用和引号包裹。

03

「R」绘制分组排序点图

我在看过的一些 Nature 文章和 COSMIC 数据库中看到用点图来展示不同癌症类型下 TMB 的分布差异。在 R 包中，我有看到过 maftools 中可以绘制这样的图，用来表示新的数据队列与 TCGA 数据的比较，这也是应用于 TMB 分析。因为研究问题，我最近也想尝试使用改种图形来展示数据。而且，该图可以拓展到任意可以适应的场景下，所以我想基于 ggplot2 来创建一个通用的绘图函数。

03

R语言基于dplyr实现数据快捷操作

4. filter 匹配对应行的数据。并生成结果。等同于subset函数。实例：

04

dpois函数_frequency函数

https://r4ds.had.co.nz/transform.html#grouped-summaries-with-summarise

01

生信学习-Day6-学习R包

豆花寄语：学生信，R语言必学的原因是丰富的图表和Biocductor上面的各种生信分析R包。

01

「R」curly curly，更好的非标准计算

rlang v0.4.0引入了新的非标准计算操作符 {{。这大大方便了dplyr重编程。

01

R语言数据处理：飞机航行距离与到达延误时间有什么关系??

数据分析有一半以上的时间会花在对原始数据的整理及变换上，包括选取特定的分析变量、汇总并筛选满足条件的数据、排序、加工处理原始变量并生成新的变量、以及分组汇总数据等等。这一点，我想大部分使用EXCEL的童鞋都深有体会，写论文时，这么多的数据进行处理，手动汇总、筛选、变换，工作量实在是太大。而本文介绍的dplyr包简直就是Hadley Wickham （ggplot2包的作者，被称作“一个改变R的人”）大神为我们提供的“数据再加工”神器啊。本文试图通过一个案例，对神奇的dplyr包的一些常用功能做简要介绍

04

tidyverse|数据分析常规操作-分组汇总（sumamrise+group_by)

汇总函数 summarise()，可以将数据框折叠成一行 ,多与group_by()结合使用

06

「R」数据操作（七）：dplyr 操作变量与汇总

除了选择已存在的列，另一个常见的操作是添加新的列。这就是mutate()函数的工作了。

02

Day6 呦呦鹿鸣—学习R包

列表书写顺序决定了最终合成列表中列的顺序,每列数值的类型必须相同；以"by"的列为标准，补齐列表，空值为"NA"

01

数据清洗与管理之dplyr、tidyr

先前已经讲过R语言生成测试数据、数据预处理和外部数据输入等内容，但这仅仅是第一步，我们还需要对数据集进行筛选、缺失值处理等操作，以便获得可以应用于建模或者可视化的数据集（变量）。接下来就以鸢尾花测试数据集进行进一步的数据管理和筛选操作。

04

数据处理神器tidyverse（2）ggplot2

tidyverse包其中包含着一个重要的可视化包---ggplot2。 Ggplot2是由Hadley Wickham制作的数据可视化软件包，它基于一组称为图层的原则。基本思想是ggplot2将数据的几何对象（圆圈，线条等），主题和比例放在上面。几何对象的形式由geom_xxx（）函数定义，基于数据变量的几何对象的属性（位置，大小，颜色）由美学（aes（））函数指定（在geom_xxx（）函数中）。任何ggplot图的基础层都是由ggplot（）函数定义的空ggplot层，它描述了用于绘图的数据框。

03

去除箱线图中的outliers

异常值outlier：指样本中的个别值，其数值明显偏离它（或他们）所属样本的其余观测值，也称异常数据，离群值。当遇到一组数据中有少量outliers,一般是需要剔除，避免对正确的结果造成干扰。我们可以通过箱线图来检测并去除outliers. 箱线图可以通过5个数来概括：最小值，最大值，下四分位（Q1，在25%位置），上四分位（Q3，在75%位置），中位值（50%位置）。箱线图能够显示离群点，可以通过IQR（InterQuartile Range，四分位距即Q3-Q1）计算得到。该离群点定义为异常值被定义为小于Q1－1.5IQR或大于Q3+1.5IQR的值。 UpperLimit=Q3+1.5IQR=75%分位数+1.5(75%分位数-25%分位数) LowerLimit=Q1-1.5IQR=25%分位数 - 1.5(75%分位数-25%分位数）即在UpperLimit与LowerLimit之外的值为outlier。

02

R语言安装R包DAY6-Gaozsi

一个新数据框，其中包含键、 x 值和 y 值。我们使用 by 参数告诉 dplyr 哪个变量是键：

01

R语言ggplot2堆积柱形图添加误差线的简单小例子

最近有人在公众号后台留言问到这个问题，今天的推文介绍一下ggplot2做堆积柱形图并添加误差线的办法完整代码 ''' 堆积柱形图添加误差线 ''' getwd() library(ggplot2) library(dplyr) library(see) df<-read.csv("penguins.csv") head(df) df %>% na.omit() %>% group_by(species,sex) %>% summarise(mean_value=mean(bill_le

02

dplyr-cli：在Linux Terminal上直接执行dplyr

熟悉R的朋友都会知道， dplyr包是对原始的数据集进行清洗、整理以及变换的有力武器之一。但是其使用会局限于你需要有打开R/R studio或者通过R脚本来执行 dplyr。对于这个问题，今天即将需要介绍的 dplyr-cli就能很好的解决这个问题。

01

R数据科学整洁之道：使用dplyr操作数据表

dplyr 是 tidyverse 包的一部分，提供了许多操作数据框的工具，常用的有：

03

R优雅的进行统计分析(1) T_test

❝本节来介绍如何使用R语言来做数据统计分析，通过「rstati」包进行t-test，完全使用tidyverse体系进行数据清洗及可视化 ❞ 安装并加载R包 package.list=c("tidyverse","rstatix","ggtext") for (package in package.list) { if (!require(package,character.only=T, quietly=T)) { install.packages(package) library(

02

左手用R右手Python系列6——变量计算与数据聚合

R语言与Python的Pandas中具有非常丰富的数据聚合功能，今天就跟大家盘点一下这些函数的用法。 R语言： transform mutate aggregate grouy_by+summar

07

DAY6-学习R包

03

使用gtExtra美化表格

前面用2篇文章详细介绍了gt包创建表格的用法。gt很强大，但是还是不够强大，总有些大佬想要更加强大，于是就有了今天要介绍的gtExtras，这是一个扩展包，为gt提供多种强大的可视化功能！

02

R语言宏基因组学统计分析(第四章)笔记

citation("ggplo2")取包引用信息，RStudio.Version()可以获取RStudio引用信息。

02

dplyr_new version-across

2020年5月29日，dplyr迎来来大更新，作为大版本的更新，还是有必要进行学习一下

03

R语言缺失值探索的强大R包：naniar

缺失值在数据中无处不在，需要在分析的初始阶段仔细探索和处理。在本次示例中，会详细介绍naniar包探索缺失值的方法和理念，它和ggplot2和tidy系列使用方法非常相似，上手并不困难。

04

R数据科学-1（dplyr）

如今数据分析如火如荼，R与Python大行其道。你还在用Excel整理数据么，你还在用spss整理数据么。

02

Day6-学习笔记（2024年2月3日）

R包是多个函数的集合，具有详细的说明和示例，学习生信R语言必学的原因是丰富的图表和biocductor的各种生信分析R包，包的使用是一通百通的，以dplyr为例，讲解一下R包

01

R数据科学|5.5.2内容介绍及课后习题解答

要想对两个分类变量间的相关变动进行可视化表示，需要计算出每个变量组合中的观测数量。常用的两种方法有：

03

动植物基因组大小粗略比较

在知乎看到问题为什么植物基因组比动物基因组大（为什么植物基因组似乎比脊椎动物拥有更多的基因？）？印象里好像也不一定，因为拟南芥的基因组也才100多M，自己之前也看到过有些鱼的基因组也可以达到1G的级别。所以到NCBI网站上查了一下，找到了459个陆生植物（land Plants）植物的基因组信息，264个鱼（Fishes）418个昆虫（insects），377个哺乳动物（Mammals）的基因组信息。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭