开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

dplyr基于分组变量的行中位数

dplyr是一个在R语言中用于数据处理和数据分析的包，它提供了一套简洁而强大的函数和操作符，可以方便地对数据进行操作和转换。

基于分组变量的行中位数是指在数据集中根据一个或多个分组变量对数据进行分组，并计算每个分组中指定变量的中位数。

dplyr中可以使用group_by()函数对数据进行分组，然后使用summarize()函数结合median()函数计算每个分组中指定变量的中位数。

以下是一个示例代码：

library(dplyr)

# 创建示例数据集
data <- data.frame(
  group = c("A", "A", "B", "B", "B"),
  value = c(1, 2, 3, 4, 5)
)

# 使用dplyr计算基于分组变量的行中位数
result <- data %>%
  group_by(group) %>%
  summarize(median_value = median(value))

# 打印结果
print(result)

在上述示例中，我们首先加载dplyr包，并创建了一个示例数据集data，其中包含了一个分组变量group和一个数值变量value。然后，我们使用group_by()函数按照group变量对数据进行分组，接着使用summarize()函数结合median()函数计算每个分组中value变量的中位数，并将结果保存在新的数据框result中。最后，我们打印出结果。

对于dplyr的更多详细信息和使用方法，可以参考腾讯云的相关产品dplyr介绍链接地址：dplyr介绍。

相关搜索:dplyr & tibble -基于列值的两行条件和 dplyr 0.7 -将分组变量指定为字符串 dplyr::group_by保留变量未分组 dplyr:忽略函数输入的分组变量 dplyr:根据分组细节更改变量 Redshift -基于连续行的分组表格 SQL如何计算中位数而不是基于行使用dplyr对选定变量进行分组的时间序列滞后使用dplyr进行编程:间接控制分组依据的变量分组汇总求基于分组的均值和中位数

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言之数值型描述分析

在分析之前，先将数据集 birthwt 中的分类变量 low、race、smoke、ht 和 ui 转换成因子。

02

R可视化：不一样的ggplot2箱线图

使用 ggplot2 包画箱线图通常使用 geom_boxplot() 函数。箱线图（Boxplot）是一种用于展示一组数据分布特征的图形，它能够提供以下信息：

00

R数据科学|3.6内容介绍

上节我们对选择现有的列和使用mutate添加新列做了介绍。现在对数据框使用summarize()进行分组摘要进行介绍。函数功能：summarize()可以将数据框折叠成一行：

02

dpois函数_frequency函数

https://r4ds.had.co.nz/transform.html#grouped-summaries-with-summarise

01

ggstatsplot！常见SCI统计图表一键搞定~~

别说，还真有，而且常见的统计图形它都能绘制，更重要的是，统计指标信息自动添加，绘制的结果完全符合出版需求~~

01

R语言之生信（10）多个探针对应一个基因的处理方法

在生信分析过程中，经常遇到一个问题，芯片或者测序数据经常出现多个探针对应一个基因的情况。这个时候处理方法比较多，比如说比较常见的是均值或者最大值。本篇文章的主要目的是：介绍几种常见的处理方法：（1）均值（2）中位数（3）最大值（4）最小值（5）IQR（四分位间距，表达值范围）

03

ggstatsplot：R统计绘图的颜值天花板

写论文画图的时候小提琴图，热图，箱线图，画来画去都长得差不多，是不是觉得很烦恼？今天小编为大家介绍一个可以让科研论文统计绘图颜值提升好几个level的R包：ggstatsplot。

02

「R」绘制分组排序点图

我在看过的一些 Nature 文章和 COSMIC 数据库中看到用点图来展示不同癌症类型下 TMB 的分布差异。在 R 包中，我有看到过 maftools 中可以绘制这样的图，用来表示新的数据队列与 TCGA 数据的比较，这也是应用于 TMB 分析。因为研究问题，我最近也想尝试使用改种图形来展示数据。而且，该图可以拓展到任意可以适应的场景下，所以我想基于 ggplot2 来创建一个通用的绘图函数。

03

R语言学习笔记-Day07

数据下载（DEO、TCGA）-差异分析（芯片与转录组不相同）-WGCNA（加权共表达网络）-富集分析（ORA、GSEA）-PPI网络-预后分析（影响生存的疾病）

00

「R」数据操作（七）：dplyr 操作变量与汇总

除了选择已存在的列，另一个常见的操作是添加新的列。这就是mutate()函数的工作了。

02

图解面试题：如何分析中位数？

学校每次考试完，都会有一个成绩表。例如，表中第1行表示编号为1的用户选择了C++岗位，该科目考了11001分。

04

R语言之箱型图修改中位数为平均数

但是有时，我需要将箱子中默认的中位数那条线，改为平均值。下面代码数据来源于上一篇博客：配对样本检验及绘图 - 简书 https://www.jianshu.com/p/e5a24590b5f6

01

在学术不端的数据取舍上面反复横跳

然后马上这些策略就被应用到了单细胞转录组数据挖掘层面，因为反正也不需要自己产出数据了，过去三五年间单细胞的火热带动了海量的各种实验设计的公开的表达量矩阵。比如这个文献：《Lipid-related protein NECTIN2 is an important marker in the progression of carotid atherosclerosis: An intersection of clinical and basic studies》就是看了看两个分组的具体的基因的差异，在普通bulk转录组和单细胞转录组两个数据集里面，如下所示：

01

天天Get 新技能！！

如你所见，直方图上叠加核密度图，专业来说，核密度估计是用于估计随机变量概率密度函数的一种非参数方法。核密度图是用来观察连续型变量分布的有效方法。绘制密度图的方法：

05

单细胞水平看生存分析相关基因

针对每个癌症的全部基因批量了做了单基因的cox分析，挑选统计学显著的去对应的癌症去打分，看看是否有单细胞亚群特异性。

01

回归分析专题（1）

说明：回归，是机器学习中的一个重要算法，也是统计学中研究变量关系的一个重要工具。《机器学习数学基础》中在多处对回归分析有关原理给予了介绍。但是，限于篇幅和内容顺序的限制，书中的介绍专题性还不强。在这里，决定以专题的形式，对回归分析基于全面介绍，包括理论分析、机器学习中的应用和实现案例等。本文作为专题的第一部分，主要介绍回归的历史研究。

02

MADlib——基于SQL的数据挖掘解决方案（8）——数据探索之描述性统计

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/79071818

02

1 小时 SQL 极速入门（三）

今天我们讲一些在做报表和复杂计算时非常实用的分析函数。由于各个数据库函数的实现不太一样，本文基于 Oracle 12c 。

01

干货 | 男朋友老是说自己R语言很6，快来用这40道题目检测他

大数据文摘作品，转载要求见文末作者 | NSS 编译 | 张伯楠，刘云南弋心，卫青，宁云州 R语言是数据科学领域最流行的语言之一。如果你真想从事数据科学事业，那你要么已经会用R语言要么正在学习它。R语言同样是一个拥有广泛的统计和数据科学库的生态系统。为了帮助数据科学家测试他们的R语言能力，我们为DataFest 2017设计了一部分技能测试题。超过1500人注册了这项考试并有接近500人完成了测试。下图是不同测试者的成绩分布：下面是关于成绩分布的一些统计数据：平均分：16.69 分数中值：19

04

从零开始的异世界生信学习 GEO数据库数据挖掘--GEO代码-芯片数据分析-1

在列表中取子集后得到"ExpressionSet"结构数据，为"Biobase"包中的数据形式

02

R tips：使用TCGAbiolinks包下载TCGA数据

TCGA数据下载就易用性来说，RTCGA包应该更好用，且由于是已经下载好的数据，使用比较稳定。但是也由于是下载好的数据，不能保证数据都是全新的。TCGAbiolinks包是实时调用GDC的API，所以可以获取最新的数据。

03

81-R编程14-重复值的两种特殊处理

在[[15-R编程01-基本数据类型及其操作之向量]] 中，我就已经简单的提过，可以通过unique 或duplicated 非常暴力的实现去重。

02

100个GEO基因表达芯片或转录组数据处理之GSE126848（003）

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。

00

数据处理|R-dplyr

arrange函数按给定的列名进行排序，默认为升序排列，也可以对列名加desc()进行降序排序。

01

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

由于业务中接触的数据量很大，于是不得不转战开始寻求数据操作的效率。于是，data.table这个包就可以很好的满足对大数据量的数据操作的需求。

04

R|tableone 快速绘制文章“表一”-基线特征三线表

生物医学或其他研究论文中的“表一”多为基线特征的描述性统计。使用R单独进行统计，汇总，然后结果复制到excel表中，耗时耗力且易错！

03

数据偏度介绍和处理方法

偏度（skewness）是用来衡量概率分布或数据集中不对称程度的统计量。它描述了数据分布的尾部（tail）在平均值的哪一侧更重或更长。偏度可以帮助我们了解数据的偏斜性质，即数据相对于平均值的分布情况。

03

TNBC数据分析-GSE76275-GPL570

五月份的学徒专注于GEO数据库里面的表达量芯片数据处理，主要的难点是表达量矩阵获取和探针的基因名字转换，合理的分组后就是标准的差异分析，富集分析。主要是参考我八年前的笔记：

02

GEO数据库（一）

2、本地安装：从github官网上R包界面下载到本地，并放到当前工作目录下，使用如下命令：

07

十大经典排序算法：快速排序debug分析排序过程

快速排序（Quicksort）是对冒泡排序的一种改进。基本思想是：通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要小，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列

01

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。

03

单基因GSEA怎么做？

今天在讨论群看到有群友提问单基因GSEA怎么做？。之前也看到过这个概念，但一直不清楚这个单是什么含义，一直以为是用单个基因做GSEA。如果之前看过生信宝典的一文掌握GSEA，超详细教程，一定会特别熟悉GSEA的原理和操作流程。当然越是理解，越是想不明白单个基因怎么做GSEA。当然如果您不熟悉GSEA，建议先看上一篇文章。

02

DAY6-学习R包

03

R语言缺失值插补之simputation包

R语言中有很多插补缺失值的R包，但是这些R包的使用语法都不一样，不利于学习和记忆。

03

数据分析之描述性分析

1.描述性分析主要是对所收集的数据进行分析，得出反映客观现象的各种数量特征的一种分析方法，它包括数据的集中趋势分析、数据离散程度分析、数据的频数分布分析等，描述性分析是对数据进一步分析的基础。

02

基因功能不确定？做一下单基因GSEA怎么样？

NGS系列文章包括NGS基础、在线绘图、转录组分析（Nature重磅综述|关于RNA-seq你想知道的全在这）、ChIP-seq分析（ChIP-seq基本分析流程）、单细胞测序分析 (重磅综述：三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘（典型医学设计实验GEO数据分析 (step-by-step)）、批次效应处理等内容。

01

单基因富集分析

前面给大家介绍了这么多的富集分析，其实主要就是两种：ORA和GSEA。通常都是需要一个基因集才可以做。

01

R基础知识及快速检阅你的数据

考虑到公众号后台数不胜数的提问其实并不是生物学知识或者数据处理知识的困惑，仅仅是绘图小技巧以及数据转换的困难。所以我们一再强调系统性掌握编程知识的重要性，在这个打基础方面我让实习生“身先士卒”，起码每个人在每个编程语言上面都需要看至少五本书而且每本书都需要看五遍以上，并且详细的记录笔记。

01

箱线图的生物学含义

给粉丝朋友们带来了很多理解上的挑战，所以我们开辟专栏慢慢介绍其中的一些概念性的问题，上一期：表达矩阵的归一化和标准化，去除极端值，异常值

06

散点图及数据分布情况

考虑到公众号后台数不胜数的提问其实并不是生物学知识或者数据处理知识的困惑，仅仅是绘图小技巧以及数据转换的困难。所以我们一再强调系统性掌握编程知识的重要性，在这个打基础方面我让实习生“身先士卒”，起码每个人在每个编程语言上面都需要看至少五本书而且每本书都需要看五遍以上，并且详细的记录笔记。

01

SQL进阶-5-感受having的力量

HAVING是SQL中一个非常重要的功能，本文中将会介绍SQL中HAVING子句的用法。

01

利用Python进行描述统计

引言：在数据分析时，对大量信息进行归纳是最基本的任务，而这就需要用到描述统计方法。

03

TCGA数据库：生存分析

本文介绍生存分析，其实，在R中，生存分析很简单，大家在网上能找到无数的文章。利用survival包就可以。就是按照下列公式就可以完成简单的生存分析。

04

MySQL中查询中位数？

计算中位数可能是小学的内容，然而在数据库查询中实现却并不是一件容易的事。我们今天就来看看都有哪些方法可以实现。

01

从零开始的异世界生信学习 GEO数据库数据挖掘--GEO背景知识简介

箱形图（Box-plot）又称为盒须图、盒式图或箱线图，是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用，常见于品质管理。它主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较。箱线图的绘制方法是：先找出一组数据的上边缘、下边缘、中位数和两个四分位数；然后，连接两个四分位数画出箱体；再将上边缘和下边缘与箱体相连接，中位数在箱体中间。

01

GEO数据库中芯片数据分析思路

AnnoProbe是曾建明老师2020年开发的一款用于下载GEO数据集并注释的R包,收录在tinyarray里。 idmap##根据所给的GPL号，返回探针的注释 geoChina##根据所给的GSE号，下载对应的表达矩阵 annoGene##根据gencode中的GTF文件注释基因ID

00

R语言计算AUC（ROC曲线）的注意事项

并详细介绍了如何手动计算真阳性率/假阳性率，以及怎样计算多个，并把点连接成线，变成ROC曲线：ROC曲线纯手工绘制

01

R数据科学-1（dplyr）

如今数据分析如火如荼，R与Python大行其道。你还在用Excel整理数据么，你还在用spss整理数据么。

02

TNBC数据分析-GSE27447-GPL6244

五月份的学徒专注于GEO数据库里面的表达量芯片数据处理，主要的难点是表达量矩阵获取和探针的基因名字转换，合理的分组后就是标准的差异分析，富集分析。主要是参考我八年前的笔记：

03

dplyr数据处理

filter()函数用于筛选出一个观测子集，第一个参数是数据库框的名称，第二个参数以及随后的参数是用来筛选数据框的表达式。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭