如果不想安装额外包,用ifelse;如果是单个条件,用dplyr::if_else;如果多个条件,用dplyr::case_when (更可读)
情景:假如有下面这些基因 expr logFC p.value gene1 2.4667984 -2.9302068 0.07878848 gene2 1.4482891 -2.9680565 0.04675735 gene3 0.2481085 0.1787332 0.01685758 gene4 0.4244537 -1.0029163 0.02281603 gene5 1.6186835 -1.8350010 0.07323936 gene6 3.3965326
近期写R代码,经常用dplyr::case_when结合stringr::str_detect进行条件判断。
承接R&Python Data Science 系列:数据处理(1)继续介绍剩余的函数。
昨天公众号后台有人留言作图,示例图如下 image.png 我选择使用R语言的ggplot2来实现,这个是箱线图和热图的拼接,右侧的热图可以借助geom_point()函数实现,将点的形状改为正方块,
由于一个知识星球的小伙伴急需学习如何从 PDF 文档中提取表格,所以先插这个课,「使用 R 语言处理 netCDF 数据」系列的课程下次再发新的哈。本课程介绍了如何使用 R 语言从 WHO(世界卫生组织)的官网上下载新冠疫情的每日报告以及如何从这些报告中的表格里面提取数据。
碎碎念:这个没啥好仔细展示的,含义也很直观,主要是要记住有这个函数,等需要用的时候回来找
step1 对matrix进行转置:使gene名变为列名,将样本名转化为data.frame中的第一列
《R for Data Science》: http://r4ds.had.co.nz/
在做数据分析时,常常遇到的一个场景是,1,2,3 需要转换成其对应的"a","b","c"。比如在对结果进行分类统计的时候。
这里有三个cluster,接下来找其marker基因,并合并成大的dataframe
TCGA数据下载就易用性来说,RTCGA包应该更好用,且由于是已经下载好的数据,使用比较稳定。但是也由于是下载好的数据,不能保证数据都是全新的。TCGAbiolinks包是实时调用GDC的API,所以可以获取最新的数据。
1、TCGA的tumor和normal是表达数据里自带的,因此不需要特地下载临床信息,但是如果需要筛选样本,如特定的癌症亚类或相关的信息就需要临床信息
大家好我是费老师,pandas在前不久更新的2.2版本中,针对Series对象新增了case_when()方法,用于实现类似SQL中经典的CASE WHEN语句功能,今天的文章中,我们就来get其具体使用方法~
str_detect(x,"h")##是否含有关键词h,生成与X长度相等的逻辑值向量,可用于向量取子集;
数分小伙伴们都知道,SQL中的case when语句非常好用,尤其在加工变量的时候,可以按照指定的条件的进行赋值,并且结合其他嵌套用法还可以实现非常强大的功能。
部分数据代码是公开的 下载链接https://zenodo.org/record/4781590#.YSB40Hzivic
https://doi.org/10.1038/s41588-023-01571-z
博客原文:https://suzan.rbind.io/2018/01/dplyr-tutorial-1/ 作者:Suzan Baert
「代码链接」https://gist.github.com/AlbertRapp/438102c458fc8fbdffcb6feb76ff93f7 可以从网站直接获取,如果你下载网速很慢,可以从文末直接获取
上次我们简单介绍了gt包的理念以及基本的用法,今天我们通过一个完整的示例详细说一下gt包的各种用法!
sql 中的 过滤、分组、聚合、排序、表连接,在 pandas 中全都有对应方法。
有读者在公众号后台留言问下图应该如何实现 image.png image.png 实现这个图的办法很多,今天的推文介绍使用R语言ggplot2包实现这个图的方法。 第一步是准备数据 部分数据集如下 image.png image.png 总共4列 前两列是变量 第三列是相关系数 第四列是 显著性P值 前面的变量需要注意的是,因为只画上三角,所以准备数据的时候是 : 总共的变量是10个 第一列10个x1,接下来是紧接着9个x2,然后是8个x3 第一步树读入数据 df<-read.csv("202103
❝本节来介绍如何使用分面来绘制热图并填充特殊字符,下面通过一个小例子来进行展示; 加载R包 library(tidyverse) library(ggtext) library(ggforce) 数据清洗 ❝此处使用case_when来根据数值大小进行特殊字符的转换 ❞ df <- read_tsv("data.xls") %>% mutate( CL_evolution_sign = case_when( CL_evolution > 0 ~ "↑", CL_ev
介绍下绘制火山图和热图的方法,如何在火山图或者热图中标记特定的基因,顺便学习下EnhancedVolcano包绘制火山图。
数据框函数- 排序arrange()和desc参数、distinct()去重复、mutate()数据框新增列
附件下载地址:https://ehoonline.biomedcentral.com/articles/10.1186/s40164-021-00200-x
https://www.nature.com/articles/s41586-022-05275-y
https://www.nature.com/articles/s41564-022-01270-1
https://www.science.org/doi/10.1126/science.abg7985
首先我们需要构造一个示例数据集用于接下来的演示,这里我使用的是我的微信好友数据里面的省份、城市、性别变量。这个数据可以用下面的 Python 脚本获取:
https://www.nature.com/articles/s41467-022-29144-4#code-availability
热图展示不同国家历届足球世界杯的成绩,非常有意思,时间跨度是1982年到2018年,入选国家的标准是最少参加过四次世界杯,我们今天来重复一下这个图,自己这个伪球迷也来了解一下足球世界杯的相关知识。
最近这张图片在社交媒体上火爆。乍一看可能并没有什么特殊的地方,但随后会注意到Y轴。Y轴上的标度在间距相等,但标度分布却并不均匀,有时代表30人,有时代表10人,有时甚至代表50人。这次我们可以通过代码绘制同样的图片。
pandas发展了如此多年,所包含的功能已经覆盖了大部分数据清洗、分析场景,但仍然有着相当一部分的应用场景pandas中尚存空白亦或是现阶段的操作方式不够简洁方便。
所以在当面对很复杂的业务场景时,如何有效的复用,管理和维护 SQL代码是非常重要的。Byzer 很好的解决了这方面的问题。除了本篇模块化编程以外,相辅相成的还有一个能力,就是模板编程的能力: Byzer Man:Byzer 模板编程入门。
例如: Sample_Name = OR2, 就在其添加的carHLH列中的对应空格填写carHLH(+),
代码来自《r-data-science-quick-reference-master》的内容。
工作流程完成后,您现在可以使用基因计数表作为 DESeq2 的输入,使用 R 语言进行统计分析。
领取专属 10元无门槛券
手把手带您无忧上云