承接R&Python Data Science 系列:数据处理(1)继续介绍剩余的函数。
「代码链接」https://gist.github.com/AlbertRapp/438102c458fc8fbdffcb6feb76ff93f7 可以从网站直接获取,如果你下载网速很慢,可以从文末直接获取
https://doi.org/10.1038/s41588-023-01571-z
近期写R代码,经常用dplyr::case_when结合stringr::str_detect进行条件判断。
如果不想安装额外包,用ifelse;如果是单个条件,用dplyr::if_else;如果多个条件,用dplyr::case_when (更可读)
昨天公众号后台有人留言作图,示例图如下 image.png 我选择使用R语言的ggplot2来实现,这个是箱线图和热图的拼接,右侧的热图可以借助geom_point()函数实现,将点的形状改为正方块,
由于一个知识星球的小伙伴急需学习如何从 PDF 文档中提取表格,所以先插这个课,「使用 R 语言处理 netCDF 数据」系列的课程下次再发新的哈。本课程介绍了如何使用 R 语言从 WHO(世界卫生组织)的官网上下载新冠疫情的每日报告以及如何从这些报告中的表格里面提取数据。
博客原文:https://suzan.rbind.io/2018/01/dplyr-tutorial-1/ 作者:Suzan Baert
❝本节来介绍如何使用分面来绘制热图并填充特殊字符,下面通过一个小例子来进行展示; 加载R包 library(tidyverse) library(ggtext) library(ggforce) 数据清洗 ❝此处使用case_when来根据数值大小进行特殊字符的转换 ❞ df <- read_tsv("data.xls") %>% mutate( CL_evolution_sign = case_when( CL_evolution > 0 ~ "↑", CL_ev
https://www.nature.com/articles/s41586-022-05275-y
热图展示不同国家历届足球世界杯的成绩,非常有意思,时间跨度是1982年到2018年,入选国家的标准是最少参加过四次世界杯,我们今天来重复一下这个图,自己这个伪球迷也来了解一下足球世界杯的相关知识。
昨天的推文里,我介绍了开发一个最简单的 R 包的工作流程,相信不少同学已经对 R 包的开发流程有所了解了,今天我们就用这个 ncov 包获取疫情数据然后分析分析吧!
https://www.science.org/doi/10.1126/science.abg7985
https://www.nature.com/articles/s41564-022-01270-1
报错信息表明rcorr函数在尝试计算Spearman相关性时遇到了问题,原因是数据中的某些变量(列)的观测值数量不足以进行相关性分析。具体来说rcorr 函数要求每个变量至少有5个观测值来计算相关性。
❝本节来介绍如何给图形添加渐变色背景,通过两个案例来进行展示; 加载R包 library(tidyverse) library(grid) library(RColorBrewer) library(ggh4x) library(scales) library(aplot) 导入数据 sports <- read_tsv("sports.xls") 数据清洗 plot_data <- sports %>% select(exp_men, exp_women, sports) %>% drop
❝之前在一篇论文里面看到一张特殊的组合饼图感觉很不错,下面来构建数据进行复现,来看具体案例❞ 加载R包 library(tidyverse) library(scales) library(ggtext) library(patchwork) library(cowplot) library(RColorBrewer) 定义颜色 mycolors <- colorRampPalette(brewer.pal(12,"Paired"))(21) 构建数据集 df <- tribble(~group,~v
代码来自《r-data-science-quick-reference-master》的内容。
https://github.com/cxli233/SimpleTidy_GeneCoEx/tree/v1.0.1
情景:假如有下面这些基因 expr logFC p.value gene1 2.4667984 -2.9302068 0.07878848 gene2 1.4482891 -2.9680565 0.04675735 gene3 0.2481085 0.1787332 0.01685758 gene4 0.4244537 -1.0029163 0.02281603 gene5 1.6186835 -1.8350010 0.07323936 gene6 3.3965326
step1 对matrix进行转置:使gene名变为列名,将样本名转化为data.frame中的第一列
❝本节来介绍如何使用「ggplot2」来绘制嵌套圆形图,图形绘制倒也简单主要是细节的调整结果仅供参考❞ 加载R包 library(tidyverse) 导入数据 bytes_total <- read_csv("bytes_total.txt") speed_index <- read_csv("speed_index.txt") 数据清洗 mobile_bytes <- bytes_total %>% filter(date %in% c("2022_10_01", "2018_10_01"),
例如: Sample_Name = OR2, 就在其添加的carHLH列中的对应空格填写carHLH(+),
❝本节来复现「nature microbiology」上的一张环状热图,图表主要使用「ggplot2」,「ggtree」,「ggtreeExtra」等包来实现,此图的重点不在绘图方,而是在于如何构建绘图数据下面来进行具体介绍 Multi-modal molecular programs regulate melanoma cell state ❞ 加载R包 package.list=c("tidyverse","ggtreeExtra","ggtree","treeio","ggnewscale","pat
1.根据文本内容构建分组 2.针对分组构建不同的颜色 3.构建颜色与文本之间的映射关系
https://www.nature.com/articles/s41467-022-29144-4#code-availability
代码来源的链接是 https://github.com/NearAndDistant/data_science_with_r
❝本节来介绍如何灵活使用「rstatix」来进行数据统计分析,以前都是使用R内置数据来进行展示这次使用论文中的原始数据来进行展示; 加载R包 library(tidyverse) library(rstatix) library(ggpubr) library(ggprism) 数据清洗 df <- read_tsv('F1-a.txt') %>% pivot_longer(-`MUFA-PI / total PI [%]`) %>% group_by(name) %>% summarise(
数分小伙伴们都知道,SQL中的case when语句非常好用,尤其在加工变量的时候,可以按照指定的条件的进行赋值,并且结合其他嵌套用法还可以实现非常强大的功能。
《R for Data Science》: http://r4ds.had.co.nz/
这个网站:https://unicode-table.com/en/blocks/, 可以挑选各种Unicode符号,解锁新形状,应有尽有,再也不怕找不到合适的符号了!
https://www.nature.com/articles/s41477-022-01146-6#Sec44
1.载入包 library(tidyverse) list.files() * * * 2.长宽数据转换 family_data <- read_tsv('C:/Users/Administrator/Documents/R_work/03_BD_L_microbiome/00_rawdata/outfiles/expr.relative_abundance.abfam.txt') head(family_data) # A tibble: 6 x 19 Family `Bd-1-1` `Bd-1-2`
❝本周「VIP群」有个朋友询问下面这张图的绘制方法,需要对两组数据做统计分析并且只给差异显著的添加阴影背景,那么肯定是要全部通过代码来自动实现这些需求;即然观众老爷有需求那小编就来详细拆解一下这张图的代码,下面来看具体案例 ❞ 📷 加载R包 library(tidyverse) library(rstatix) library(ggpubr) library(GGally) library(ggsci) 导入数据 df <- read_csv("easy_input.csv") ❝由于要根据显著性来添
由于时间单位不统一,这里我们转化一下,把单位都统一起来,都转成seconds。🥳
https://www.sciencedirect.com/science/article/pii/S0092867421008916#da0010
作图代码不是难点,主要是作图数据准备成什么格式。这里用来填充颜色的数据,基因不存在统一填充为0,基因存在填充为不同的群体值。
❝本节继续来进行GBD数据库的挖掘,小编在去年写过代码的基础上进行了更加精细的加工,各位观众老爷们细细品味,「数据代码已经上传VIP群,请自行下载」 加载R包 library(tidyverse) library(ggh4x) library(ggsci) library(magrittr) library(grid) 导入数据 df <- read_csv("liver_cancer.csv") 数据清洗 df1 <- df %>% select(measure,year,val,location,
领取专属 10元无门槛券
手把手带您无忧上云