《R for Data Science》: http://r4ds.had.co.nz/
附件下载地址:https://ehoonline.biomedcentral.com/articles/10.1186/s40164-021-00200-x
本文介绍了如何使用dplyr和data.table两个R包进行数据清洗、数据加工和数据分析,通过几个实际案例展示了dplyr和data.table的常用功能和高效操作。
https://www.nature.com/articles/s41564-022-01270-1
由于业务中接触的数据量很大,于是不得不转战开始寻求数据操作的效率。于是,data.table这个包就可以很好的满足对大数据量的数据操作的需求。
关于dplyr的基本操作我已经写过很多笔记了,不再赘述,这篇文章重点介绍 dplyr 的一个函数 do() 的用法。
❝本节来介绍如何「在计算多样性指数的基础上来进行显著性标记」; 加载R包 library(tidyverse) library(vegan) library(magrittr) library(multcompView) 导入数据 alpha <- read.delim("otu_taxa_table-2.xls",sep="\t",row.names = 1) %>% t() %>% as.data.frame() group <- read_tsv("group.xls") %>% set_
tidyverse作为R语言数据分析中的瑞士军刀,非常好用,一个小小的缺点就是速度慢,data.table速度快,所以他们团队又开发了dtplyr,加快运行速度。
大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较。
代码来自《r-data-science-quick-reference-master》的内容。
这里有三个cluster,接下来找其marker基因,并合并成大的dataframe
❝本节来介绍如何给图形添加渐变色背景,通过两个案例来进行展示; 加载R包 library(tidyverse) library(grid) library(RColorBrewer) library(ggh4x) library(scales) library(aplot) 导入数据 sports <- read_tsv("sports.xls") 数据清洗 plot_data <- sports %>% select(exp_men, exp_women, sports) %>% drop
❝之前在一篇论文里面看到一张特殊的组合饼图感觉很不错,下面来构建数据进行复现,来看具体案例❞ 加载R包 library(tidyverse) library(scales) library(ggtext) library(patchwork) library(cowplot) library(RColorBrewer) 定义颜色 mycolors <- colorRampPalette(brewer.pal(12,"Paired"))(21) 构建数据集 df <- tribble(~group,~v
https://doi.org/10.1038/s41588-023-01571-z
数据处理在数据分析流程中的地位相信大家都有目共睹,也是每一个数据从业者面临的最为繁重的工作任务。 在实际应用场景下,虽然SQL(SQL类专业的etl语言)是数据处理的首选明星语言,性能佳、效率高、容易培养数据思维,但是SQL没法处理构建全流程的数据任务,之后仍然需要借助其他数据分析工具来对接更为深入的分析任务。 R语言作为专业的统计计算语言,数据处理是其一大特色功能,事实上每一个处理任务在R语言中都有着不止一套解决方案(这通常也是初学者在入门R语言时,感觉内容太多无从下手的原因),当然这些不同方案确实存在
https://github.com/cxli233/SimpleTidy_GeneCoEx/tree/v1.0.1
❝本周「VIP群」有个朋友询问下面这张图的绘制方法,需要对两组数据做统计分析并且只给差异显著的添加阴影背景,那么肯定是要全部通过代码来自动实现这些需求;即然观众老爷有需求那小编就来详细拆解一下这张图的代码,下面来看具体案例 ❞ 📷 加载R包 library(tidyverse) library(rstatix) library(ggpubr) library(GGally) library(ggsci) 导入数据 df <- read_csv("easy_input.csv") ❝由于要根据显著性来添
1.根据文本内容构建分组 2.针对分组构建不同的颜色 3.构建颜色与文本之间的映射关系
这个网站:https://unicode-table.com/en/blocks/, 可以挑选各种Unicode符号,解锁新形状,应有尽有,再也不怕找不到合适的符号了!
众所周知,tidymodels目前还不支持一键绘制校准曲线!相同类型的mlr3也是不支持的!大家多去github提issue,加速对校准曲线的支持!
上次我们简单介绍了gt包的理念以及基本的用法,今天我们通过一个完整的示例详细说一下gt包的各种用法!
❝本节来介绍如何灵活使用「rstatix」来进行数据统计分析,以前都是使用R内置数据来进行展示这次使用论文中的原始数据来进行展示; 加载R包 library(tidyverse) library(rstatix) library(ggpubr) library(ggprism) 数据清洗 df <- read_tsv('F1-a.txt') %>% pivot_longer(-`MUFA-PI / total PI [%]`) %>% group_by(name) %>% summarise(
如何找到somatic的突变信息的maf文件,仍然是从UCSC的XENA浏览器里面选择NSCLC的里面的LUAD数据集即可,这个是网页里面的鼠标点击操作。值得注意的是网页里面关于同一个癌症有两个跳转链接哦(其中一个带有GDC的前缀):
代码来源的链接是 https://github.com/NearAndDistant/data_science_with_r
通常情况下,我们使用summary函数或者is.na对缺失值进行查看,但是当数据量增大的时候,就显得有点费力了,在visdat包中,有两个函数vis_dat和vis_miss用于可视化缺失查看
1.载入包 library(tidyverse) list.files() * * * 2.长宽数据转换 family_data <- read_tsv('C:/Users/Administrator/Documents/R_work/03_BD_L_microbiome/00_rawdata/outfiles/expr.relative_abundance.abfam.txt') head(family_data) # A tibble: 6 x 19 Family `Bd-1-1` `Bd-1-2`
昨天公众号后台有人留言作图,示例图如下 image.png 我选择使用R语言的ggplot2来实现,这个是箱线图和热图的拼接,右侧的热图可以借助geom_point()函数实现,将点的形状改为正方块,
首先下载数据 https://data.mendeley.com/datasets/5nnw8xrh5m/1
最近安排学徒做文献图表复现,其中一个表达量芯片和测序项目都是同样的处理和对照,所以让学徒做一下这两个表达矩阵的差异分析,比较一下不同技术是否有比较好的吻合。 其中测序是:https://www.ncb
发文章,写论文,分组统计检验直方图是最常见和最实用的,你是否还在烦恼如果把图画好,帮你解决困难啦!这里分享下同事新鲜写就的绘图脚本,自带了示例数据,可以一键出图,助力你的科研和学习。
文章目录 概述 应用场景对比 应用Python的场景 应用R的场景 数据流编程对比 参数传递 数据传输与解析 基本数据结构 MapReduce 矩阵操作 数据框操作 数据流编程对比的示例 数据可视化对
https://www.sciencedirect.com/science/article/pii/S0092867421008916#da0010
情景:假如有下面这些基因 expr logFC p.value gene1 2.4667984 -2.9302068 0.07878848 gene2 1.4482891 -2.9680565 0.04675735 gene3 0.2481085 0.1787332 0.01685758 gene4 0.4244537 -1.0029163 0.02281603 gene5 1.6186835 -1.8350010 0.07323936 gene6 3.3965326
也许很多小伙伴都注意到了,这一期的文章和往期的排版有所不同,因为从这一期开始,大猫将使用markdown来进行写作,并在最后用css来进行渲染输出。原来大猫使用的是秀米等富文本编辑器,最然可以实现很花哨的效果,但是每次编辑的时间可能都比写作的时间长,而且富文本编辑器对于代码块的支持极弱,语法高亮没有就算了,但是代码块无法水平滚动就不能忍。相比之下,markdown不仅对于代码有着先天的支持,而且只要在第一次设定好css,以后每次编辑的时间几乎为零,直接复制粘贴到公众号平台就可以渲染出非常漂亮的网页,简直美滋滋!
STARTRAC是发表于2018年的NATRUE 文章(Lineage tracking reveals dynamic relationships of T cells in colorectal cancer)中的分析方法,可以应用于单细胞免疫组库数据来揭示T细胞动态变化的分析。原理假设认为克隆型一致的细胞来源一致,可以定量刻画T细胞的组织分布、克隆扩增、组织迁移和状态变化等。
有5个基础的函数: - filter - select - arrange - mutate - summarise - group_by (plus)
https://www.science.org/doi/10.1126/science.abg7985
「代码链接」https://gist.github.com/AlbertRapp/438102c458fc8fbdffcb6feb76ff93f7 可以从网站直接获取,如果你下载网速很慢,可以从文末直接获取
https://www.nature.com/articles/s41467-022-29144-4#code-availability
看到了交流群小伙伴分享了一系列数据挖掘文章,都是浙江大学李兰娟院士的学生的成果。其中一个《Characteristic Analysis of Featured Genes Associated wi
其中里面的普通转录组数据集链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE243245
https://github.com/bensutherland/sfon_wgcna
碎碎念:这个没啥好仔细展示的,含义也很直观,主要是要记住有这个函数,等需要用的时候回来找
本文并不表示R在数据分析方面比Python更好或更快速,我本人每天都使用两种语言。这篇文章只是提供了比较这两种语言的机会。
领取专属 10元无门槛券
手把手带您无忧上云