使用R语言做生物信息学数据分析的小伙伴应该是对bioconductor并不陌生了,绝大部分专业内的数据处理包都是在bioconductor而不是在cran,所以大家不能是使用常规的 install.packages 安装。
而是需要先使用 install.packages安装了我们的bioconductor的安装器(BiocManager),然后使用BiocManager的install函数去安装我们生物信息学相关的包。比如:
# https://bioconductor.org/packages/release/bioc/html/GEOquery.html
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("KEGG.db",ask = F,update = F)
BiocManager::install(c("GSEABase","GSVA","clusterProfiler" ),ask = F,update = F)
BiocManager::install(c("GEOquery","limma","impute" ),ask = F,update = F)
BiocManager::install(c("org.Hs.eg.db","hgu133plus2.db" ),ask = F,update = F)
实际上,大家即使是没有学习过R包安装,也可以看得懂上面的bioconductor的安装器(BiocManager)的使用方法,变化R包名字即可,就可以一行行运行代码来安装指定的包了!
而且很多生物信息学包发布在bioconductor的同时还能发表sci文章,比如 MultiAssayExperiment,就是标题是:《Software for the Integration of Multiomics Experiments in Bioconductor》的文章,其bioconductor 链接是:https://bioconductor.org/packages/release/bioc/html/MultiAssayExperiment.html
就是定义了一个数据结构(MultiAssayExperiment)(S4对象),S4对象基本上是R语言分水岭了,无论是理解并且使用它还是创造它,都是一个门槛,甚至我在讲解单细胞数据分析流程的时候,把S4对象的理解作为了基本功!
做生物信息学数据分析的小伙伴应该是对李恒大佬并不陌生,其代表作是BWA系列比对软件,几乎是在二代测序的序列片段比对到参考基因组这个流程里面一统江湖了。
李恒,现任哈佛大学医学院丹娜法伯癌症研究所生物医学信息学助理教授。李恒先后在南京大学和中国科学院理论物理研究所分别获得获学士和博士学位,随后在英国维康桑格研究所( Wellcome Trust Sanger Institute)从事博士后研究。2009年加入麻省理工学院&哈佛大学博德研究所 (The Eli and Edythe L. Broad Institute of MIT and Harvard), 2018年加入哈佛大学医学院丹娜法伯癌症研究所。李恒博士名下仅高被引的Nature/Science正刊论文就有12篇,其中9篇《自然》,3篇《科学》论文,论文总被引用超13万次。
bioconductor每年的会议都是非常好的生物信息学教程,2023的8月初会在大名鼎鼎的 Boston, MA, Dana Farber Cancer Institute 举办:

Boston, MA, Dana Farber Cancer Institute 举办
查阅会议官网(https://bioc2023.bioconductor.org/),映入眼帘的就是李恒大佬:

李恒大佬
而且历年会议资料,包括PPT和录屏都会在bioconductor的官网公开:https://www.bioconductor.org/help/course-materials/

PPT和录屏都会在官网公开
会议的每个分享都充分介绍了bioconductor的各个包的实战经验而且绝大部分都是第一作者亲诉,这样的会议你爱了吗?