最近看到一个文章发表于April 2020,在,标题是:《Genome-wide Screens Implicate Loss of Cullin Ring Ligase 3 in Persistent Proliferation and Genome Instability in TP53-Deficient Cells》,这个是文章链接, https://doi.org/10.1016/j.celrep.2020.03.029 感兴趣的可以看看。
它里面提供了其RNA-seq项目的数据库链接在:https://www.ebi.ac.uk/ena/browser/view/PRJEB36947,有意思的是我进入查看,发现其仅仅是上传了bam文件,并没有其它。
如下所示:
仅仅是上传了bam文件
我觉得这是一个蛮好的例子,帮助大家认识RNA-seq数据。
大家可以下载这个项目的bam文件,然后走一下featureCounts命令就可以拿到表达矩阵,然后在R里面就可以绘制如下所示的图表.
转录组的基本分析教程合辑:
数据分析是一方面,对图表的理解是另外一方面。下面的图表相当于是项目的质量控制,可以看到两个不同的分组的样本在PCA图里面相距较远,相关性也是组内大于组间。说明这个RNA-seq数据至少从处理的还算是比较好的。
表达矩阵的质量控制
相关性也是组内大于组间,两个不同的分组可以顺理成章的做差异分析, 代码也是在上面分享的链接里面。
但是出下面的图表呢,是把kegg数据库和go数据库的BP,CC,MF这3大类别绘制到了一起,如下所示:
生物学功能注释
仅仅是差异分析和生物学功能注释还不够,那些属于各大科研服务公司的常规分析流程。如果要把自己的项目解释清楚,一般来说需要结合好合适的生物学故事(通路,调控),如下所示:
生物学故事(通路,调控)
pathway(通路,调控)在我这里是其实想指代基因集的别名,其中msigdb有着丰富的基因集,MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb
包括H和C1-C7八个系列(Collection),每个系列分别是:
如果你没有足够的生物学背景,我们给大家分享的代码默认是做完这些一万多个生物学功能基因集,即使是筛选了统计学显著的,也还是几百个结果。
从几百个生物学功能基因集里面定位到三五个就足够进行可视化发表啦。