前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >仅提供bam文件的RNA-seq项目重新分析

仅提供bam文件的RNA-seq项目重新分析

作者头像
生信技能树
发布2020-10-26 10:55:12
1.6K0
发布2020-10-26 10:55:12
举报
文章被收录于专栏:生信技能树生信技能树

最近看到一个文章发表于April 2020,在,标题是:《Genome-wide Screens Implicate Loss of Cullin Ring Ligase 3 in Persistent Proliferation and Genome Instability in TP53-Deficient Cells》,这个是文章链接, https://doi.org/10.1016/j.celrep.2020.03.029 感兴趣的可以看看。

它里面提供了其RNA-seq项目的数据库链接在:https://www.ebi.ac.uk/ena/browser/view/PRJEB36947,有意思的是我进入查看,发现其仅仅是上传了bam文件,并没有其它。

如下所示:

仅仅是上传了bam文件

我觉得这是一个蛮好的例子,帮助大家认识RNA-seq数据

首先是表达矩阵的质量控制

大家可以下载这个项目的bam文件,然后走一下featureCounts命令就可以拿到表达矩阵,然后在R里面就可以绘制如下所示的图表.

转录组的基本分析教程合辑

  • 上游分析视频以及代码资料在:https://share.weiyun.com/5QwKGxi
  • 下游主要是基于counts矩阵的标准分析的代码 https://share.weiyun.com/50hfuLi

数据分析是一方面,对图表的理解是另外一方面。下面的图表相当于是项目的质量控制,可以看到两个不同的分组的样本在PCA图里面相距较远,相关性也是组内大于组间。说明这个RNA-seq数据至少从处理的还算是比较好的

表达矩阵的质量控制

差异分析的生物学功能注释

相关性也是组内大于组间,两个不同的分组可以顺理成章的做差异分析, 代码也是在上面分享的链接里面。

但是出下面的图表呢,是把kegg数据库和go数据库的BP,CC,MF这3大类别绘制到了一起,如下所示:

生物学功能注释

个性化分析

仅仅是差异分析和生物学功能注释还不够,那些属于各大科研服务公司的常规分析流程。如果要把自己的项目解释清楚,一般来说需要结合好合适的生物学故事(通路,调控),如下所示:

生物学故事(通路,调控)

pathway(通路,调控)在我这里是其实想指代基因集的别名,其中msigdb有着丰富的基因集,MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb

包括H和C1-C7八个系列(Collection),每个系列分别是:

  • H: hallmark gene sets (癌症)特征基因集合,共50组,最常用;
  • C1: positional gene sets 位置基因集合,根据染色体位置,共326个,用的很少;
  • C2: curated gene sets:(专家)校验基因集合,基于通路、文献等:
  • C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分
  • C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合;
  • C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分)
  • C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 发表芯片数据
  • C7: immunologic signatures: 免疫相关基因集合。

如果你没有足够的生物学背景,我们给大家分享的代码默认是做完这些一万多个生物学功能基因集,即使是筛选了统计学显著的,也还是几百个结果。

从几百个生物学功能基因集里面定位到三五个就足够进行可视化发表啦。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-10-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 首先是表达矩阵的质量控制
  • 差异分析的生物学功能注释
  • 个性化分析
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档