长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal)TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)TCGA的28篇教程- 数据下载就到此为止吧TCGA的28篇教程- 指定癌症查看感兴趣基因的表达量TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析TCGA的28篇教程-整理GDC下载的xml格式的临床资料 TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案
通过前面的学习我们掌握了TCGA数据库的下载技巧以及初步探索技巧,但是距离一个完整的数据挖掘故事还有一点路,本教程首先介绍数据挖掘三板斧之ceRNA。 内容有点多,我会首先分享我们生信文献俱乐部的小伙伴的文献阅读笔记,最后附上ceRNA演讲的PPT。
ceRNA在线工具LncmiRSRN
PUpILn.png
Motivation: 目前一些计算方法都是基于2011年的那个ceRNAs假设,研究lncRNAs和miRNA靶mRNAs之间的竞争关系。但是,当mRNAs脱离miRNAs的控制之后,海绵lncRNAs如何影响这些mRNAs的表达水平还不是很清楚。
Results: 所以,本篇文章作者提出一个新的方法用来构建lncRNA related miRNA sponge regulatory networks (LncmiRSRNs)。然后基于这个方法,作者对4个人类癌症分别建立了调控网络,最后对这些网络进行了分析。
提出问题:
首先看一下作者的论题是怎么提出来的,我们知道miRNA海绵与mRNAs竞争吸引miRNAs的结合,缩减了miRNA转录本的数量。这些miRNA海绵从靶mRNAs竞争性的扣押了miRNAs,因此mRNAs脱离了miRNAs的控制。当mRNAs从miRNAs的控制中被释放出来,一个需要考虑的问题是这些被释放的mRNAs的表达水平是怎样被激活的,也就是说它们是怎么恢复翻译的。
一个可能的解释是释放的mRNAs的表达水平通常由其自身激活,并且原则上可以被翻译,这个解释是ceRNA假说的一个隐含的推论。另外,如果释放的mRNAs仍然处于一个未激活状态,那么它们的表达水平是如何被激活的呢? 先前的研究表明lncRNAs可以增加mRNA的稳定性并因此调控mRNA的表达。因此,另一个可能的解释是这些释放的mRNAs的表达水平是被它们竞争伙伴激活的,例如海绵lncRNAs。
提出假设:
所以,在这篇文章中作者做出的假设是,lncRNAs作为潜在的调控者激活脱离miRNA控制的mRNAs的表达水平。因此,这篇文章的目的也就是探索lncRNAs和释放的mRNAs之间的调控关系。作者的方法区别于目前存在的一些方法,那些方法仅仅在于识别lncRNA相关的海绵网络。
创新之处:
现存的方法都是基于统计相关性来研究海绵lncRNAs和mRNAs之间竞争关系,然而根据假设,海绵lncRNAs和mRNAs之间存在因果关系,所以作者提出了一个基于因果的计算方法。
然后我去查了一下这个所谓的因果关系,现在对大数据分析的传统方法是我们熟知的做统计性的关联、聚类和分类等分析,注重的是数据的关联性,但是如果A和B具有相关性,则只能反映A和B在取值时相互影响,并不能告诉我们具体谁影响谁。所以传统的统计方法不能检测出这种因果关系,而因果关系很大程度上阐释了事物间的本质联系,所以研究者们为了从观测数据中推断相关事物可能存在的因果关系,开发了一些新的计算方法。这里作者用的是IDA、PC算法,有兴趣的可以具体了解一下算法的原理。
Du,Z. et al. (2013) Integrative genomic analyses reveal clinically relevant long noncoding RNAs in human cancer. Nat. Struct. Mol. Biol., 20, 908–913.
PUpRJS.png
作者提出的方法主要包括以下几个步骤:
基于这个流程,作者分别对四种癌症构建了4个调控网络;
PUpWRg.png
图A是4个癌症中调控网络的节点度的分布,所有的分布均符合幂律分布,R2>0.95,表明这四个LncmiRSRNs都是无尺度的,复合大规模的真正的生物学网络;
图B是统计的海绵lncRNAs对mRNAs的因果效应,在四个癌症中正调控对都远超于负调控对,表明大多数海绵lncRNAs对mRNAa的表达水平都是积极的影响,反过来讲,就是mRNAs通常受海绵lncRNAs的上调;
图C和图D分别四个癌症中海绵lncRNA-mRNA调控关系和hub lncRNAs的交集,下面的是相似矩阵。 图中可以看到很小的一部分是在四个癌症共有的,大部分都是癌症特异的,说明调控关系在不同癌症中大都是重布线的。
接下来作者拿出差异的和保守的海绵lncRNA-mRNA调控关系子网进一步分析;
PUp2i8.png
图A是子网的节点度分布,也都复合幂律分布,属于无尺度网络;
为了评估四个癌症中是否存在一个共同的核心调控关系,作者重点探究了保守的调控子网。图B是在四个人类癌症中都存在的调控网络,查询到了其中5个lncRNAs和14个mRNAs是在在现有的癌症相关的数据库中描述为为与这四种癌症至少其中一个是有关的;
图C是在GBM癌症数据中做的生存分析,使用保守的调控子网中的lncRNAs和mRNAs作为协变量建立多因素Cox风险比例模型,然后根据计算出的风险得分将样本分为高风险群体和低风险群体,然后计算群体之间的风险比例Hazard Ratio(HR),最后进行log-rank test,产生这个Kaplan Meier曲线。图C风险比例为2.28,检验P值为0,表明保守子网的这些lncRNAs和mRNAs可以作为预后基因用来区分GBN患者的转移风险;
这四张图都表明保守的调控子网可以作为人类癌症之间共同的调控枢纽。
PUpcIf.png
结果的第三块,作者分析了找到的hub lncRNA。这里作者共找到69个差异的和70个保守的hub lncRNAs,其中2个差异的、9个保守的hub lncRNAs可查询至少与四个癌症中的一个有关系(图A),表明这些hub lncRNAs可能是癌症的驱动者;
然后作者还是重点关注保守的hub lncRNAs,图4B是用它们做的生存分析得到的风险比例和检验P值,表明这些hub lncRNAs可以显著的区分这四个癌症的转移风险;
图4C描述的是这些保守的hub lncRNAs它们对应的调控关系在四个癌症中的分布情况,可以看出大部分的调控关系倾向于是癌症特异的,表明保守的hub lncRNAs在不同癌症的生物学进程中调控不同的靶标;
结果的第四部分是对保守的和差异的网络模块进行功能注释。作者总共识别的差异和保守的模块分别为55个和29个。功能富集分析显示52个差异模块和28个保守模块至少富集有1个GO条目和KEGG通路。将癌症相关的基因map到这些模块,结果发现所有的模块都包含至少与一个癌症有关的基因。结果表明这些差异和保守的模块可以作为癌症相关的模块。
结果第五部分,作者用差异和保守的模块做生存分析,寻找HR不<1.5,P<0.05的模块作为模块生物标记,用来预测这四个癌症患者的转移风险。最后对应于四种癌症,分别有14,28,13,15个差异的模块,3,14,2,10个保守的模块。
PPT分享
ceRNA点读