今天跟大家分享的是2020年2月发表在Nature(IF:43.07)杂志上的一篇文章“Genomic basis for RNA alterations in cancer”.在文章中研究者们提出了一个跨越27种不同的肿瘤类型的全面的RNA水平变化目录,在基因组背景下,这种RNA改变为鉴定与癌症相关的功能基因和机制提供了丰富的资源。
有人留言给小编,说PCAWG就是另外一个TCGA;看了几期推文下来,不知道大家是否还会有类似的想法?欢迎留言讨论。
Genomic basis for RNA alterations in cancer
癌症中RNA改变的基因基础
(推文分享者:科研菌-碎碎冰Chan)
为了更广泛地研究癌症基因组的变化,特别是在非编码区域,成立了PCAWG项目,以分析ICGC和TCGA项目大量全基因组样本做出贡献。证明转录组学数据在理解特定DNA改变的不同维度如何致癌作用中的重要性,并绘制出与癌症相关的RNA改变的图景。

这项研究由PCAWG Transcriptome工作组对来自27种肿瘤类型的1,188个样品的可用匹配转录组和基因组图谱进行了联合分析。研究者们证明了转录组学数据在理解特定DNA改变的不同维度如何致癌作用中的重要性,并绘制出与癌症相关的RNA改变的图景。
图S1展示了:本项分析中RNA-Seq比对和基因表达量化工作流程以及用于检测其他类型RNA改变(包括RNA融合、替代启动子、替代剪接、等位基因特异性表达和RNA编辑)的计算方法。

图S1.研究分析方法
为了研究不同类型RNA改变的潜在机制,研究者首先关注基因表达水平的变化。最初考虑了接近单个基因(±100 kb)的常见种系变异(次要等位基因频率≥1%),并在整个队列中绘制了表达定量性状基因座(eQTLs)(图S1)。这项分析鉴定了3,532个基因,其eQTLs(以下称为eGenes),富含转录起始位点(TSS)的近端区域。

图S1:种系eQTL诱导变体
为了识别癌症特异性调控变异,研究者们将eQTLs与GTEx项目中的eQTL进行了比较并评估eQTLs的复制,并探索在GTEx组织中具有边缘意义的eQTLs突变体(图S2)。虽然在GTEx样品中可以检测到大部分的突变体(3,532个eQTLs变异体中有3,110个),研究者们鉴定了422个不与GTEx组织相对应的eQTLS,在异色区富集了相应的eQTL突变体,这表明癌症具有特定的调控作用。
总的来说,这一分析揭示了基因表达调控的种系框架在肿瘤组织中比较保守。

图S2.PCAWG特异的eGenes
研究者们还研究了整个基因组可能的体细胞DNA改变,这是基因表达改变的基础。接下来,考虑到cis中常见的突变负荷,以及cis生殖系变异和体细胞拷贝数改变(SCNAs),研究者们对单个基因的表达变异进行了分解,发现SCNAs是表达变异的主要驱动因素(17%),其次是基因侧翼区的体细胞SNVs(1.8%)和生殖系变异(1.3%)。研究者们还研究了体细胞eGenes的功能特性,并发现TEKT5等癌睾丸基因二价启动子中体细胞 eQTLs的富集(P = 0.04,)。
图1a:Epigenetics Roadmap 富集分析,显示了PCAWG泛癌分析特定以及在GTEx组织中复制的eQTLs中跨细胞系的Roadmap因子的平均倍数变化。
图1b:基因表达水平的方差分析。
图1c:曼哈顿图,显示了TEKT5的nominal P值。
图1d:展示了突变signature与基因表达之间的关联。
图1e:仅考虑SCNA(体细胞基因拷贝数的改变),种系eQTLs,编码和非编码突变下,AEI存在的标准化效应大小。

图1.与表达相关的种系体细胞SNVs
研究者们进行了全基因组突变特征和基因表达水平之间的泛癌关联分析,来破译伴随突变特征的存在的分子过程。
首先测试了供体中的标志性患病率与总基因表达之间的关联,说明了总突变负荷,癌症类型以及其他技术和生物学混杂因素,鉴定出了相关的1,176个基因(图S3)。

图S3:基因表达与突变特征之间关联研究的质量控制
接着还对18个(带有20个或更多特征)的相关基因进一步注释并使用GO类别和反应体通路评估富集,发现11个特征至少在一个类别中得到富集。例如,signature 38与signature 7(典型的暴露于紫外线导致突变)相关,可以推测signature 38也与暴露于紫外线有关联(图S4)。

图S4.突变特征与基因表达模式之间的关系
为了分析单个单倍型水平的表达,研究者们研究测试了等位基因表达失衡(AEI)。
观察到在不同类型的癌症之间AEI基因显著差异(图S5),以及在癌症和相应的健康组织之间观察到等位基因DNA和RNA水平失衡。

图S5.AEI等位基因表达失衡分析
研究发现,SCNA是癌症等位基因失调的主要驱动力。
总体而言,SCNA占解释的变异总数的84.3%,这证实了从体细胞eQTL分析中得到的发现,其次是种系eQTL前导变异体(9.1%),体细胞SNV(4.9%)和印迹状态(1.7%)(图S6)。

图S6.SCNA是癌症等位基因失调的主要驱动力
研究者们为了估计单个基因启动子的活性,结合了在相同或附近的TSS中启动的同工型的表达。然后假设它们是从同一启动子转录而来(图S7)。
研究者将启动子分为三类: (1)无活性的启动子(每百万个碱基对的图谱读取(FPKM)活性<1个片段/千碱基的片段);(2)主要的启动子(每个基因的活性最高);(3)次要的启动子。 并检查了它们的突变率。

图S7.启动子活性和非编码启动子突变的关联和模式的估算概述
选择性剪接被认为与癌症异质性有极大的关联。研究者们明确了解剪接变化与内含子内体细胞突变之间的关系。
以盒式外显子事件为重点,将体细胞变体和剪接事件的定量整合在一起,并在外显子-内含子边界附近识别出5282个突变,其中1800个(34%)与剪接的变化有关。与之前使用外显子组序列的研究结果一致,大多数与受体或供体位点的基本二核苷酸基序重叠的突变以及和剪接变化相关(分别为61%和57%),在5’位点下游的5个核苷酸窗口中,近三分之一的突变(469个突变中有226个突变)显著富集了剪接变化。
研究者们以内含子深处的新剪接位点为研究重点,分析了内含子的脱附程度,即内含子内新外显子的形成。
分析发现超过五分之一的新外显子(43个中有9个)出现在与癌症相关的基因中,例如众所周知的肿瘤抑制基因STK11,正是外显化事件导致STK11的移码。
图2a:显示与外显子跳跃事件相关的外显子-内含子连接点附近和分支部位的突变比例;
图2b:抑癌基因STK11中的外显子事件的例子;
图2c:与序列背景(BG)相比,SAV中SINE元素的富集。

图2:体细胞突变对选择性剪接的位置特异性作用
基因融合是一类重要的致癌事件,具有诊疗价值。
研究者们通过结合基因融合发现方法的输出和基因组重排,一共确认了925个已知的和2372个新的癌症特异性基因融合。
对代表3297个独特的基因融合的3540个已识别的融合事件,研究者们根据新颖性、复发性和已知的致癌基因伙伴对其进行了分类。
分析结果也发现当中大量的融合,包括已知的融合,不能仅与单一的结构变异事件相关联。
例如,在头颈部甲状腺癌样本中存在ETV6-NTRK3基因fusion42,将ETV6外显子4与NTRK3外显子12连接起来。
此外,研究者们在同一样本中发现了三个独立的结构变异:

图3:与RNA融合相关的结构重排
鉴于全面的RNA改变,研究者们试图表征癌症基因组和转录组改变的异质机制。为了能够联合分析RNA和DNA的变化,研究者们创建了一个基因水平表,该表指示了每个基因和供体对RNA或DNA可能存在的功能性变化。根据所有组织类型的每个RNA和DNA水平改变关联程度之间的计算,发现近一半的RNA改变与DNA改变显著相关(图S8)。

图s8.体细胞基因组改变的数量与RNA改变的相关性
当比较所有组织类型的基因改变频率的时候,研究者们注意到不同类型的癌症包含不同的DNA和RNA水平改变的组合(图4)。
不同类型的改变使研究者们能够研究癌症相关的不同基因和表达特征之间的跨关联。 通过研究已知癌症基因的体细胞突变是否与其他基因的表达有关,发现IDH1和NFKBIE与许多基因的失调有广泛的联系。有时甚至在几种癌症中同时出现。例如,在非霍奇金淋巴瘤和肺鳞癌中同时观察到B2M和EIF4G2的改变。
其次对与所有B2M变化相关的Top100基因进行的通路富集分析表明,受影响最大的基因参与了DNA修复,其中约三分之二的关联在一种以上的癌症类型中显著富集。
研究者们还通过共现分析研究了其他基因如何影响癌症基因。PCBP2的表达异常与包括CTNNB1和CDK4在内的大量癌症相关基因的异常剪接有关。
该分析鉴定了携带RNA和DNA改变最频繁的731个具有明显复发性畸变的基因。RNA改变占每个基因中所有已确定的改变的0.05-99.14%(平均值:78.23%)。
分析也证明了对各种RNA和DNA改变进行复发分析可以帮助鉴定已知在肿瘤发生中重要的基因。
总的来说,研究者的分析显示了在DNA和RNA水平上癌症基因和通路的不同变化模式,并证明了RNA分析揭示了癌症相关通路的变化,但是这些变化还没有通过DNA方法检测到。

图4:影响肿瘤的DNA和RNA改变的整体图
这项分析里研究人员们分析了1188个转录组的数据,发现拷贝数变异仍然是癌细胞中驱动基因表达变化的主要因素,但数百个单核苷酸突变也会影响到周围基因的表达。此外,癌细胞里的一些突变还会引起转录信息的变化,如产生新的蛋白编码序列等。本项研究结果也深刻证明,将RNA和DNA测序分析整合在一起,将在癌症研究中发挥强大作用。
本项分析主要的发现结果提炼如下: