前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >12分的Nature子刊叫教你如何研究基因调控

12分的Nature子刊叫教你如何研究基因调控

作者头像
生信菜鸟团
发布2020-10-23 14:31:57
1.3K0
发布2020-10-23 14:31:57
举报
文章被收录于专栏:生信菜鸟团

大家好,今天要和大家分享的是今年二月份发表在Nat Commun(IF:12.121)上的一篇PCAWG项目的文章,High-coverage whole-genome analysis of 1220 cancers reveals hundreds of genes deregulated by rearrangement-mediated cis-regulatory alterations,本文利用PCAWG数据中1220个样本的WGS、RNA-seq以及甲基化数据,分析肿瘤基因组中重排事件对基因的调控关系。我们一起来学习一下吧。

High-coverage whole-genome analysis of 1220 cancers reveals hundreds of genes deregulated by rearrangement-mediated cis-regulatory alterations

1220个样本的全基因组分析揭露重排引起的顺势调控原件变异导致基因表达失调

(讲解者:科研菌 炒年糕)

一、文章背景

肿瘤中功能相关的DNA突变不单单局限于基因的外显子区域。一个典型的例子就是端粒酶基因TERT,不论是其启动子上的非编码体细胞点突变还是其旁的基因组重排,都与TERT的表达上调有关联。肿瘤中的基因组重排很常见且常与拷贝数变异相互联系。与重排相关联的断裂点有可能会改变细胞对邻近基因的调控,像是通过破坏特定的调控原件或转位一个顺势调控原件。

PCAWG项目产生了包含38种癌症在内的2658名样本的WGS数据(全基因组测序),其中包含了包括体细胞结构突变(somatic structure variations,SVs)在内的各类基因组突变数据。作者利用PCAWG中的突变数据并整合包括RNA-seq和DNA甲基化在内的数据,最终挑选了1220个拥有所有这些数据的样本用于研究肿瘤中SVs的断裂点对邻近基因的影响和机制。

这里作者研究的SVs代表基因组重排事件,每个事件涉及两个不同基因组区域的断裂点融合。而且,作者仅关注在不产生基因融合事件或拷贝数变异的情况下,SVs对基因调控的影响。举个例子,比如某一SV的断裂点出现在基因的上/下游,参与了一顺势调控原件的重排从而影响基因的调控

二、文章思路
  • 前期准备
  • 后续分析
三、结果解读
1.体细胞结构突变对基因表达量的广泛影响

有研究表明,一些肿瘤中,发生在TERT基因区域旁的基因组重排事件会导致其表达上调。作者因此受启发想要研究泛癌水平,所有表达量因类似原因而受到影响的编码基因。首先作者系统分析了基因区域旁有SV断裂点的基因表达量受到的影响

  • F1A:作者先是按SV断裂点所在的位置(如下图横坐标),对1220个癌症样本中的SV断裂点位置以及基因受到的影响做了统计,其中若样本中某基因内部有SV断裂点,则该基因不再算到其它区域的断裂点下。可以看出在基因内出现的断裂点数量是最多的

图1.样本中SVs断裂点的分布以及影响

  • F1B:作者利用线性回归模型分别研究5个基因区域中,某一基因表达量(log(FPKM-QU))与相应的SV事件(SV断裂点至少为一)间的关系。此外作者还在回归模型中考虑了癌症类型和CNV的影响,构建了基因表达量的SV+癌症类型和SV+癌症类型+CNV的模型。最后,每个回归模型至少包括三个样本。在矫正肿瘤类型和SNV影响后的三因素模型中(即绿色部分),若SVs对基因表达量的影响显著(p<0.001,FDR<4%,采用Storey and Tibshirani1 法),则该基因用于下游分析。下图三种颜色分别表示三类模型中表达量显著受到SV影响的基因个数,高于水平线表示正相关,低于水平线表示负相关
  • 在没有排除CNV的影响的情况下,模型中SV作用显著的基因数更多,说明这些SVs与基因拷贝数增加有很强的关联

图2.各区域中各基因模型显著的数量

  • S1B:作者也考虑了诸如肿瘤纯净度,倍性和样本SV事件总量对模型的影响,在排除这些因素后,显著的基因数量并没有什么变化,故可以排除它们对基因表达量的影响
  • S1C:作者也考虑了更大范围(-1~1MB)内SVs对基因表达量的影响,同样也有较高数量的表达量显著受到SV断裂点影响的基因

图3.不同因素以及SV范围下各基因模型显著的数量

  • F1C:此外,作者比较了5个基因区域中显著的基因,发现显著的基因间有很大一部分是相互重叠的

图4.不同区域内用于下游分析的基因数有重叠

2.受邻近SV断裂点影响的关键肿瘤驱动基因
  • T1:在表一中作者总结了表达量与SV事件显著正关联的常见的肿瘤驱动基因在5个基因区域中SV断裂点的数量。像是TERT、MYC、MDM2、CDK4、ERBB2、CD27、IGF2等肿瘤驱动基因,他们的表达量与基因周围区域的SV断裂点数量有很显著的正性关系
  • 此外,包括PTEN、STK11、KEAP1、TP53等抑癌基因在内,他们的表达量与周围区域的SV断裂点数量有着显著的负性关系,说明基因组的重排事件会下调重要的肿瘤抑基因的表达

表1.肿瘤驱动基因表达量受各区域内SVs影响

  • F1D:对所有显著与SV数量呈正相关的基因(p<0.001,FDR<4%)进行GO富集分析发现,图中的5条通路是显著富集的,它们分别是G蛋白偶联受体活性、角蛋白纤维、胰岛素受体结合、端粒酶全酶复合体、真核生物转录起始因子2B复合体

图5.基因GO富集分析结果

  • F1E:作者对图5中后三个富集到的通路中的标志基因做了SV突变信息的瀑布图以及表达量的热图,基因表达量的水平根据所有样本中该基因表达量的中位数决定。可以看出,有大量样本在这些基因的各区域中存在SVs,且表达量明显受到影响。图中的灰点表示基因倍增现象(定义为有5个或以上的拷贝数),他们常伴随这SV而出现。而且单独出现的扩增现象并不能解释基因表达量的上升。

图6.基因SVs位置以及表达量的热图

端粒酶基因TERT是常见的肿瘤驱动基因,可以使癌细胞拥有无限复制的能力,作者在下面研究了SVs对TERT基因的影响

  • F2A:通过Cicros图来展示发生在TERT基因上的SV事件。发现在TERT基因上游区域(0-100kb)发生的转位事件可以来自5号染色体内也可以来自其它染色体
  • F2B:在TERT基因上游区域有SV断裂点的84个样本,大多数样本属于肝胆系统癌症(n=29),还有黑色素瘤(n=17)、肉瘤(n=15)
  • F2C:此外大多数断裂点在TERT基因上游0-20kb的范围内,而此区域也是TERT与SVs断裂点数量最相关的区域(线性回归模型,p<1E-14)。图中可以看出,SVs断裂点在TERT基因上游的样本其TERT表达量较高

图7.TERT表达量受到上游SVs的影响

  • F2E:之前有研究发现在神经母细胞瘤中,TERT基因启动子区域旁的增强子转位事件会引起其表达上调。作者在此检查了TERT上游SVs断裂点上游0.5MB区域内的增强子数量,对于TERT未发生突变的样本(无SVs,无启动子区域突变),上游0.5Mb内平均增强子数量为21个(图中虚线);而上游有SVs的样本平均值为30,要显升高(p<1E-6)
  • F2D:在对TERT表达量的研究中,可以发现SVs断裂点与TERT基因的位置越近,TERT表达量也越高这样一趋势,两者呈显著的负相关(p<0.03,Spearman)。图中黄色表示启动子区域突变。

图8.TERT增强子数受到上游SVs的影响

  • F3A:在F1B中,作者发现当在模型中不排除CNV的影响时,有很多基因与SVs断裂点的关系是显著的,其中就包括TERT基因和MDM2,说明SVs的发生于很多基因拷贝数变异是相关的。下图两基因表达量和CNV的关系也可以看出,样本中该基因若发生SVs,其CNV的数量也会提高。

图9.SVs影响基因的CNV数量

  • F3B:但是单独考虑CNV不能解释所有样本中该基因表达量上升的现象。如图F3B,展示了基因单独SVs的样本和Amp的样本(若有Amp又有SV则归为Amp)在表达量上的情况,与unaligned样本比,都会在该基因的表达量上显著提高
  • F3C:单独以TERT为例,左侧热图为PCAWG样本中在TERT基因上的各类突变情况,它们都可以导致TERT基因在表达量上的提高,且上游处SVs导致的表达量上调最多

图10.分析CNV与各区域SVs对基因表达量的影响

作者下面研究了两个免疫检查点基因,PD1和PDL1与SVs的关系

  • F4A:在PD1和PDL1这两个重要的免疫检查点基因的表达量上升与两基因处发生的SVs有关。两基因的表达量在SVs样本中与发生了扩增的样本相比(红色),表达量是显著上升的(p<0.0001)
  • FAB:在1220个样本中,有19个样本在其中一个基因上有SVs,而两个基因都位于9号染色体上且相临近,这些SVs集中在PD1上游50kb和PDL1下游20kb处。对于大多数样本,SVs断裂点位于基因的边界,但是不管断裂点位置在哪,两个基因的表达量都有升高

图11.PD1、PDL1表达量受SVs影响

3..转位的增强子和变异的DNA甲基化模式
  • F5A:类似于研究TERT中SV引起的基因上游增强子增多,作者又用相同方法研究了其他致癌基因,除了MDM2基因上游的(0-20kb)SVs会导致增强子数量减少,其他像是CDK4和ERBB2的结果都与TERT一致
  • F5B:针对1233个在0-20kb上游区域有至少7个SVs断裂点的基因,比较突变与未突变样本在该基因上游断裂点上0.5Mb内增强子的数量上的差异。有24%的基因是有显著差异的(p<0.01),然而大多数基因在上游有SVs后,其上的增强子数量减少。说明SVs引起的增强子增多只能解释部分基因的表达量上升
  • F5C:针对829个基因(上游0-20kb范围内SVs数量至少5个,且断裂点要在基因起始位点和未突变时最近的增强子之间),比较突变与未突变样本在相应基因与最近的增强子间的距离上的差异。结果表明,在突变的样本中,8.3%的基因是与增强子间平均距离显著减少了(p<0.01);只有1%的基因在距离上显著增加

图12.SVs对各基因上游增强子的影响

作者继续研究受SVs影响的基因在DNA甲基化模式上的改变

  • F6A:通过分析8256个基因的表达量和27K甲基化芯片得到的相应基因甲基化数据(两者都log转换后计算相关性,Pearson),发现两者间整体呈现负相关。图中对相关系数以t分布的形式呈现,红色是受上游SV影响表达量升高的基因(n=263),蓝色是所有有甲基化数据的基因。可以看到红色基因的分布与蓝色比更倾向于正态分布
  • F6B:在考虑某基因在至少三个样本中有SVs后,剩下了2316个基因,同样以t分布的形式呈现基因表达量和甲基化程度的相关性,此时红色表示受上游0-20kb范围内SVs影响表达量显著上升的基因(n=97)。
  • F6C:关于TERT基因,研究表明位于其核心启动子附近的CpG位点已知含有一个抑制元件,此位点非甲基化会导致CTCF结合位点的开放和TERT的转录抑制。图C比较不同突变下TERT启动子处甲基化值,发现只在上游0-20kb内的SV与CpG岛甲基化值的增高相关联,而在20-50kb范围的SV与之无关。其它像是启动子区的点突变(PM SNV)也会导致甲基化的升高,从而引起TERT过表达。

图13.SVs对个各基因甲基化模式的影响

到这里本文的工作就结束了。本文作者利用PCAWG数据中1220个拥有WGS、RNA-seq以及甲基化数据的样本,研究SV对基因的调控作用。先是根据SV断裂点相对于基因的位置分为5个区域,通过构建线性回归模型寻找各区域中表达量显著受SV断裂点数量影响的基因用于后续分析。通过总结发现大多数肿瘤驱动基因的表达量因上游SV的存在而升高。同时还发现基因上游的SV可以影响到基因上游的增强子以及基因的甲基化模式,由此对基因的表达量起到调控作用。今天的分享到这里就结束啦,我们下期再见~

编辑:炒年糕Yummy

校审:虾仁饭 糯米饭

友情推荐:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、文章背景
  • 二、文章思路
  • 三、结果解读
    • 1.体细胞结构突变对基因表达量的广泛影响
      • 2.受邻近SV断裂点影响的关键肿瘤驱动基因
        • 3..转位的增强子和变异的DNA甲基化模式
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档