今天跟大家分享的是2020年3月发表在Nature(IF=43.07)杂志上的一篇文章Patterns of somatic structural variation in human cancer genomes。文章中作者解释了人类癌症基因组中体细胞结构变异的模式。
Patterns of somatic structural variation in human cancer genomes人类癌症基因组中体细胞结构变异的模式
癌症中一个关键的突变过程是结构变异,其中重排删除,扩增或重新排列若干碱基到整个染色体的基因组片段。在这里,作者使用ICGC和TCGA的全基因组全癌基因分析协会(PCAWG)的数据,开发了对体细胞结构变异进行分组,分类和描述的方法,处理来自38个肿瘤类型的2,658个癌症的基因组测序数据。这其中出现了16种结构变化的特征,已知缺失具有多峰大小分布,在各种肿瘤类型和患者中分布不均,在晚期复制区域富集并与倒位相关;串联复制也具有多峰大小分布,但是在早期复制区域中富集-不平衡易位。基于复制的重排机制可产生具有低拷贝数获得和频繁倒排重排的各种染色体结构,其中一种突出的结构由2-7个模板组成,这些模板是从一个基因座内串在一起的基因组的不同区域复制而来的。模板插入的这种循环与串联重复相关,并且在肝癌中经常激活端粒酶基因TERT。癌症中存在各种各样的重排过程,这些重排过程会产生复杂的基因组构型,从而可以进行选择。
“结构变异”表现为基因组中两个“断点”之间的“连接点”。通常,如果仅中断的一侧被结构变体挽救,则给定断点的拷贝数将发生变化;如果结构变体挽救了双链DNA断裂的两面,将产生“相互”或“平衡”的结构变异,而拷贝数没有实质性变化。
我们有时会观察到“结构变异簇”,其中几个断点在时间上或在基因组空间中通常都是同时出现靠在一起。这样的空间和/或时间上的接近通常但并非总是暗示着群集内的结构变体是机械地链接的。簇可以是“分阶段的”(簇中的所有结构变异都解析为单个衍生染色体)或“非分阶段的”,在这种情况下,结构变异携带在不同的衍生染色体上。后者的一个例子是相互易位,导致两个衍生染色体,每个染色体都有一个染色体间的断点连接(图1)。
产生结构变异的更复杂的剪切和粘贴过程也发生在癌症中,“断裂-融合-桥”事件是由DNA断裂,端对端姐妹染色单体融合,有丝分裂桥和进一步DNA断裂的循环导致的。这些事件表现为一个或几个接近的,反向的断点连接以及相关的拷贝数变化,我们称之为“fold-back inversions折返反向”。
图1为估计的拷贝数分布图,主要结构变量(SV)类的示意图,我们从交界处两个片段的方向和相关的拷贝数变化中识别出不同的“结构变异类别”,根据它们的简单或复杂程度进行分组,并通过剪切粘贴或复制粘贴过程生成。每个原理图包括三个部分:
段的颜色与副本编号示意图中该段的颜色相对应。+表示为某些类别创建的不同的衍生染色体:也就是说,结构变异未定相为单个衍生物。作者描述了人类癌症中广泛存在的各种复杂的复制和粘贴类型的体细胞结构变异,其特征通常在于复制数增加和频繁的倒排重排。
SV:主要结构变量
图1. 癌症基因组中结构变异的分类
作者分析了通过PCAWG质量控制标准的38个肿瘤类型(包括匹配的种系DNA)的2,559个完整癌症基因组:在2,429个肿瘤中检测到一个或多个体细胞结构变异体。
通过现有文献已知,结构变异是通过配对末端测序数据中的异常映射和/或拆分读取来鉴定的。
辅助实验:作者使用了4个体细胞结构变异调用者,最终的结构变异数据集包含≥2个调用者返回的事件,并通过基于图的共识方法进行了合并。在此分析中,作者仅考虑体细胞获得的结构变异,并排除体细胞逆转座事件。结构变量调用的验证是通过人工检查和下拉菜单以及断点重新排序进行的。通过这些方法,对于4个调用者中的任意1个生成的真实调用,就可以得到可靠结果。
由于来自给定癌症的结构变异通常高度聚集,因此作者根据断点的接近程度,基因组中事件的总数和这些事件的大小分布将这些重排分组为一组,从本质上讲,给定该患者的结构变体的总数和方向,特定簇包含的结构变体比偶然预期的靠得很近。除聚类外,作者还计算了一个由序列简单的结构变异(缺失,串联重复,倒位,易位,染色体重复或丢失)产生的所有可能的基因组构型的计算机文库,深度达5个重排。然后作者可以将每个观察到的结构变异簇的基因组构型与文库进行比较,以确定其可能如何产生。这种方法可以根据发生断裂的更广泛的基因组背景对断裂点进行分类。
可以观察到,超过一半的断点连接出现在几个或多个结构变体的簇中:从真正的缺失,串联重复和倒置的目录中删除这些连接可以更精确地描述其特性简单的结构变体。根据下图跨肿瘤类型的结构变异类别的频率:下图是按照肿瘤类型面板按每个样品的结构变异断点平均数目的降序排列的。在每种肿瘤类型内,不同患者的不同结构变异类别(x轴)的频率分布(y轴)显示为密度:密度最高的区域具有最大的阴影区域宽度。在每个面板中,患者数量显示在右上方(图2a)。由图可以得到结论:在简单的结构变异中,最常见的是缺失,其次是串联复制,然后是不平衡的易位。相互易位和相互倒置是不常见的事件。
图2a. 每个组织学组中不同患者分类的结构变量类别的密度的小提琴图
在不同类型的肿瘤之间以及在给定肿瘤类型内的患者中,结构变异类别的总数和分布存在很大的差异,例如食管腺癌的特征是许多缺失和大量复杂的簇状重排(图2b)。
图2b. 每样本计数的复杂(底部)和食管腺癌分类(顶部)结构变异断点
卵巢癌通常携带大量串联重复和/或缺失,并伴有中等数量的不平衡移位(图2c)。
图2c. 卵巢腺癌的复杂(底部)和分类(顶部)结构变异断点的按样本计数
接下来作者检查了包含2-10个结构变异的簇。一种新近确定的构型由通常在不同参考染色体上的几个拷贝数获得片段组成,这些片段通过结构变体链接在一起,集群中各个片段的拷贝数增益水平趋于相同(图3)。通过遵循断点连接,可以形成通过连续段的顺序路径,这表明每个簇代表一串重复的模板,这些模板插入到单个衍生染色体中,可能是同时获取的。经过作者的分析,此类簇中的结构变异一定在同一衍生染色体上定相。
作者根据插入片段的字符串是否返回到原始染色体来定义三个基本类别:将把插入片段的字符串不返回模板称为插入的“链”,将那些返回的字符串称为“桥接”(在宿主染色体上留下缺口),或者称为“循环”(在宿主染色体上复制一个片段)。在整个PCAWG数据集中,作者观察到了1,467个循环和1,275个模板插入的桥(图3a,b),在模板插入的链中,一连串的基因组片段不会返回到出发染色体,但是它与每个模板片段的拷贝数增益相似(图3c)。数据集中有285个此类链条实例,通常表现为通过一个或多个中间模板插入插入的不平衡易位。
补充说明,大多数模板化插入事件仅涉及两个断点连接,但是这也可以扩展到3个,4个或更多链接的重排(图3a);最长的此类事件-来自宫颈鳞状细胞癌-在第八条宿主染色体上串在一起有七个模板化插入(图3c)。
图3a-c. 模板化插入的链,桥和循环
结构变异通过改变基因拷贝数破坏肿瘤抑制基因,创建融合基因或将一个基因的编码序列与另一个基因的调控装置并置,从而通过影响癌基因来驱动肿瘤的发展。作者发现许多肝癌的模板插入循环都会影响TERT(图3d,e)。其中,KIAA1024也被称为MINAR1。
TERT:端粒逆转录酶
图3d-e. 在两种肝细胞癌中影响TERT基因的模板化插入的周期
n-jumps跳跃:强制在运算前将记忆体中的数值 (mem) 或记忆体位置 (addr) 复制到暂存器中. 启动这两个选项可以做出较好的程式码. 依照大于 n 的最小 2 的次方位元组对齐函式 (functions)、标签 (labels)、回圈 (loops)、跳跃 (jumps) 的起头,跳过至多 n 位元组
数据集中许多2-10个结构变异的簇被限制在单个基因组区域。在包含两个局部重排的那些簇中,有些簇具有简单的解释,例如嵌套或相邻的串联重复。但是,许多没有被简单的解释(图4a),局部2-jumps,由两个局部重排创建的结构,无法通过简单的结构变量类。图4说明了在人类癌症中见到的2–5重排簇的例子,每个示例可能有多种解决方案。
其中包括以前在种系结构变体中观察到的重复-反向-重复-复制结构(349个实例);由反向重排连接的两个重复的结构(531个实例);拷贝数丢失的结构以及通过反向重排链接的附近重复(472个实例)。
图4a. 局部2-jumps,由两个局部重排创建的结构
由局部3-和4-jumps重排创建的结构,无法通过简单的结构变体类别轻松解释(图4b)。
图4b. 局部3-和4-jumps,由3–4个局部重排创建的结构
除了局限于单个基因组区域的簇,作者发现了2-10个结构变异的簇,这些簇将局部n-jumps与重排相结合,并进入了基因组的一个或多个局部远距离簇(图4c)。这些事件的简单示例包括不平衡易位或在断点处插入了局部衍生片段的大缺失,但也存在范围广泛的更复杂的模式。通过辅助资料得知,通过产生或解决重排,或通过重复作用赋予一致结构基序的机制而引入的先天结构对称性。
图4c. 由一种局部重排和一种延伸至基因组其他位置(局部-远距离簇)的重排创建的结构
通过上文总结,2-10个簇状结构变体的不同模式(图3,4)具有重要的形态特征:
使用顺序简单的重排很难再现倒置断点连接和局部拷贝数增益的高普遍性。简单的倒位事件在癌症中并不常见(图1d),它们通常不会产生拷贝数增加,除非通过断裂-融合-桥环循环。如果不能通过顺序简单的重排令人满意地解释这些事件,则另一种可能的解释是复杂的剪切和粘贴机制,例如染色菌病,染色体异常或反复的断裂-融合-桥循环,但是辅助研究,2-10个集群结构变体的模式也不适合这些过程。所以,取而代之的是,作者相信许多具有低拷贝数增益的结构变体的这些局部复杂簇是通过复制和粘贴过程在单个事件中生成的。也就是说,在这些情况下,基因组模板的复制是结构变异过程的一个内在方面,而多余的副本将插入所得的衍生染色体中(基于如图3a,b局部n-jumps,图2的“如果复制的片段的原始模板来自整个基因组,则会出现模板插入的链,环和桥”)。
串联重复和缺失的大小遵循不同肿瘤类型之间的复杂分布(通常是多峰分布)(图5),从辅助实验得知,在给定肿瘤类型中看到的复杂性是由于组合了具有不同特征的样本而导致的。图5展示了分类结构变体的大小分布和基因组特性,图5a说明了每个组织学组缺失的大小分布,其中肿瘤类型根据所见事件的总数排序,垂直虚线代表两个突出模式。
图5a. 每个组织学组缺失的大小分布
模板化插入事件中单个片段的大小也明显是多峰的,跨肿瘤类型的峰高有所不同(图5b)。图5b说明了每个组织学组模板化插入片段的大小分布。对于每种肿瘤类型,模板化插入的周期,桥和链的三个分布是叠加的。
图5b. 每个组织学组模板化插入片段的大小分布
许多基因组特性(例如复制时机,转录活性和染色质状态)会影响点突变的密度和拷贝数变化,但尚不清楚其与各个结构变体类别之间的关系。从文献中,作者编译了38个特征在全基因组范围内分布的库,这些特征包括复制时机,GC含量,重复密度,基因密度以及与G-四链体基序的距离等。得到结论:复制时间与结构变异的发生最密切相关;缺失在晚期复制区域富集;而串联复制和不平衡易位优先发生在早期复制区域(图5c)。
图5中每个密度曲线代表与随机基因组位置相比在观察到的断点处的基因组特性值的分位数分布。星号表示基于包含结构变体的2,559个基因组的样本量,在单侧Kolmogorov–Smirnov检验中对多个假设进行了更正后,均分位数明显偏离:*错误发现率<0.01;** 错误发现率<0.001;***误发现率<10-6。具有显着属性关联的单元格被观察到的中位数分位数在(蓝色)或低于(红色)0.5之上的移动幅度所遮盖。且每个属性从左到右的解释由属性标签右侧的轴指示。
图5c. 基因组特性的一个子集(行)与结构变体类别(列)之间的关联
一个结构变异体需要DNA修复途径将两个序列连接在一起,并且几种修复机制可用于体细胞。一些需要两端之间的序列同源性,而另一些可以操作以连接非同源序列。作者在PCAWG数据中发现,许多结构变体在断点处不具有序列同源性(图5d),因此是通过非同源末端连接而产生的。其中重排计数是结微同源性基础的函数,适合与不同形成机制一致的三个线性函数。
图5d. 重排计数
然而,相当一部分结构变异具有比偶然预期更多的微同源性,并且具有明显的微同源长度的双峰分布。一组结构变异具有2-7 bp的微同源性,可能是由微同源介导的末端连接产生的,而另一组结构变异具有10-30 bp的微同源性,可能是通过单链退火或其他形式的同源重组(包括微同源介导的断裂诱导的复制)。基因组中的重复序列,例如短而长的散布的核元件,可能是此类结构变异的底物,作者发现了富集了连接此类元件的结构变异的图(图5e)。其中,与保留了断点位置但交换了断点伴侣的置换背景相比,具有特定注释的基因组区域之间的断点连接富集或耗尽。中心点是排列背景的平均倍数变化;误差线代表三个s.d. 分析基于包含结构变异的2559个基因组的样本量。
图5e. 富集了连接基因组重复序列元件的结构变异的图
可以通过相对有限的突变过程库中的差异作用来重建跨越癌症的点突变的异质谱,每个突变过程都具有特征性标记,作者将每个患者的结构变异集分为多个互斥类别,根据大小,复制时机和易碎站点的发生情况,将最常见的简单结构变体类别(缺失和串联重复)分为11类。队列中其他结构变异和拷贝数变化超过50倍的其他配置也包括在其他类别中,包括循环,模板插入的链和桥(也按大小划分),局部n跳跃和局部-远距离簇。不平衡易位包括其自身的特征,这表明它们源自癌症基因组中独特的重排过程。
作者确定了16个结构变量标记:这些标记中12个最普遍的标记(图6a)。图6展示了人类癌症中的结构变异特征,其中图6a展示了由贝叶斯分级Dirichlet过程算法提取的12个最独特的结构变异特征码,在包含结构变异的2,559个基因组的样本量上运行。在这里,长条的长度表示分配给每个标签的每个事件类别的估计比例(行总和为1);黑色线段代表Markov chain中条形长度的95%后部间隔。
图6a. 事件类别分配给不同标记的比例
作者对整个队列的DNA修复基因中的致病种系变体和体细胞驱动基因突变的注释进行了分组,将它们的存在与结构变异特征的活性相关联(图6b)。如先前对乳腺癌和卵巢癌的描述,BRCA1突变与小的串联重复标记显着相关;CDK12变异体可预测中型至大型串联重复序列的特征;BRCA2变异体与小缺失相关,并且还与包括染色体复合体的相互结构变异体特征相关;PALB2变异体与小缺失和相互结构变异的征兆具有相同的相关性,与BRCA2相同:PALB2在同源重组过程中与BRCA2共定位,稳定并协助BRCA237,因此作者预测,这两个基因的失活都会导致相似的结果。结构变异签名。从辅助实验得到,在许多类型的肿瘤中,驱动基因突变和结构变异特征之间的这些联系一直很明显。
图6b中可得,每个基因标签(y轴)后的方括号中显示了所评估的特定基因中具有致病性变异的患者的样本量,从组织学校正后的特征强度线性模型中得出每个基因的假设检验和效应大小,显示了双向检验与多项假设检验的校正之间的显着关联。点的颜色和大小代表估计的效果大小。
图6b. 关键DNA修复基因中的致病性突变(生殖系和体细胞结合)与结构变异特征的关联
小结
作者描述了一大批经过统一分析的癌症基因组的结构变异的模式和特征,研究得出的结构变异中的一大类模式是:在重排过程中插入了额外的基因组模板副本。这包括简单事件(例如串联重复),以及一系列更复杂的事件,这些事件具有在本地重新排列并远距离插入的重复和三重复。作者的标记分析将这些复杂事件中的很大一部分与串联重复进行了分组,这表明它们代表了共享基本属性的过程的连续体。在实验模型中的研究表明,广泛的机制和DNA损伤都可能导致模板化插入:这些机制包括BRCA1缺乏症的串联重复,由失调的链入侵引起的模板化插入易位和在没有复制解旋酶的情况下的远距离模板化插入。