这篇最近发在Nature上的肿瘤进化有什么不一样？

生信菜鸟团

发布于 2020-07-29 10:48:55

2.3K0

发布于 2020-07-29 10:48:55

文章被收录于专栏：生信菜鸟团生信菜鸟团

今天跟大家分享的是2020年2月发表在Nature(IF=43.07)杂志上的一篇文章。文章中作者讨论了2,658种癌症的进化史，说明了早期癌症检测的可能性。

The evolutionary history of 2,658 cancers2,658种癌症的进化史

（推文作者：科研菌桑葚）

一. 研究背景

癌症是通过体细胞进化的过程而发展的。这里，作为国际癌症基因组协会(ICGC)和癌症基因组图谱(TCGA)的全基因组全癌基因组(PCAWG)泛癌分析的一部分，作者通过对2,658种癌症的全基因组测序分析，重建了生活史38种癌症的突变过程和驱动基因突变序列的克隆和进化。早期肿瘤发生的特征是一组受限制的驱动基因突变，以及特定的拷贝数增加。在整个肿瘤演化过程中，有40％的样品突变谱发生了显着变化。驱动基因的近四倍多样化和增加的基因组不稳定性是后期的特征。拷贝数变化通常发生在有丝分裂危机中，并导致同时获得染色体片段。时序分析表明，驱动基因的突变通常要比诊断早很多年，甚至几十年。这些结果共同决定了癌症的进化轨迹，并突出说明了早期癌症检测的可能性。

目前的科学研究对癌症基因组中突变的类型进行了很好的研究，但对于这些在体细胞进化过程中出现损伤的时间、以及如何在进化与癌症进展之间划清界限的时间知之甚少——这正是本研究的现实意义。根据肿瘤累积的体细胞突变目录，对大块肿瘤样品进行测序可以部分重建单个肿瘤的进化历史。这些推论包括在早期体细胞进化过程中获得染色体的时间，使用来自各个患者的匹配的原发性和转移性肿瘤样本对癌症晚期演化进行的系统发育分析，以及许多样本中驱动基因突变的时间顺序。

二. 分析流程

三. 结果解读

1. 重建肿瘤的生命史

癌细胞的基因组是由其进化过程中出现的累积体细胞畸变形成的，该历史的一部分可以从全基因组测序数据中重建(图1a)。最初，每个点突变都发生在单个细胞的单个染色体上，这导致了带有相同突变的细胞谱系。

补充信息：依据分析，作者确定了亚克隆突变，这些突变仅存在于一部分细胞中，并且发生在肿瘤样品中所有癌细胞的最新共同祖先(MRCA)之后。

关于图1使用的方法：在获得区域内重复突变与非重复突变的比率可用于估算克隆进化过程中获得增益的时间点，此处称为“分子时间”，它测量了相对于(克隆)突变总数的发生时间。例如，如果在受精后立即发生增益，则几乎没有共扩增的早期克隆突变，而在克隆肿瘤进化结束时发生的增益将包含许多重复的突变。

图1展示了根据点突变的等位基因频率获取定时克隆副本数的过程和结果。图1a中，报告拷贝数点突变的测序读数的数目可用于在获得特定拷贝数的情况下将变异区分为早期(绿色)或晚期克隆(紫色)，而在没有拷贝数的情况下可用于克隆(蓝色)或亚克隆(红色)。

图1a. 基于全基因组测序的时序突变和拷贝数增加的原理

上述这些分析结果如图1b所示。正如预期，体细胞点突变的变异等位基因频率(VAF)聚集在样品纯度，局部拷贝数构型和鉴定的亚克隆种群所强加的值附近。所描绘的透明细胞肾细胞癌已在早期分子时间获得了染色体臂5q作为不平衡易位t(3p; 5q)的一部分，这证实了这种病变常在青春期发生在这种癌症类型中的观念。在稍后的某个时间点，样品经历了一次完整的基因组复制(WGD)事件，一次复制了所有等位基因，包括衍生染色体，这一点由所有在一个时间点附近聚集的所有拷贝数增益的突变时间估计所证明，与确切的副本编号状态无关。

图1b是基于VAF(上)，拷贝数(CN)状态和结构变体(中)和结果时序估计(下)的一个样本中的带注释的点突变。其中，LOH指的是杂合性丧失。

图1b. 基于VAF，CN状态和结构变体，结果时序估计的一个样本中的带注释的点突变

2. 拷贝数获取的时序模式

实验说明：作者为了系统地检查PCAWG数据集中整个肿瘤演变过程中染色体增益的突变时间，将此分析应用于2,116个拷贝数增益适合于时间样本。

作者发现，染色体增益发生在很长的分子时间范围内，其中肿瘤类型之间存在系统差异；而在不同肿瘤类型内，不同的染色体通常表现出相似的分布(图1c)。在胶质母细胞瘤和髓母细胞瘤中，很大一部分收益发生在分子时间的早期。相比之下，在肺癌，黑色素瘤和乳头状肾癌中，在分子时间标度接近尾声时会出现获益。大多数肿瘤类型，包括乳腺癌，卵巢癌和结肠直肠癌，都表现出相对较长的染色体不稳定期，这表明整个样本的获取时序变化很大。

图1c中，饼形图描述了根据癌症类型中给定拷贝数的增加推断突变时间的分布。其中，绿色表示早期克隆获得，后期获得渐变为紫色。每个图表的大小与此事件的重复发生率成比例。

图1c. 癌症类型中拷贝数获得的分子时间分布概述

但是，某些类型的肿瘤始终具有特定染色体区域的早期或晚期增益。最明显的是胶质母细胞瘤，其中90％的肿瘤包含7、19或20号染色体的单拷贝获得(图1c，d)。值得注意的是，这些增益始终在分子时间的前10％内计时，这表明它们在患者一生中很早就出现了。

图1d是热图，本热图代表针对所选肿瘤类型的单个样本(y轴)在不同染色体臂(x轴)上获得的分子定时估算值。e，两个近二倍体情况的时间模式，说明了同步增益（顶部）和异步增益（底部）。

图1d. 针对所选肿瘤类型的单个样本在不同染色体臂上获得的分子定时估算值

作者观察到，同一肿瘤中的增益通常似乎发生在相似的分子时间，这表明它涉及获得最多片段的间断爆发(图1e)。其中，顶部说明了同步增益，底部说明了异步增益。

图1e. 两个近二倍体情况的时间模式

同步获取很频繁，经过置换测试(P <0.01)，信息丰富的近二倍体肿瘤中占57％(在815个样本中占468个)，比偶然预期的频率高61％(图1f)。

图1f中，左图展示了样本中同步和异步增益模式的分布，按WGD状态划分，没有信息的样本的增益太少或太小则无法准确计时；右图展示了通过系统的置换测试可以显示近二倍体样品中同步增益的富集。

图1f. 样本同步和异步增益分布

因为大多数臂长增益使等位基因特异性拷贝数增加1(80–90％；图1g)，所以这些增益似乎是由于后期单个拷贝的错误分离而产生的。其中，误差棒表示95％可信区间，ND表示接近二倍体。

图1g. 副本数量分段(n = 90,387)与次要增益的比例

上面的观点进一步得到观察的支持，在大约85％的具有相同等位基因的两个增益的区段中，第二个增益出现在第一个增益之后具有明显的潜伏期(图1h)。图1h表示n = 824次增益的相对潜伏期的分布以及可用的时序信息，缩放至第一次增益后的时间并按每个染色体聚合。

图1h. 824次增益的次要收益潜伏期的分布以及可用的时序信息

3. 驱动基因中点突变的时间

如上所述，可以将点突变(SNV)以及插入和缺失(indels)定性地分配给不同的时期，从而可以确定驱动程序突变的时间。在2,583个独特样本中的4,700万个点突变中，早期克隆为22％，晚期克隆为7％，未指定克隆为53％，亚克隆为17％(图2a)。

图2说明了点突变的时间，这表明复发性驱动基因突变发生得较早。其中，图2a顶部展示了n = 2,778个样本中不同突变时期的点突变分布；中部展示了在来自唯一供体的n = 2,583白名单样本中的50个最常见的病变中，驱动程序突变的时间分布；底部展示了不同癌症类型的驱动程序突变分布；颜色如图中所定义。

图2a. 不同突变时期的点突变分布和驱动程序突变的时间分布

在一组453个癌症驱动基因中，鉴定出了5,913个致癌点突变，其中29％为早期克隆，5％为晚期克隆，56％未确定克隆和8％为亚克隆。因此，出现了常见的驱动因子在早期克隆和未指定克隆类别中富集，而在晚期克隆和亚克隆克隆类别中耗竭，表明优先的早期时序(图2b)。

图2b展示了50个最常见的驱动病变的相对时序，以早期和晚期克隆驱动突变与背景或克隆与亚克隆的比值比计算。误差线表示源自自展法重抽样(bootstrap resampling)的95％置信区间。少于5％的引导程序样本中的比值比(odds radios)被认为是有意义的(彩色部分)。

bootstrap resampling：在现有样本的基础上虚拟扩大样本容量，简单来说就是用30个样本能做到30万样本那样的效果。 Odds ratio：OR值，又称比值比、优势比、让步比，主要指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值，是流行病学研究中病例对照研究中的一个常用指标，用来评估风险。

图2b. 不同突变时期的点突变分布和驱动程序突变的时间分布

例如，在早期克隆阶段，TP53和KRAS中的驱动程序突变分别富集了12倍和8倍。对于TP53，这种趋势与肿瘤类型无关(图2c)。PIK3CA突变的克隆频率比预期的高两倍，而TERT基因附近的非编码变化的频率是早期克隆的三倍。其中，样本数量在x轴标签中定义。

图2c. 跨癌类型的TP53突变的相对时间

随着时间的推移，汇总所有驱动程序点突变的克隆状态表明，在肿瘤发展的后期突变的驱动基因的多样性增加：所有早期克隆驱动程序突变的50％仅发生在9个基因中，而50％的晚期和亚克隆突变发生在每个大约有35个不同的基因，几乎增加了四倍(图2d)。与先前对个别肿瘤类型的研究[31-34]一致，这些结果表明，一般而言，癌症发展的非常早期的事件发生在一组受约束的共同驱动因素中，并且在晚期肿瘤发展中涉及了更多种驱动因素。

图2d展示了在n = 2,583个唯一样本中，不同计时时期贡献了所有驱动程序突变的50％的独特病变(基因)的估计数量，其中包含n = 5,756个具有可用时序信息的驱动程序突变。其中，误差线表示0到1个伪计数之间的范围；条形表示两个值的平均值。NA表示不适用，NS表示不重要。

图2d. 不同计时时期贡献的所有驱动程序突变的50％的独特病变(基因)的估计数量

4. 躯体驱动事件的相对时序

尽管单个事件的时间估计反映了一个样本之间不同的进化时期，但它们部分地定义了每个样本中发生驱动程序突变和拷贝数变化的顺序(图3a-d)。将这些顺序汇总到各个样本中可以确定病变的概率等级(图3a)，概括每个突变是在肿瘤进化过程中优先发生在早期还是晚期。

图3展示了汇总单样本排序揭示了驱动程序突变的典型时序。图3b-d展示了顺序模型过程的组成数据。

再例如，在大肠腺癌中，作者发现APC突变发生的几率最高，其次是KRAS，17p和TP53的缺失以及SMAD4(图3b，e)。在许多癌症类型中，先前尚未详细确定癌症进展期间的事件顺序。例如，在胰腺神经内分泌癌中，作者发现许多染色体丢失，包括染色体2、6、11和16的丢失，都是最早的事件，其次是MEN1和DAXX中的驱动子突变(图3c，f)。由于大量的染色体丢失，这些肿瘤中的许多已经达到假单倍体状态之后，WGD事件随后发生。在胶质母细胞瘤中，作者发现10号染色体的丢失以及TP53和EGFR中的驱动程序突变非常早，通常早于7、19和20号染色体的早期获得(图3d，g)。TERT启动子中的突变倾向于在早期到中间时间点发生，而其他驱动程序突变和拷贝数变化则倾向于在以后发生。

补充信息：在各种癌症类型中，我们通常会在最早的事件中发现TP53突变，以及17号染色体的丢失。常见的驱动因素通常发生在稀有的驱动因素之前。

图3a. 顺序过程原理示意图

图3b-d. 各个患者轨迹的示例(部分顺序关系)

图3e-g中，概率分布显示队列中特定事件的时间不确定性。突出显示比率(odds)大于10的事件(更早或更晚)。队列中事件类型的普遍性在右侧以条形图显示。

图3e-g. 大肠腺癌(CA)，胰腺神经内分泌癌(Panc–内分泌)，胶质母细胞瘤(CNS–GBM)的优先顺序

5. 突变标记的时序

癌症基因组在其生命周期中受到各种突变过程的影响，这些突变过程源于外源性和细胞内在的DNA损伤以及易错的DNA复制，留下的特征性的突变谱，称为突变特征。根据其克隆等位基因状态对突变进行分层，作者发现在早期和晚期克隆时间点之间的突变谱发生变化的证据，通过Bonferroni调整似然比检验，在29％(1,852个中的530个)的信息样本中(P <0.05)，改变19％频谱(图4a，b)。同样，有信息的样本中有30％(2,387个中的729个)显示出其克隆和亚克隆状态之间的突变谱变化，中位差异为21％(范围为3–72％)。综合起来，在整个肿瘤演化过程中，有40％的样本(在2688个样本中有1,069个)的突变谱发生了变化。

方法相关说明：作者为了量化观察到的时间变化是否可归因于已知和可疑的突变过程，将每个时间点的突变谱分解为一个包含57个突变特征的目录，包括双碱基取代和插入缺失特征。

Bonferroni校正法：此方法是在进行两两比较时对检验水准进行调整的办法,但是该方法在比较的次数较多时，就不太适合。

图4展示了克隆肿瘤早期和晚期进化过程中的动态突变过程。其中图4a早期为左，晚期为右。

图4a，b. 在早晚期克隆时间点的突变谱之间具有实质性变化的肿瘤示例，克隆到亚克隆突变谱变化的例子

通常，这些突变特征在几个数量级上显示出显着的无方向性的时间变异性(图4c，d)。此外，几个标记显示出明显的时间趋势。如人们所料，外源诱变的特征在肿瘤发生的早期克隆阶段主要活跃。

其中，图4c归因于个别突变特征的早期和晚期克隆突变的相对比例之间的倍数变化，点按组织类型着色，显示的是样本(n = 530)的数据，其总体突变谱具有可测量的变化，并且仅限于至少10个样本中有活性的标记。箱形图划定了分布的第一个和第三个四分位数，中位数显示在中间，延伸线(whisker)覆盖了距离框的IQR 1.5倍以内的数据。图4d展示了样品(n = 729)在克隆期和亚克隆期之间的倍数变化，其突变谱可测量，类似于c。

图4c，d. 个别突变特征的早期和晚期克隆突变；克隆期和亚克隆期的相对比例之间的倍数变化

6. 时序估算

上面显示的分子时间数据不能测量时间顺序中事件的发生。如果每个样品中每年获得突变的速率是恒定的，则时间顺序将仅仅是估计的分子时间和诊断年龄的乘积。但是，如果突变率随时间变化，则该关系将是非线性的，并且如前一部分的分析所建议的那样，由于获得的突变过程而使这种关系膨胀。这些问题中的某些问题可以通过仅计数由内源性和可变性较弱的突变过程引起的突变来缓解。随着时间的推移，作者对CpG>TpG诱变速率演变的不同情况进行了建模(图5a)。

其中，图5展示了大致的时间时序推论表明癌症发展的时间尺度为数年。图5a说明在诊断之前更大的增加表明突变时间尺度的膨胀。

图5a. 在CpG> TpG突变率增加的不同情况下，分子时间估计与时间的映射

将这种逻辑应用于产生足够数量的CpG> TpG突变的时间WGDs，表明在某些突变率升高的情况下，某些类型的癌症在诊断之前会发生数年甚至可能十年或更长时间(图5b)。

图5b说明，在n = 569种非超突变性癌症中，至少有100例信息性SNV(单核苷酸变异)，正常感染的低肿瘤和每种肿瘤组织学至少有5个样本的情况下，在不同CpG>TpG突变率情况下，在诊断之前WGD与最后可检测到的亚克隆之间的中位潜伏期增加。

图5b. 在诊断之前WGD与最后可检测到的亚克隆之间的中位潜伏期增加

MRCA和最后一个可检测到的亚克隆之间的潜伏期较短，通常数月至数年(图5c)。图5c表示，在n = 1,921例正常肿瘤中低肿瘤的非超突变样品中，每种癌症类型至少有5例病例，对于不同的CpG> TpG突变率变化，在诊断之前MRCA与最后一个可检测的亚克隆之间的中值潜伏期增加。

大多数已知的癌前病变发展为癌的过程通常跨越数年，甚至数十年甚至四十至四十五年，这一事实进一步支持了这些癌症演变的时标。作者的数据证实了这些时间尺度，并将其扩展到没有可检测到的恶性前病状的癌症类型，从而增加了人们希望也可以在恶性程度较低的阶段检测出这些肿瘤的希望。

图5c. 在诊断之前MRCA与最后一个可检测的亚克隆之间的中值潜伏期

7. 讨论

本文提供的数据使作者能够绘制大致时间表，总结每种癌症类型的典型进化史(图6)。这些利用了点突变和拷贝数变化的定性时机，以及标记活动，可以与WGD的时间顺序估计和MRCA的出现相结合。

其中，图6a为表示受精卵与大肠腺癌诊断中位年龄之间的时间长度(以年为单位)的时间轴，图6b鳞状细胞肺癌，图6c为卵巢腺癌，图6d为和胰腺腺癌。

图6. 肿瘤发展的典型时间表

小结

作者利用PCAWG数据集来表征来自38种类型的2,658名独特供体的2,778种癌症样品的进化史，并推断染色体进化的时间和方式，了解每种癌症类型的样本之间典型的突变序列。然后，作者定义了广泛的肿瘤演化时期，并研究了这些时期之间的驱动因素和突变特征是如何变化的。接着作者使用类钟突变过程，将突变时间估计映射为近似实时。综合起来，这些分析使作者勾勒出癌症的典型进化轨迹，并绘制出相对于诊断点实时结果。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2020-07-25，如有侵权请联系 cloudcommunity@tencent.com 删除

数据分析

本文分享自生信菜鸟团微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

数据分析

登录后参与评论

0 条评论

热度

这篇最近发在Nature上的肿瘤进化有什么不一样？