前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >肿瘤基因组测序数据高级分析--肿瘤基因组测序数据分析专栏

肿瘤基因组测序数据高级分析--肿瘤基因组测序数据分析专栏

作者头像
生信菜鸟团
发布2021-10-12 15:34:49
3.5K0
发布2021-10-12 15:34:49
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

简介

大多数肿瘤基因组综述类文章,对于数据分析部分只是介绍了基础分析部分,也就是从原始的 fastq 文件通过质控、比对、GATK流程、Call 变异最后得到 vcf 文件和拷贝数变异的结果就结束了。实际上,得到突变结果 vcf 文件后经过 VEP 或 ANNOVAR 等注释之后,还涉及到很多高级分析方法。主要可以分为以下几点:

  • 显著突变基因
  • 驱动突变基因
  • 突变特征分析
  • 肿瘤微卫星稳定性分析
  • 肿瘤突变负荷TMB
  • 肿瘤新抗原预测
  • 局部显著性拷贝数变异
  • 肿瘤纯度和倍性评估
  • 肿瘤克隆进化分析

这些分析中也用到了很多工具,下面简单介绍一下每一种分析常用的工具。后续推文会对常用工具进行详细介绍。

显著突变基因与驱动突变基因

首先明确一下,在很多文章中,显著突变基因与驱动突变基因经常没有严格区分开来。这里也不做严格区分。 显著突变基因(SMG,Significantly mutated genes),是指突变频率显著高于背景突变频率(BMR,background mutation rate)的基因,一般会综合考虑体细胞 SNV 和 INDEL 等变异。这类分析最常用的软件就是 MutSigCV 。MutSigCV 建立了一个在肿瘤形成过程中起作用的背景突变过程模型,分析了每个基因的突变,以确定在给定背景模型的情况下比预期突变频率更高的基因。首先,将多个肿瘤样本的突变数据聚集在一起,然后计算每个基因的分数和 p 值。选择显着性阈值来控制错误发现率 (FDR),超过此阈值的基因则被报告为显着突变。

驱动突变基因(Driver gene)通常肿瘤突变分为两种类型:一种促进肿瘤的增殖,使肿瘤获得选择性的生长优势,称为驱动突变(driver mutation)。另外一种对肿瘤增殖扩散影响很小或者没有影响的突变,称为乘客突变(passenger mutation)。评估驱动突变用到的工具有很多,基于不同的方法进行评估:

  • Mutation frequency based
  • Functional impact based
  • Structural genomics based
  • Network or pathway based
  • Data integration based

具体用到的工具如图:

相关文献:Advances in computational approaches for prioritizing driver mutations and significantly mutated genes in cancer genomes

突变特征分析

首先,对于点突变 SNV 的类型,可以分为 6 类:C>A, C>G,C>T, A>C,A>G, A>T,而其他的点突变,如 T>G 其实与 A>C 是等效的,因为突变发生在哪条 DNA 链上是无法确定的。如果把突变位点的侧翼各 1 bp 的碱基也考虑进来,也就是三连核苷酸突变,就有 4x6x4=96 种碱基突变类型。

发生基因突变的原因是多样的,如:DNA replication infidelity, exogenous and endogenous genotoxins exposures, defective DNA repair pathways and DNA enzymatic editing。不同的突变原因会产生独特的突变类型组合,称为Mutations Signature。每一种突变特征反映了一种肿瘤体细胞突变的物理、化学或生物过程。在 COSMIC 数据库已有记载的单碱基突变特征就有几十种:https://cancer.sanger.ac.uk/cosmic/signatures/ 用于分析突变特征的工具有:deconstructSigs,mutationalPatterns ,sigflow 等,maftools 也有相关的函数可以完成这一分析。

肿瘤微卫星稳定性分析

微卫星(Microsatellite),基因组中的一类短串联重复DNA序列,一般由1-6个核苷酸组成,呈串联重复排列。由于其核心重复单元重复次数差异,微卫星具有群体多态性。微卫星不稳定性(Microsatellite Instability,MSI):与正常组织相比,肿瘤中某个微卫星位点由于重复单元的插入或缺失而出现新的微卫星等位基因的现象。MSI的发生是由于肿瘤组织的DNA错配修复出现功能性缺陷导致,最常见于结直肠癌、子宫内膜癌和胃癌。 这列分析常用的软件有 MSIsensor2、MANTIS 等

肿瘤突变负荷TMB

肿瘤突变负荷(Tumor Mutation Burden,TMB)的定义是每百万碱基中被检测出的,体细胞基因编码错误、碱基替换、基因插入或缺失错误的总数,是反映肿瘤细胞携带的突变总数的一种定量生物标志物。最初TMB通过全外显子测序(WES)进行检测表征,其本质上认为基因突变仅限于外显子(编码区);后来也有很多文章基于特定 Panel 数据评估 TMB,或者基于 ctDNA 数据评估 bTMB等,原理都一样。肿瘤突变负荷(TMB)反映了癌症突变的数量,较高的TMB会产生更多的新抗原,从而增加T细胞识别的机会。所以,一般认为,TMB 的高低与免疫治疗疗效密切相关。但 TMB 高低没有严格的阈值,很多文章,也是看哪个阈值有显著性就用哪个阈值。

肿瘤新抗原预测

肿瘤新抗原(Neoantigens),由肿瘤突变产生一种异常蛋白,降解形成短肽,被主要组织相容性复合物MHC(在人中称之HLA)结合并呈递到细胞表面,可以与免疫细胞相结合。肿瘤基因组数据得到的突变结果,可以进行肿瘤新抗原预测,主要用到的工具有:pTuneos、Neoantigen-dev、 NetMHCPan、OptiType、pVAC-Seq、ASNEO等

局部显著性拷贝数变异

拷贝数变异在肿瘤中非常常见,且它在致癌基因激活和抑癌基因失活上起着重要作用。用于分析拷贝数变异的软件用很多,如 CNVkit、Sequenza、Control-FreeC、Facet、GATK 的 CNV 流程等。但是用于分析局部拷贝数变异显著性的软件,常用的就 GISTIC 软件,它是基于一组样品数据(WGS or WES)来分析局部显著拷贝数情况,即可以寻找显著性缺失和扩增的 gene 和区域,并将结果可视化的分析工具。

肿瘤纯度和倍性评估

通常来说,对肿瘤组织进行测序,往往是一个混合样品,既包括肿瘤细胞也包括正常细胞,因此需要进行肿瘤纯度 purity 的评估。当从混合样品中提取 DNA 进行测序后,得到的也是一个混合样品的结果。肿瘤不一定是单纯的二倍体了,其本身异质性高,直接分析拷贝数变异,得到的结果并不准确,评估肿瘤倍性 ploidy 也更加必要。一般用于评估肿瘤纯度和肿瘤倍性的工具有 Absolute 和 Sequenza

肿瘤克隆与异质性分析

一般认为,癌症是通过单个体细胞发生突变经过累积进化而来,该细胞的后代共享基因型,形成最初的癌症克隆群体。在后代中,克隆群体发生性的突变等可能会在单个肿瘤内产生新的亚群。 用于肿瘤克隆分析的工具有:PyClone(新版本为 PyClone-vi)、PhyloWGS、SciClone、MOBSTER 等。肿瘤克隆分析比较复杂,中间涉及到很多概念:VAF、肿瘤纯度、肿瘤倍性、CCF、CP、CNV 等。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 显著突变基因与驱动突变基因
  • 突变特征分析
  • 肿瘤微卫星稳定性分析
  • 肿瘤突变负荷TMB
  • 肿瘤新抗原预测
  • 局部显著性拷贝数变异
  • 肿瘤纯度和倍性评估
  • 肿瘤克隆与异质性分析
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档