ngs组学里面,表达量层面数据大家接触的最多,尤其是基因表达,无论是转录组测序的还是基因芯片的表达量矩阵,都是有分组,每个组内部有三五个重复,这样我们才有可能使用合适的算法去确定统计学显著的不同分组里面的统计学显著的上下调基因,而且最后很容易热图或者箱线图进行可视化,人工核实表达量是上下调状态。
但是基因组层面,主要是下面的3个技术:
当然了,不同公司的WGS,WES和捕获测序产品不一样,但是背后的原理是一致的,都是要找 点突变和拷贝数变异,最后根据不同分组或者队列样品的统计学检验, 去确定 Significantly mutated genes (SMGs) and recurrent copy number alterations(CNAs) 。
单个样品的测序数据,虽然是可以定位到它的部分基因的点突变和拷贝数变异(靶向药的基础),但是就跟你对一个病人进行转录组测序看2万个基因的表达量一样,很难有直接生物学结论。科研领域,我们通常是队列操作,:
基因在转录水平的表达是有高低之分,但是DNA水平的突变信息主要是有无,数据特性就决定了其下游分析差异很大。
DNA测序队列里面每个样品都有几十个或者上百个基因是突变的, 但是全部的样品共有的突变通常并不会太多,所以很自然的一个想法,就是那些在更多样品里面都表现出突变的基因是比较有意义的,通常是被称作是 Significantly mutated genes (SMGs) 。(我这里就简化模型让大家理解这个SMGs的概念,并不是它完备的定义)
在人群队列里面寻找high-confidence SMGs (HC-SMGs)是绝大部分癌症DNA测序数据分析的终极目标,因为这些基因的突变可能是肿瘤产生的原因,最近看到了一个算是比较大的队列,就是中山大学肿瘤防治中心徐瑞华教授团队在Nature Communications在线发表了题为Comprehensive profiling of 1015 patients’ exomes reveals genomic-clinical associations in colorectal cancer的论文。该研究对1015例中国结直肠癌的患者的肿瘤组织和配对癌胖组织进行了高深度的全外显子组测序(WESplus),这个队列拿到了每个病人的突变基因列表后,它使用了如下所示的4种策略 寻找high-confidence SMGs (HC-SMGs) :
可以看到不同软件工具的算法的一致性并不是很好:
不同软件工具的算法的一致性并不是很好
尤其是MuSig2CV简直是一枝独秀啊, 它找到的402个SMGs是其它软件都没有的,所以这个时候我们通常是并不会选择并集了,而是选择交集,如果是选择全部的4个软件的交集,那样太严格了,得到的SMGs数量肯定是少得可怜,可以选择至少2个工具支持的那些基因。然后拿找到的基因去公共数据库里面进行知识库注释,比如 CGC , IntOGen , OncoKB , TCGA, and Vogelstein et al,这样自己找到的基因就可以分类讨论,其中:
前面尽管说使用了不同软件,增加了的可信度,但是仍然是需要去和公共数据库其它队列研究去对比,比如 TCGA, MSKCC, and DIFC ,继续说明文章最后定位到的SMGs的意义。
虽然针对肿瘤点突变来确定 Significantly mutated genes (SMGs) 目前没有绝对的金标准,但是针对肿瘤拷贝数变异来确定 recurrent copy number alterations(CNAs) 是比较公认的方法啦,就是 GISTIC2.0 软件,得到如下所示:
不过,对绝大部分小伙伴来说,想做自己的类似的这样的肿瘤相关DNA测序队列,从最开始的上千病人的入组开始就很难,然后测序费也是不小的开支,拿到测序的fastq文件后,仅仅是普通生信分析拿到点突变和拷贝数变异就需要超级计算机的起码半年的数据分析时间。最后在队列里面定位SMGs和CNAs就普通电脑即可。
其中肿瘤的somatic点突变分析流程,如下所示:
somatic点突变分析流程
这里面提到了 Sentieon tools 是一个收费的软件哦,目前绝大部分科研单位应该是不会去负担它,因为我前面提到的需要超级计算机的起码半年的数据分析时间的步骤如果使用了Sentieon可能是十天半个月就搞定了。
考虑到绝大部分小伙伴都需要完成我们的学徒作业,我肯定是不能设计那些需要付费软件,或者说耗时十天半个月的计算资源的,所以我们就简单一点。大家去下载TCGA的COAD和READ两个队列,然后走前面提到的4种策略 寻找high-confidence SMGs (HC-SMGs) ,看看COAD和READ两个队列各自内部的4个软件的交集如何,绘制两个韦恩图。