前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不同软件算法拿到的统计学显著突变基因交集很少

不同软件算法拿到的统计学显著突变基因交集很少

作者头像
生信技能树
发布2022-06-27 20:48:10
4960
发布2022-06-27 20:48:10
举报

ngs组学里面,表达量层面数据大家接触的最多,尤其是基因表达,无论是转录组测序的还是基因芯片的表达量矩阵,都是有分组,每个组内部有三五个重复,这样我们才有可能使用合适的算法去确定统计学显著的不同分组里面的统计学显著的上下调基因,而且最后很容易热图或者箱线图进行可视化,人工核实表达量是上下调状态。

但是基因组层面,主要是下面的3个技术:

  • whole genome sequencing (WGS), (基因组全部的区域,理论上覆盖30亿碱基)
  • whole- exome sequencing (仅仅是2万多个基因上面的外显子区域,理论上覆盖 0.3到0.6 亿碱基)
  • targeted sequencing (仅仅是感兴趣的多个(成百上千)基因上面的外显子区域,理论上覆盖 0.03到0.06 亿碱基)

当然了,不同公司的WGS,WES和捕获测序产品不一样,但是背后的原理是一致的,都是要找 点突变和拷贝数变异,最后根据不同分组或者队列样品的统计学检验, 去确定 Significantly mutated genes (SMGs) and recurrent copy number alterations(CNAs) 。

单个样品的测序数据,虽然是可以定位到它的部分基因的点突变和拷贝数变异(靶向药的基础),但是就跟你对一个病人进行转录组测序看2万个基因的表达量一样,很难有直接生物学结论。科研领域,我们通常是队列操作,:

  • 如果是转录组测序队列,可以根据表达量相似性进行分类,然后去跟临床信息关联,确定有生存意义的分组的样品的上下调基因或者通路,就很有意义啦。
  • 如果是WGS,WES以及靶向的DNA测序队列,每个病人突变的基因数量其实很有限

基因在转录水平的表达是有高低之分,但是DNA水平的突变信息主要是有无,数据特性就决定了其下游分析差异很大。

DNA测序队列里面每个样品都有几十个或者上百个基因是突变的, 但是全部的样品共有的突变通常并不会太多,所以很自然的一个想法,就是那些在更多样品里面都表现出突变的基因是比较有意义的,通常是被称作是 Significantly mutated genes (SMGs) 。(我这里就简化模型让大家理解这个SMGs的概念,并不是它完备的定义)

在人群队列里面寻找high-confidence SMGs (HC-SMGs)是绝大部分癌症DNA测序数据分析的终极目标,因为这些基因的突变可能是肿瘤产生的原因,最近看到了一个算是比较大的队列,就是中山大学肿瘤防治中心徐瑞华教授团队在Nature Communications在线发表了题为Comprehensive profiling of 1015 patients’ exomes reveals genomic-clinical associations in colorectal cancer的论文。该研究对1015例中国结直肠癌的患者的肿瘤组织和配对癌胖组织进行了高深度的全外显子组测序(WESplus),这个队列拿到了每个病人的突变基因列表后,它使用了如下所示的4种策略 寻找high-confidence SMGs (HC-SMGs) :

  • high recurrent mutations within a gene (MutSigCV),
  • mutational clustering (OncodriveClust),
  • heavy functional impact on gene function (OncodriveFM, e-driver),
  • positive selection on certain genes (dNdScv)

可以看到不同软件工具的算法的一致性并不是很好:

不同软件工具的算法的一致性并不是很好

尤其是MuSig2CV简直是一枝独秀啊, 它找到的402个SMGs是其它软件都没有的,所以这个时候我们通常是并不会选择并集了,而是选择交集,如果是选择全部的4个软件的交集,那样太严格了,得到的SMGs数量肯定是少得可怜,可以选择至少2个工具支持的那些基因。然后拿找到的基因去公共数据库里面进行知识库注释,比如 CGC , IntOGen , OncoKB , TCGA, and Vogelstein et al,这样自己找到的基因就可以分类讨论,其中:

  • 有一些是known CRC driver genes, such as TP53, APC, KRAS, FBXW7, and CTNNB1,说明自己找SMGs大体上来说是正确的
  • 然后有一些,8 of which mutate in 14.9% of patients: LYST, DAPK1, CR2, KIF16B, NPIPB15, SYTL2, ZNF91, and KIAA0586. 以前没有被报道过,算是文章自己的创新点,毕竟是超过千人的队列啊,总得有一些发现吧。

前面尽管说使用了不同软件,增加了的可信度,但是仍然是需要去和公共数据库其它队列研究去对比,比如 TCGA, MSKCC, and DIFC ,继续说明文章最后定位到的SMGs的意义。

虽然针对肿瘤点突变来确定 Significantly mutated genes (SMGs) 目前没有绝对的金标准,但是针对肿瘤拷贝数变异来确定 recurrent copy number alterations(CNAs) 是比较公认的方法啦,就是 GISTIC2.0 软件,得到如下所示:

  • gains at chromosomes 1q, 7, 8q, 13q, and 20q
  • losses at 1p, 4, 5q, 8p, 14q, 15q, 17p, and 18p
  • in focal regions, including the gain at 10q and loss at 20p.

不过,对绝大部分小伙伴来说,想做自己的类似的这样的肿瘤相关DNA测序队列,从最开始的上千病人的入组开始就很难,然后测序费也是不小的开支,拿到测序的fastq文件后,仅仅是普通生信分析拿到点突变和拷贝数变异就需要超级计算机的起码半年的数据分析时间。最后在队列里面定位SMGs和CNAs就普通电脑即可。

其中肿瘤的somatic点突变分析流程,如下所示:

somatic点突变分析流程

这里面提到了 Sentieon tools 是一个收费的软件哦,目前绝大部分科研单位应该是不会去负担它,因为我前面提到的需要超级计算机的起码半年的数据分析时间的步骤如果使用了Sentieon可能是十天半个月就搞定了。

学徒作业

考虑到绝大部分小伙伴都需要完成我们的学徒作业,我肯定是不能设计那些需要付费软件,或者说耗时十天半个月的计算资源的,所以我们就简单一点。大家去下载TCGA的COAD和READ两个队列,然后走前面提到的4种策略 寻找high-confidence SMGs (HC-SMGs) ,看看COAD和READ两个队列各自内部的4个软件的交集如何,绘制两个韦恩图。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-05-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 学徒作业
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档