专栏首页科研猫TCGA数据库挖掘肿瘤相关基因突变(1)

TCGA数据库挖掘肿瘤相关基因突变(1)

TCGA(The Cancer Genome Atlas)是美国国家癌症研究所(NCI)和美国人类基因组研究所(NHGRI)共同开发的大型肿瘤研究项目,旨在通过应用高通量、多组学的肿瘤基因组分析技术,加深人类对肿瘤的认知,从而提高肿瘤的预防、诊断和治疗。

TCGA目前收录了66种原发肿瘤的相关数据,涉及的研究对象达到了38728人!相信做肿瘤研究的各位应该都知道这一“神级”数据库。

TCGA中的数据可谓是包罗万象,常见的有转录组(RNASeq或表达谱芯片)、基因组(外显子或全基因组测序)、表观遗传(甲基化芯片)、蛋白组等多组学数据。

最重要的,也是TCGA显著优于其他肿瘤数据库的就是,TCGA中的每个样本都有丰富、准确的临床数据,包括我们最为关心的随访时间、肿瘤分期、病理类型等重要临床信息

总所周知,肿瘤的发生与基因突变有很大关系,相关基因的点突变、小片段缺失和插入,引起了密码子的同义、错义、终止和移码的突变现象,导致基因表达的蛋白质由于序列的改变使其相关功能丧失,最终引发细胞的恶变与增殖,产生肿瘤。

驱动基因(driver gene)或者体细胞突变(somatic mutation)一直以来是众多肿瘤相关研究追逐的 热点,他们试图分析基因突变与肿瘤发生发展之间的相关性。以往的研究中,我们可能要沿着“收集样本-DNA抽提-建库测序-数据分析”这一流程从头到位走一遍,找几个人合作,再花个几年时间摸索,等到花都谢了,才能得到最终的结果。

而今天,当我们手握TCGA这一神兵利器,这一切都变得那么简单,下面我们就来一步步操作一下吧。

例:分析肺腺癌中的常见基因突变

STEP:1

打开TCGA数据库网页

https://portal.gdc.cancer.gov/

STEP:2

点击主页中的“Exploration”选项框

STEP:3

进入Exploration页面后,你会看到右侧有一个选项卡,这个选项卡可以帮助我们筛选自己想要的研究对象。

选项卡共分三栏

Cases:选择研究对象;

Genes:筛选研究的基因;

Mutations:筛选变异位点

首先,选择研究对象->“肺腺癌患者”,怎么选呢?

Cases选项卡中:Primary Site选择Bronchus and lung(支气管或肺),Disease Type选择Adenomas and Adenocarcinomas(腺癌),其他选项可以根据自己的研究目的自行选择。

Genes选项卡中:在Biotype中可以选择基因的类型,比如编码蛋白的基因,非编码的lincRNA和miRNA等,在这里我们选择编码蛋白的基因protein_coding,因为此类基因往往更为重要。还有一个重要的选项是:Is Cancer Gene Census,这个选项表示是否要选择已知和肿瘤相关的基因,这里我们选择true。

Mutations选项卡中:这里面是大家不太熟悉的一些选项。

VEP Impact SIFT ImpactPolyphen Impact,这三个选项分别对应三个常用的分析软件VEP、 SIFT和Polyphen,这三个软件是用来对氨基酸突变后对蛋白功能产生的影响进行评估的。比如SIFT的deleterious代表该突变是个有害突变,而tolerated则代表一个可耐受的突变,即氨基酸突变对蛋白整体影响不大。

Consequence Type选项是指突变的类型,比如错义突变(missense_variant),同义突变(synonymous_variant)、移码突变(frameshift_variant)等。

Type选项是指突变的类型,分为点突变、小片段缺失和下片段插入突变。

Variant Caller选项是指鉴定基因突变的软件。分析肿瘤DNA二代测序数据的软件很多,不同软件鉴定突变位点的敏感度和特异性各不相同。目前比较主流的肿瘤call突变的软件有mutect2,varscan,muse,somaticsniper等,其中mutect2varscan这两款软件则是由“基因组研究的圣殿—Broad Institute”开发出品,也是最为经典的分析肿瘤somatic mutation的软件,所以其分析结果的可信度较高。

COSMIC ID选项是指筛选得到的突变位点是否有COSMIC ID,换句话说,即筛选到的突变是否存储于COSMIC数据库中。

COSMIC(https://cancer.sanger.ac.uk/cosmic/)是当今世界上现有的最大、最全面的人类肿瘤体细胞突变数据库。所以,为了筛选和肿瘤相关的突变,我们可以在COSMIC ID选项中勾选上Not Missing。

dbSNP rs ID是指前面筛选出的突变是否带有dbSNP ID,我们都知道dbSNP是正常人群中存在的单核苷酸多态性位点,理论上来说,真正的肿瘤体细胞突变不应带有dbSNP ID,所以该选项的Not Missing请勿勾选!

STEP:4

第三步是最为重要,也最为繁琐的步骤,之后,就是结果展示的界面了。在整个TCGA的右侧半边栏目中,就是筛选表达式和筛选到的结果汇总,如下图所示。

我们筛选出的结果,包括Cases,Genes和Mutations都会以饼图的形式展示出来,并在下面罗列出所有满足筛选条件的条目,点击TSV即可下载相应表格。为了分析在肺腺癌患者中的高频突变基因,我们可以点击结果显示栏的Genes窗口(下图红框),结果就一目了然了。

从上图中我们可以看出,在TCGA数据库中共找到529个患者带有肿瘤相关基因的突变,其中TP53的突变频率最高,达到55%,其次是KRAS、FGFR、FAT4、STK11等。

就已知的文献而言,这样的结果还是相当符合已有研究的结果的。同时,我们还可以从右侧的生存曲线图形中看出带有这些基因突变的患者的大致生存时间和存活率。同时,如果我们觉得这个图不错,可以放到文章当中去,那怎么办呢,总不能截图吧,告诉你点击网页中的下载按钮(上图橙框)即可下载高清矢量原图哦!

如果你觉得单看柱状图不过瘾,怎么办?点击OncoGrid,即可展示在所有研究对象中,频率top50的突变基因(下图)。此外,这里的图形还可自行调节要展示的数据内容和颜色,一样也支持高清无码矢量图下载哦。

本文分享自微信公众号 - 科研猫(DoctorTommy),作者:小猎豹

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 类器官:肿瘤研究的新高地

    每年肿瘤相关研究的学术论文发表量数以万计,但能真正转化到临床应用的治疗方案却极少。新药研发进入临床试验后,有85%在早期就被证明没有效果,而那些成功通过三期临床...

    用户6317549
  • 急救新技术:快速冷却至 “假死状态”,以后中枪也不怕了

    “庄恕接到陆晨曦电话了解了大致情况,现如今救陆妈妈的办法只能是“强抢”,也就是人造休眠让陆妈妈撑到一个小时的时间,用低温治疗法。这种办法是庄恕在美国时听教授说起...

    用户6317549
  • 免疫相关基因预后模型构建,这个套路不香吗?

    大家好,今天向大家分享的是2020年4月发表在Frontiers in Genetics (IF=3.517) 杂志上的一篇文献《Novel Immune-Re...

    用户6317549
  • 超长JVM总结,面试必备

    JVM 是可运行 Java 代码的假想计算机 ,包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收,堆 和 一个存储方法域。JVM 是运行在操作系统之上的,...

    java金融
  • JVM垃圾收集器详解

    一个单线程的收集器,使用复制算法。它只会使用一条线程工作,并且在进行垃圾收集的同时,必须暂停其他所有的工作线程(Stop The Word),直到垃圾收集结束。

    Java学习录
  • JVM第二弹

    当前主流的VM垃圾收集都采用“分代收集“算法,这种算法会根据对象存活周期的不同将内存划分为几块,

    趣学程序-shaofeer
  • 5种JVM垃圾收集器特点和8种JVM内存溢出原因

    Serial 是一款用于新生代的单线程收集器,采用复制算法进行垃圾收集。Serial 进行垃圾收集时,不仅只用一条线程执行垃圾收集工作,它在收集的同时,所有的用...

    程序员追风
  • JVM面试问题系列:7种JVM垃圾收集器特点,优劣势、及使用场景!

    Serial 是一款用于新生代的单线程收集器,采用复制算法进行垃圾收集。Serial 进行垃圾收集时,不仅只用一条线程执行垃圾收集工作,它在收集的同时,所有的用...

    zhisheng
  • Python-集合数据类型内置方法

    py3study
  • JVM性能调优-ParNew收集器内容精讲

    ParNew 收集器其实就是 Serial 收集器的多线程版本,除了使⽤多条线程进⾏垃圾收集之外,其余⾏为包括 Serial 收集器可⽤的所有控制参数(例如:-...

    cwl_java

扫码关注云+社区

领取腾讯云代金券