首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TCGA数据库挖掘肿瘤相关基因突变(1)

TCGA数据库挖掘肿瘤相关基因突变(1)

作者头像
用户6317549
发布2019-11-14 14:39:39
6.6K0
发布2019-11-14 14:39:39
举报
文章被收录于专栏:科研猫科研猫科研猫

TCGA(The Cancer Genome Atlas)是美国国家癌症研究所(NCI)和美国人类基因组研究所(NHGRI)共同开发的大型肿瘤研究项目,旨在通过应用高通量、多组学的肿瘤基因组分析技术,加深人类对肿瘤的认知,从而提高肿瘤的预防、诊断和治疗。

TCGA目前收录了66种原发肿瘤的相关数据,涉及的研究对象达到了38728人!相信做肿瘤研究的各位应该都知道这一“神级”数据库。

TCGA中的数据可谓是包罗万象,常见的有转录组(RNASeq或表达谱芯片)、基因组(外显子或全基因组测序)、表观遗传(甲基化芯片)、蛋白组等多组学数据。

最重要的,也是TCGA显著优于其他肿瘤数据库的就是,TCGA中的每个样本都有丰富、准确的临床数据,包括我们最为关心的随访时间、肿瘤分期、病理类型等重要临床信息

总所周知,肿瘤的发生与基因突变有很大关系,相关基因的点突变、小片段缺失和插入,引起了密码子的同义、错义、终止和移码的突变现象,导致基因表达的蛋白质由于序列的改变使其相关功能丧失,最终引发细胞的恶变与增殖,产生肿瘤。

驱动基因(driver gene)或者体细胞突变(somatic mutation)一直以来是众多肿瘤相关研究追逐的 热点,他们试图分析基因突变与肿瘤发生发展之间的相关性。以往的研究中,我们可能要沿着“收集样本-DNA抽提-建库测序-数据分析”这一流程从头到位走一遍,找几个人合作,再花个几年时间摸索,等到花都谢了,才能得到最终的结果。

而今天,当我们手握TCGA这一神兵利器,这一切都变得那么简单,下面我们就来一步步操作一下吧。

例:分析肺腺癌中的常见基因突变

STEP:1

打开TCGA数据库网页

https://portal.gdc.cancer.gov/

STEP:2

点击主页中的“Exploration”选项框

STEP:3

进入Exploration页面后,你会看到右侧有一个选项卡,这个选项卡可以帮助我们筛选自己想要的研究对象。

选项卡共分三栏

Cases:选择研究对象;

Genes:筛选研究的基因;

Mutations:筛选变异位点

首先,选择研究对象->“肺腺癌患者”,怎么选呢?

Cases选项卡中:Primary Site选择Bronchus and lung(支气管或肺),Disease Type选择Adenomas and Adenocarcinomas(腺癌),其他选项可以根据自己的研究目的自行选择。

Genes选项卡中:在Biotype中可以选择基因的类型,比如编码蛋白的基因,非编码的lincRNA和miRNA等,在这里我们选择编码蛋白的基因protein_coding,因为此类基因往往更为重要。还有一个重要的选项是:Is Cancer Gene Census,这个选项表示是否要选择已知和肿瘤相关的基因,这里我们选择true。

Mutations选项卡中:这里面是大家不太熟悉的一些选项。

VEP Impact SIFT ImpactPolyphen Impact,这三个选项分别对应三个常用的分析软件VEP、 SIFT和Polyphen,这三个软件是用来对氨基酸突变后对蛋白功能产生的影响进行评估的。比如SIFT的deleterious代表该突变是个有害突变,而tolerated则代表一个可耐受的突变,即氨基酸突变对蛋白整体影响不大。

Consequence Type选项是指突变的类型,比如错义突变(missense_variant),同义突变(synonymous_variant)、移码突变(frameshift_variant)等。

Type选项是指突变的类型,分为点突变、小片段缺失和下片段插入突变。

Variant Caller选项是指鉴定基因突变的软件。分析肿瘤DNA二代测序数据的软件很多,不同软件鉴定突变位点的敏感度和特异性各不相同。目前比较主流的肿瘤call突变的软件有mutect2,varscan,muse,somaticsniper等,其中mutect2varscan这两款软件则是由“基因组研究的圣殿—Broad Institute”开发出品,也是最为经典的分析肿瘤somatic mutation的软件,所以其分析结果的可信度较高。

COSMIC ID选项是指筛选得到的突变位点是否有COSMIC ID,换句话说,即筛选到的突变是否存储于COSMIC数据库中。

COSMIC(https://cancer.sanger.ac.uk/cosmic/)是当今世界上现有的最大、最全面的人类肿瘤体细胞突变数据库。所以,为了筛选和肿瘤相关的突变,我们可以在COSMIC ID选项中勾选上Not Missing。

dbSNP rs ID是指前面筛选出的突变是否带有dbSNP ID,我们都知道dbSNP是正常人群中存在的单核苷酸多态性位点,理论上来说,真正的肿瘤体细胞突变不应带有dbSNP ID,所以该选项的Not Missing请勿勾选!

STEP:4

第三步是最为重要,也最为繁琐的步骤,之后,就是结果展示的界面了。在整个TCGA的右侧半边栏目中,就是筛选表达式和筛选到的结果汇总,如下图所示。

我们筛选出的结果,包括Cases,Genes和Mutations都会以饼图的形式展示出来,并在下面罗列出所有满足筛选条件的条目,点击TSV即可下载相应表格。为了分析在肺腺癌患者中的高频突变基因,我们可以点击结果显示栏的Genes窗口(下图红框),结果就一目了然了。

从上图中我们可以看出,在TCGA数据库中共找到529个患者带有肿瘤相关基因的突变,其中TP53的突变频率最高,达到55%,其次是KRAS、FGFR、FAT4、STK11等。

就已知的文献而言,这样的结果还是相当符合已有研究的结果的。同时,我们还可以从右侧的生存曲线图形中看出带有这些基因突变的患者的大致生存时间和存活率。同时,如果我们觉得这个图不错,可以放到文章当中去,那怎么办呢,总不能截图吧,告诉你点击网页中的下载按钮(上图橙框)即可下载高清矢量原图哦!

如果你觉得单看柱状图不过瘾,怎么办?点击OncoGrid,即可展示在所有研究对象中,频率top50的突变基因(下图)。此外,这里的图形还可自行调节要展示的数据内容和颜色,一样也支持高清无码矢量图下载哦。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科研猫 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档