前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TCGA数据库挖掘肿瘤相关基因突变(2)cBioPortal

TCGA数据库挖掘肿瘤相关基因突变(2)cBioPortal

作者头像
用户6317549
发布2019-11-14 14:43:05
3.9K0
发布2019-11-14 14:43:05
举报
文章被收录于专栏:科研猫科研猫

TCGA的“鸡肋”之处

TCGA是一个综合性的多组学肿瘤基因组数据库,除包含DNA测序之外,还包含了RNA测序、拷贝数、蛋白谱、甲基化等多个组学的数据,但是在TCGA的官方网站GDC Data Portal (https://portal.gdc.cancer.gov/)

仅有的几个功能模块中,却并没有发现可用的数据挖掘功能,在Analysis模块中也仅有可怜的两项功能:交集分析和队列比较。这两个功能,总结起来就两个字,鸡肋......

交集分析:其功能是对几个突变基因或突变位点的列表取交集,并绘制韦恩图。这功能非常草率的功能,我想自己用excel能更快地搞定。

队列比较:可以让用户选定两组不同的患者,然后对患者的年龄、性别、生存时间进行比较,该功能里唯一算有用的也就生存分析了吧。用过的同志们都知道,这个功能仍然非常不好用,因为患者的分组是没有办法灵活限定的。例如想比较一下乳腺癌中HER2突变阳性和野生型患者的生存曲线是否有统计学差异。不好意思,不能实现。

比较了现有声称可做肿瘤基因组数据分析的多个在线工具和数据库,从后台数据量、分析工具种类、分析结果准确度、可视化界面以及简易程度等多个指标进行综合测评后,发现了一个super好用,又super专业的分析网站—cBioPortal,堪称TCGA数据挖掘的终结者。

cBioportal

cBioPortal (http://www.cbioportal.org/)由Memorial Sloan Kettering Cancer Center (MSK)开发,是基于TCGA数据库开发的一款集数据挖掘、数据整合及可视化等多功能于一体的综合性开放网络平台。

开发者将该网站发表在Cancer Discovery(IF:24.3)上面,后来由于用的人太多,作者又把网站的说明书拿出来发了一篇Science Signaling(IF:6.4),可谓是real好玩+任性。由此可见,cBioPortal是经过专业杂志认可的数据分析工具,其可信度是相当高的。

下面直接带领大家来学习一下如何通过cBioPortal挖掘肿瘤数据。还是上面的例子:比较一下乳腺癌中HER2突变阳性的病人和野生型病人的生存曲线是否有统计学差异。我们按步进行:

cBioPortal(http://www.cbioportal.org/)打开网址以后,有一点要跟大家提一下,cBioPortal作为一个国外的网站,其访问速度并不算快,有时甚至出现网页打不开的尴尬场面,大家可在某宝购买一个V**,就可以快速打开了。

Step1

选择癌种,也就是研究对象。在cBioPortal中共有32个癌种,240个study,基本覆盖所有常见和个别少见肿瘤。如红框所示,这里我们选择“Breast”,“Breast”后面有个14代表乳腺癌中有14个相关的Study,而我们需要进一步选择Study,选择Study时主要根据肿瘤的病理类型,同时兼顾每个Study右侧的sample个数及该研究所包含的数据类型来选择。

在这里我们选择“Breast Invasive Carcinoma (TCGA, Provisional)”这个研究(蓝框所示)。这里需要跟大家说明的是,同个癌种的不同Study之间存在个别病人重复入组的现象。

Step2

选择需要分析的数据类型。这里的数据类型往往包括以下几种:Mutations(点突变和小的Indel)、Putative copy-number alterations (拷贝数变异)、mRNA expression z-scores(基因表达,可能来自于芯片或者RNASeq),可能还会有Protein/phosphoprotein level(蛋白表达水平,通过RPPA或者质谱检测得到),这里我们选择Mutations(红框所示)。

Step3

在“Enter Genes”里面输入你要分析的基因,这里我们输入“HER2”,发现网站报了错“Invalid gene symbols”,这是为什么呢?因为很多基因都有别名,而HER2不是一个正式的名字,系统帮我们检测到它的名字应该是ERBB2,我们点击一下文本框下面的ERBB2,它便自己改过来了。

仅需以上三步,之后,点击“Submit Query”即可开始分析。等待几秒到几分钟的时间,便会得到分析结果。

这里就要说一说cBioPortal强大无比的分析功能了,几乎包含了多组学研究中能够实现的所有分析功能,如下图所示,包括OncoPrint(基因突变图谱)、Cancer Types Summary(泛癌种基因突变汇总)、Plots(分析拷贝数变异与基因突变或者基因表达的相关性)、Mutations(基因突变列表、功能及蛋白3D结构)、Co-expression(基因共表达分析)、Enrichments(基因突变互作/互斥分析)、Survival(生存分析)、CN Segments(拷贝数分析)、Network(共表达网络)等多种分析结果。

这么多分析中,我们点击“Survival”即可看到基因突变型vs野生型患者的生存曲线及Logrank统计分析结果,图中有P value,下面的表格中还有中位生存时间。从这个结果中,可以看出HER2突变阳性的病人,其生存率要显著低于野生型患者,P值达到5.779e-3。

那么,这么漂亮的一个图怎么放到我们的SCI文章中呢?点击图片右上角的下载符号即可保存高清无码适量大图哦。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科研猫 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档