TCGA肿瘤数据库使用训练(一)

转载请注明:解螺旋·临床医生科研成长平台

本期单元课讲解TCGA数据库的应用,听说小伙伴们原力爆发,加满了30多个群,这可真是把一贯躲在幕后的我也吓坏了0.0是不是冲着跟别人家3000元的价格对比而来的呀?说实话当一位学员把这条信息告诉我们的时候,解螺旋老小们心中也是久久不能平静。

本次单元课则介绍使用它的具体操作。下边咱们还是通过以往的作业形式进行练习。啊不过这回只有三道作业,今天做第一道。

TCGA官网的简单检索和分析

在TCGA官网查询乳腺癌、卵巢癌、宫颈癌的TCGA项目数据集中,受影响人数排名前100的基因。作韦恩图,得到卵巢癌中与其他两个癌种不重合的基因,再找出其突变会对卵巢癌病例的生存有显著影响的基因。

Tip:最后一步有点烦啊,就告诉大家吧,有2个,找到了就不用再往下找了。

步骤

打开TCGA官方网站https://portal.gdc.cancer.gov/,点选“Exploration”检索模式。

在Case选项卡中,选择部位乳腺,项目TCGA-BRCA。当然从Program那里选TCGA也是一样的。可以看到这个数据集中,肿瘤亚型只有一种。

右边显示的结果中,转到Genes选项卡,这里有近2万个基因,左图是本数据集中,各基因影响案例的比例,已从大到小排列。下边是各基因的列表,也已按同样的顺序排列了。点右边的Save/Edit Gene Set,保存这个基因列表。

在弹窗中将保存数量改为前100个,然后保存。

按同样的办法做好卵巢癌、宫颈癌的100个基因数据集。只不过再次保存的时候会有多几个选项,注意选上保存为新的数据集。

都做好之后进入Analysis模式,在韦恩图那里点Select。

之后页面右边出现刚才做好的三个数据集,都勾选上之后点Run运行。

这便得到了一个韦恩图,鼠标悬停在各区块上可以高亮显示;右上的表格可以看到图中的S1、S2、S3分别代表哪个数据集。这我们要的是S2卵巢癌,可以看到有36个基因是不与其他两组重合的,即差集(你仍有可能在另两个癌种中找到这些基因,只是没有进入前100罢了)。

在下边的表格找到相应的基因列表,可以下载成TSV文件用Excel打开,也可以在网站上保存成新的数据集,这里就先保存吧。

保存之后可以在网页右上角的Manage Sets里找到它,便于再次分析。

不过本题中暂不需要其他的数据集了,所以也不必离开当前页面,直接点一下刚才保存按扭旁边带下划线的的“36”,就回到Exploration界面,查询了这36个基因。

不过注意看上边的检索式,此时是没有检索癌种的。

所以要记得在左边Case一栏中找回刚才的卵巢癌TCGA项目数据集。

这回346个Cases才是卵巢癌中这些基因的变异情况。

然后下边基因列表最右边有生存曲线图标,点它就能看到上方的生存曲线,展示当前基因变异与不变异的案例的生存情况。图的标题下方有P值。

一个个往下找,很快就找到TOP2A和VCAN这两个基因。比如TOP2A的图是这样的:

然后可以点右边的下载按钮保存这个图。同样也可查到并保存VCAN的图。

不过,其实很少有文章是直接用TCGA官网的分析来做的,它更多的是用于超早期的概念探索,本题也是意在让大家熟悉其网站结构、功能和内容。明天的作业咱们就要跟着文献学习了~

明天作业预告

图多,但流程都一样的。

A:前列腺癌的TCGA Provisional数据集。查询APC、CTNNB1、GALNT10、GRB2、LYN、SIGLEC1、SOS1、ZAP70、FAM84B这9个基因,选择有拷贝数变异(CNA)的子集,浏览各基因在各样本中的变异情况,并标出疾病状态标签(Disease Free status)。

B:上述在基因同一数据集中变异与否的无进展生存期的生存曲线。

C:前列腺癌,MSKCC, Cancer Cell 2010数据集,选择有CNA的子集,查询上述9个基因的变异情况,标出疾病状态。

D:与C同一数据集的无进展生存曲线。

E:与图A、B同一数据集的总体生存期曲线。

Tip:图A、B、E是用provisonal的数据,可能已有更新,所以做出的图跟已发表的文献中略有不一样也不要方。图C和D做出来是和文中一样的。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180207A0YDHG00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券