专栏首页生信修炼手册使用GDC在线查看TCGA数据

使用GDC在线查看TCGA数据

GDC是Genomic Data Commons的缩写,是由美国国家癌症研究所NCI建立的一套癌症数据共享系统,整合包括TCGA在内的多个癌症数据库中的信息,提供了癌症数据的统一存储,管理,展示,将数据与世界范围内的癌症基因组学研究者共享,网址如下

https://portal.gdc.cancer.gov/

数据来源于以下多个大型癌症研究组织和项目

  1. Foundation Medicine(FM)
  2. Clinical Proteomic Tumor Analysis Consortium(CPTAC)
  3. THe Cancer Genome Atlas(TCGA)
  4. Therapeutically Applicable Research to Generate Effective Treatments (TARGET)
  5. Human Cancer Model Initiative (HCMI)

以上只是部分来源信息,而且还在陆续更新,以后也会有新的来源数据整合到GDC中。当然,到目前为止,该数据库中最大的数据依然是来自TCGA的数据。

为了方便管理如果大量的数据,建立了一个统一的数据模型,如下所示

最高层级为program,对应不同的数据来源,如TCGA, TARGET等;第二层为project, 代表一系列患者对应的;第三层为case,代表的是同一个患者的所有相关数据,包括SNV, CNV,基因表达谱等多种数据,需要注意的是casesample是一对多的关系,一个患者可以取多份样本;最后一层是每个case相关的数据,即Files, 数据类型是多种多样的,包括序列,基因表达谱,SNV, CNV, 甲基化,临床信息等多种数据。

以上只是个人总结的简化版的模型,便于理解数据库中的信息,实际包含的数据类型更多,模型也更加复杂。数据库的首页提供了以下多个导航栏

1. project

可以查看所有项目的数据,也可以通过左侧的筛选框进行筛选,project相关属性如下所示

primary site表示样本对应的组织,program表示数据来源,disease type表示肿瘤类型,data category表示数据类型,比如序列,SNV, CNV等等,experimental Strategy表示实验类型,比如转录组,WGS, 甲基化芯片等。

表格形式的结果示意如下

第一列的project id由program加上肿瘤对应编码构成,肿瘤名称和编码的对应关系部分展示如下

点击project id可以查看summary信息,以TCGA-BRCA为例,示意如下

2. Exploration

这部分支持从以下3个方面来查看和筛选数据

  1. Cases
  2. Genes
  3. Mutations

Cases相关的属性如下

Genes相关的属性如下

Mutations相关的属性如下所示

Cases为例,结果示意如下

点击第一列的case id,可以查看summary信息。除此之外,还提供了OncoGrid功能,对top50个突变基因的SNV, CNV在top200个cases中的分布进行可视化,示意如下

3. Analysis

这部分对于筛选出的数据进行以下两种分析

  1. venn analysis
  2. survival analysis

结果示意如下

4. Repository

这部分包含了所有可用下载的数据,可以从FilesCases两个方面来查看和筛选数据,Files相关的属性如下

Files为例,结果示意如下

通过点击购物车图标,可以将筛选好的数据集加入到到购物车,然后进行下载。对于感兴趣的单个数据集,直接点击网页上的下载按钮就可以下载了,但是对于数据量较大的数据集,就需要通过官方提供的客户端软件来下载。

本文分享自微信公众号 - 生信修炼手册(gh_0146e37a8a70),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • UCSC Xena:癌症基因组学数据分析平台

    UCSC Xena是一个癌症基因组学数据分析平台,支持对癌症样本的多种组学数据进行可视化和分析,网址如下

    生信修炼手册
  • ENCODE project项目简介

    ENCODE是Encyclopedia of DNA Elements的缩写,是由美国人类基因组研究中心NHGRI赞助的一项国际化的合作项目,通过整合DNA, ...

    生信修炼手册
  • Oncomine:肿瘤芯片数据库

    肿瘤作为人类健康的头号杀手,其研究的重要性不言而喻。随着芯片和NGS技术的发展,发表了很多的肿瘤相关数据。然而这些数据来自不同的组织和团队,由于缺乏统一的数据管...

    生信修炼手册
  • UCSC Xena:癌症基因组学数据分析平台

    UCSC Xena是一个癌症基因组学数据分析平台,支持对癌症样本的多种组学数据进行可视化和分析,网址如下

    生信修炼手册
  • 大数据富矿时代来临,一拥而上互相蚕食还是系统性挖掘?

    大数据在科学家们的眼里只有数字的价值,而在商业公司眼里大数据的商业价值更是可观。对于很多人来说,大数据就是0和1,在一个个数据没有联系、被发现规律之前,基本不具...

    企鹅号小编
  • 合成数据生成——数据科学家必备技能

    数据就像是新的石油,而事实上只有少数几个大玩家才有强大能力去这控制这种新的货币。谷歌和脸书非常慷慨地免费提供自家最新型的机器学习算法和软件包,因为现在进入算法世...

    AI研习社
  • 一个完整的机器学习项目在Python中的演练(一)

    磐创AI
  • 【干货】34页PPT解读国家大数据标准

    2017年,我国大数据产业保持高速发展态势,各级政府和企业大力推进,技术创新取得明显突破,大数据应用推进势头良好。展望2018年,大数据产业发展将迎来“黄金期”...

    钱塘数据
  • 没有数据就自己造数据

    学习了一段时间的机器学习发现除了各种算法原理的公式推导比较麻烦之外,没有数据也是很痛苦,在训练各种算法模型的时候,一个良好的数据集就已经成功一大半了,那么剩下的...

    深度学习与Python
  • 教你用android玩冲顶大会——实现几个小时的财务自由

    最近答题类app比较火,玩了几把之后想到为什么不用技术来查找答案呢?因此搞了一款辅助app,能够帮助大家直接搜索答案.经过两天的开发和三天的测试,终于让我的冲...

    何时夕

扫码关注云+社区

领取腾讯云代金券