前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用GDC在线查看TCGA数据

使用GDC在线查看TCGA数据

作者头像
生信修炼手册
发布2019-12-20 11:42:03
2K0
发布2019-12-20 11:42:03
举报
文章被收录于专栏:生信修炼手册

GDC是Genomic Data Commons的缩写,是由美国国家癌症研究所NCI建立的一套癌症数据共享系统,整合包括TCGA在内的多个癌症数据库中的信息,提供了癌症数据的统一存储,管理,展示,将数据与世界范围内的癌症基因组学研究者共享,网址如下

https://portal.gdc.cancer.gov/

数据来源于以下多个大型癌症研究组织和项目

  1. Foundation Medicine(FM)
  2. Clinical Proteomic Tumor Analysis Consortium(CPTAC)
  3. THe Cancer Genome Atlas(TCGA)
  4. Therapeutically Applicable Research to Generate Effective Treatments (TARGET)
  5. Human Cancer Model Initiative (HCMI)

以上只是部分来源信息,而且还在陆续更新,以后也会有新的来源数据整合到GDC中。当然,到目前为止,该数据库中最大的数据依然是来自TCGA的数据。

为了方便管理如果大量的数据,建立了一个统一的数据模型,如下所示

最高层级为program,对应不同的数据来源,如TCGA, TARGET等;第二层为project, 代表一系列患者对应的;第三层为case,代表的是同一个患者的所有相关数据,包括SNV, CNV,基因表达谱等多种数据,需要注意的是casesample是一对多的关系,一个患者可以取多份样本;最后一层是每个case相关的数据,即Files, 数据类型是多种多样的,包括序列,基因表达谱,SNV, CNV, 甲基化,临床信息等多种数据。

以上只是个人总结的简化版的模型,便于理解数据库中的信息,实际包含的数据类型更多,模型也更加复杂。数据库的首页提供了以下多个导航栏

1. project

可以查看所有项目的数据,也可以通过左侧的筛选框进行筛选,project相关属性如下所示

primary site表示样本对应的组织,program表示数据来源,disease type表示肿瘤类型,data category表示数据类型,比如序列,SNV, CNV等等,experimental Strategy表示实验类型,比如转录组,WGS, 甲基化芯片等。

表格形式的结果示意如下

第一列的project id由program加上肿瘤对应编码构成,肿瘤名称和编码的对应关系部分展示如下

点击project id可以查看summary信息,以TCGA-BRCA为例,示意如下

2. Exploration

这部分支持从以下3个方面来查看和筛选数据

  1. Cases
  2. Genes
  3. Mutations

Cases相关的属性如下

Genes相关的属性如下

Mutations相关的属性如下所示

Cases为例,结果示意如下

点击第一列的case id,可以查看summary信息。除此之外,还提供了OncoGrid功能,对top50个突变基因的SNV, CNV在top200个cases中的分布进行可视化,示意如下

3. Analysis

这部分对于筛选出的数据进行以下两种分析

  1. venn analysis
  2. survival analysis

结果示意如下

4. Repository

这部分包含了所有可用下载的数据,可以从FilesCases两个方面来查看和筛选数据,Files相关的属性如下

Files为例,结果示意如下

通过点击购物车图标,可以将筛选好的数据集加入到到购物车,然后进行下载。对于感兴趣的单个数据集,直接点击网页上的下载按钮就可以下载了,但是对于数据量较大的数据集,就需要通过官方提供的客户端软件来下载。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. project
  • 2. Exploration
  • 3. Analysis
  • 4. Repository
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档