前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >通过GDC Legacy Archive下载TCGA原始数据

通过GDC Legacy Archive下载TCGA原始数据

作者头像
生信修炼手册
发布2019-12-19 16:30:10
1.5K0
发布2019-12-19 16:30:10
举报
文章被收录于专栏:生信修炼手册生信修炼手册

在2016年之前,TCGA项目的相关结果文件存放在CGhub和TCGA Data Coordinating Center简称DCC提供的TCGA Data Portal中,当时的结果是以hg19或者hg18为参考得到的。

在DCC中,将数据划分为了3个等级。level 1代笔原始的,未经处理的数据的,比如芯片下机数据;level2 代表处理的中间结果,比如测序深度对应的wig文件;level 3 代表处理完成后的最终结果,比如基因的定量结果。

2016年之后,CGhub和DCC相继关闭,所有的数据统一迁移到现在用的GDC数据库,而且通过GDC的pipeline将原有的结果转换为hg38参考基因组版本。目前在GDC中检索到的结果都是经过了GDC pipeline处理过后的,从这里也可以看出,迁移到hg38是一个大的趋势。

当然目前使用hg19的还是挺多的,如果你需要基于hg19版本的TCGA数据,在GDC中也可以找到。其实GDC中的数据可以分为以下两个部分

  1. GDC harmonized data
  2. GDC legacy archive

在R包TCGAbiolinks中,介绍了二者的区别,如下图所示

第一部分就是默认使用的基于hg38版本的数据,第二部分则是对原始的TCGA结果的一个存储,通过GDC首页的GDC APPs, 可以找到CDC Legacy Archive的入口,链接如下

https://portal.gdc.cancer.gov/legacy-archive

在左侧的面板可以根据相关属性对Cases和Files进行筛选,Cases相关的属性如下

Files相关的属性如下

数据的下载方式和前面文章中介绍的相同,这里不赘述,从文件名称可以看到对应的level, 不同level的文件示意如下

1. level1

通过Data TypeRaw intensitites进行筛选,得到芯片的原始数据, 示意如下

2. level2

通过Data TypeCoverage WIG进行筛选,得到比对的测序深度数据, 示意如下

3. level3

通过Data TypemiRNA gene quantification进行筛选,得到miRNA表达定量数据, 示意如下

通过GDC Legacy Archive, 可以找到基于hg19的数据结果文件,但是由于相关的网站已经关闭,无法确认该数据分析的pipieline等细节信息,所以需要谨慎使用。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. level1
  • 2. level2
  • 3. level3
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档