前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TCGA数据库介绍以及下载方式小结

TCGA数据库介绍以及下载方式小结

作者头像
用户1359560
发布2019-05-14 16:14:31
4.7K0
发布2019-05-14 16:14:31
举报
文章被收录于专栏:生信小驿站生信小驿站

美国政府发起的癌症和肿瘤基因图谱(Cancer Genome Atlas,TCGA)计划,试图通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症(近期目标为50种包括亚型在内的肿瘤)的基因组变异图谱绘制出来,并进行系统分析,旨在找到所有致癌和抑癌基因的微小变异,了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后可以勾画出整个新型“预防癌症的策略”。TCGA 使命:提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力TCGA 目标:完成一套完整的与所有癌症基因组改变相关的“图谱”。

TCGA收录的了很全面的癌症基因组数据,包括突变,拷贝数变异,mRNA表达,miRNA表达,甲基化数据等

这些数据可分为三个级别:

  • level-1: 原始的测序数据(fasta,fastq等)
  • level-2:比对好的bam文件
  • level-3:为经过处理及标准化的数据

(其中level1和level2为controlled-access,level1和level2 是原始数据,文件较大且数据粗糙不利于进一步分析,level-3有部分是controlled-access,数据类型为controlled-access的数据需要向TCGA申请使用权限,数据类型为open-access的可以直接下载利用)

若要下载需要使用官方提供的小工具:GDC Data Transfer Tool


常用下载方式

  • (1)官方下载方式

TCGA官网的data-portal: portal.gdc.cancer.gov 优点:数据最全,更新最快 缺点:下载速度慢,不利于进一步分析。

  • (2)Firehose网页下载方式

Firehose服务器:gdac.broadinstitute.org 优点:这里的数据经过了简单的合并,将每种癌症相同类型的数据合并到了一个文件中,下载方式最简单且可以直接下一步分析 缺点:临床随访数据几乎没有更新。

  • (3)使用R包的下载方式

R包包括TCGA-ASSEMBLER 、TCGA2STAT、GDCRNATOOLS等。但是我最常用的是TCGAbiolinks包,因为该包更新比较快,同时也是直接下载官网数据保证准确性,同时该包的使用者比较多,利于进一步分析和挖掘。

TCGAbiolinks是一个基于GDC提供的API访问GDC中TCGA的数据,并可以通过调用gdc-client下载数据,还可以对下载的数据进行整合和分析的R软件包。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.05.05 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 常用下载方式
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档