前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TCGA数据下载—TCGAbiolinks包参数详解

TCGA数据下载—TCGAbiolinks包参数详解

作者头像
生信技能树
发布2019-05-13 18:56:48
8.6K1
发布2019-05-13 18:56:48
举报
文章被收录于专栏:生信技能树生信技能树

今天我们介绍使用TCGAbiolinks包下载TCGA数据库的数据。TCGAbiolinks包是从TCGA数据库官网接口下载数据的R包。它的一些函数能够轻松地帮我们下载数据和整理数据格式。 其实就是broad研究所的firehose命令行工具的R包装!

最近才开始使用TCGAbiolinks这个包从TCGA数据库官网下载数据,发现很多参数不知道去哪里找,所以就查找资料总结了一下。以下载肝脏肝细胞癌(LIHC)count值为例,下载数据最主要的一个函数是GDCquery()。我们在R里运行:

代码语言:javascript
复制
> ?GDCquery

就像学习所有之前没用过的包一样,第一步永远是查看下 help 文档,里面介绍了各个参数,齁长~齁长的,不过没关系,我们一会儿进行一一介绍,也不是哪个都有用。

首先我们看下 help 文档里的Usage部分:

代码语言:javascript
复制
Usage

GDCquery(project, data.category, data.type, workflow.type,
  legacy = FALSE, access, platform, file.type, barcode,
  experimental.strategy, sample.type)

发现GDCquery函数一共有11个参数:

1.project

2.data.category

3.data.type

4.workflow.type

5.legacy = FALSE

6.access

7.platform

8.file.type

9.barcode

10.experimental.strategy

11.sample.type

其次我们看一下 help 文档里的Examples部分:

代码语言:javascript
复制
query <- GDCquery(project = "TCGA-ACC",
                  data.category = "Copy Number Variation",
                  data.type = "Copy Number Segment")

注:GDCquery函数参数详解官网网址:

http://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html#useful_information

安装R包

老规矩,使用我们生信技能树的镜像切换大法,保证分分钟安装成功!

代码语言:javascript
复制
rm(list = ls()) 
options()$repos 
options()$BioC_mirror
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options()$repos 
options()$BioC_mirror

source("https://bioconductor.org/biocLite.R")
biocLite("TCGAbiolinks")
library("TCGAbiolinks")

介绍各参数

1.project

可以使用TCGAbiolinks:::getGDCprojects()$project_id)得到各个癌种的项目id,总共有45个ID值。

如:将要下载的肝癌项目编号为project="TCGA-LIHC"

代码语言:javascript
复制
> TCGAbiolinks:::getGDCprojects()$project_id
 [1] "TCGA-READ"      "TARGET-CCSK"    "TCGA-MESO"      "TCGA-CHOL"     
 [5] "NCICCR-DLBCL"   "TARGET-WT"      "TCGA-TGCT"      "TCGA-PRAD"     
 [9] "TCGA-LAML"      "TCGA-ESCA"      "TCGA-SARC"      "TCGA-ACC"      
[13] "TCGA-PAAD"      "TCGA-BLCA"      "TCGA-KICH"      "FM-AD"         
[17] "TCGA-LUSC"      "TCGA-THYM"      "TCGA-GBM"       "TCGA-UCEC"     
[21] "TCGA-COAD"      "TCGA-LUAD"      "TARGET-AML"     "TARGET-NBL"    
[25] "TCGA-DLBC"      "TCGA-UVM"       "TCGA-THCA"      "TARGET-OS"     
[29] "TCGA-LGG"       "TCGA-STAD"      "TCGA-LIHC"      "TCGA-CESC"     
[33] "TCGA-HNSC"      "TCGA-KIRC"      "VAREPOP-APOLLO" "TCGA-SKCM"     
[37] "TCGA-BRCA"      "TCGA-OV"        "TCGA-PCPG"      "CTSP-DLBCL1"   
[41] "TCGA-UCS"       "CPTAC-3"        "TCGA-KIRP"      "TARGET-RT"     
[45] "TARGET-ALL-P3" 
2.data.category

可以使用TCGAbiolinks:::getProjectSummary(project)查看project中有哪些数据类型,如查询"TCGA-LIHC"有7种数据类型(就是前面群主视频多次提到的数据类型)case_count为病人数,file_count为对应的文件数。小编要下载表达谱,所以设置data.category="Transcriptome Profiling"

代码语言:javascript
复制
> TCGAbiolinks:::getProjectSummary("TCGA-LIHC")
$`data_categories`
  case_count file_count               data_category
1        376       2122     Transcriptome Profiling
2        376       1537       Copy Number Variation
3        375       3032 Simple Nucleotide Variation
4        377        430             DNA Methylation
5        377        423                    Clinical
6        377       1637            Sequencing Reads
7        377       1634                 Biospecimen

$case_count
[1] 377

$file_count
[1] 10815

$file_size
[1] 1.729756e+13
3.data.type

筛选要下载的文件的数据类型。没有命令可以查看data.type里都有哪些数据类型,但是根据官网连接,如下表图,和所查资料,我们可以总结出常用的data.type都有:

代码语言:javascript
复制
 #下载rna-seq的counts数据
 data.type = "Gene Expression Quantification"
 #下载miRNA数据
 data.type = "miRNA Expression Quantification"
 #下载Copy Number Variation数据
 data.type = "Copy Number Segment"

这里下载表达谱为data.type = "Gene Expression Quantification"

1556293360665.png

4.workflow.type

不同的数据类型,有其对应的参数可供选择。

workflow.type 有三种类型分别为:

  • HTSeq - FPKM-UQ:FPKM上四分位数标准化值
  • HTSeq - FPKM:FPKM值/表达量值
  • HTSeq - Counts:原始count数

小编需要下载count数,所以workflow.type=“HTSeq - Counts”

5.legacy = FALSE

这个参数主要是因为TCGA数据有两个入口可以下载,GDC Legacy ArchiveGDC Data Portal,区别主要是注释参考基因组版本不同分别是:GDC Legacy Archive(hg19GDC Data Portal(hg38)。参数默认为FALSE,下载GDC Data Portal(hg38)。这里小编的建议是,下载转录组层面的数据使用hg38,下载DNA层面的数据使用hg19,因为比如做SNP分析的时候很多数据库没有hg38版本的数据,都是hg19的。

1556293412665.png

6.access

数据开放和不开放,有两个参数:controlled, open

我们这里使用:access=“open”

7.platform

这里涉及到的平台种类非常多,可以具体去官网看每种数据都有什么平台的可以下载。这个参数可以省略不设置。

1556293428897.png

8.file.type

主要是在GDC Legacy Archive下载数据的时候使用,可以参考官网说明。这里小编在GDC Data Portal下载数据,所以该参数省略不设置。

9.barcode

A list of barcodes to filter the files to download。可以根据这个参数设置只下载某个样本等。如:

barcode = c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01")

10.experimental.strategy

两个下载入口参数选择

  • GDC Data Portal:WXS, RNA-Seq, miRNA-Seq, Genotyping Array.
  • Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq
11.sample.type

A sample type to filter the files to download,可以对样本类型进行过滤下载。这里我要下载所有样本类型数据,不设置。部分值选择如下(全部可以查看官网):如sample.type = "Recurrent Solid Tumor"

1556293447018.png

下面我们开始下载数据:

根据上面的讲解,小编要下载的数据为LIHC,表达谱,count值,因此个参数设置如下:

代码语言:javascript
复制
#先从数据库里找到符合各项参数要求的数据
query <- GDCquery(project = "TCGA-LIHC", 
                 legacy = FALSE, 
                 experimental.strategy = "RNA-Seq", 
                 data.category = "Transcriptome Profiling", 
                 data.type = "Gene Expression Quantification", 
                 workflow.type = "HTSeq - Counts")

#再使用命令GDCdownload()下载
GDCdownload(query)

下载成功后的运行结果

代码语言:javascript
复制
> GDCdownload(query)
Downloading data for project TCGA-LIHC
GDCdownload will download 424 files. A total of 104.380925 MB
Downloading as: Fri_Apr_26_00_38_40_2019.tar.gz
Downloading: 100 MB 
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 安装R包
  • 介绍各参数
    • 1.project
      • 2.data.category
        • 3.data.type
          • 4.workflow.type
            • 5.legacy = FALSE
              • 6.access
                • 7.platform
                  • 8.file.type
                    • 9.barcode
                      • 10.experimental.strategy
                        • 11.sample.type
                        相关产品与服务
                        数据库
                        云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
                        领券
                        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档