TCGA数据下载—TCGAbiolinks包参数详解

生信技能树

发布于 2019-05-13 18:56:48

9.6K1

今天我们介绍使用TCGAbiolinks包下载TCGA数据库的数据。TCGAbiolinks包是从TCGA数据库官网接口下载数据的R包。它的一些函数能够轻松地帮我们下载数据和整理数据格式。其实就是broad研究所的firehose命令行工具的R包装！

最近才开始使用TCGAbiolinks这个包从TCGA数据库官网下载数据，发现很多参数不知道去哪里找，所以就查找资料总结了一下。以下载肝脏肝细胞癌（LIHC）的count值为例，下载数据最主要的一个函数是GDCquery()。我们在R里运行：

> ?GDCquery

就像学习所有之前没用过的包一样，第一步永远是查看下 help 文档，里面介绍了各个参数，齁长~齁长的，不过没关系，我们一会儿进行一一介绍，也不是哪个都有用。

首先我们看下 help 文档里的Usage部分：

Usage

GDCquery(project, data.category, data.type, workflow.type,
  legacy = FALSE, access, platform, file.type, barcode,
  experimental.strategy, sample.type)

发现GDCquery函数一共有11个参数：

1.project；

2.data.category；

3.data.type；

4.workflow.type；

5.legacy = FALSE；

6.access；

7.platform；

8.file.type；

9.barcode；

10.experimental.strategy；

11.sample.type

其次我们看一下 help 文档里的Examples部分：

query <- GDCquery(project = "TCGA-ACC",
                  data.category = "Copy Number Variation",
                  data.type = "Copy Number Segment")

注：GDCquery函数参数详解官网网址：

http://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html#useful_information

安装R包

老规矩，使用我们生信技能树的镜像切换大法，保证分分钟安装成功！

rm(list = ls()) 
options()$repos 
options()$BioC_mirror
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options()$repos 
options()$BioC_mirror

source("https://bioconductor.org/biocLite.R")
biocLite("TCGAbiolinks")
library("TCGAbiolinks")

介绍各参数

1.project

可以使用TCGAbiolinks:::getGDCprojects()$project_id)得到各个癌种的项目id，总共有45个ID值。

如：将要下载的肝癌项目编号为project="TCGA-LIHC"

> TCGAbiolinks:::getGDCprojects()$project_id
 [1] "TCGA-READ"      "TARGET-CCSK"    "TCGA-MESO"      "TCGA-CHOL"     
 [5] "NCICCR-DLBCL"   "TARGET-WT"      "TCGA-TGCT"      "TCGA-PRAD"     
 [9] "TCGA-LAML"      "TCGA-ESCA"      "TCGA-SARC"      "TCGA-ACC"      
[13] "TCGA-PAAD"      "TCGA-BLCA"      "TCGA-KICH"      "FM-AD"         
[17] "TCGA-LUSC"      "TCGA-THYM"      "TCGA-GBM"       "TCGA-UCEC"     
[21] "TCGA-COAD"      "TCGA-LUAD"      "TARGET-AML"     "TARGET-NBL"    
[25] "TCGA-DLBC"      "TCGA-UVM"       "TCGA-THCA"      "TARGET-OS"     
[29] "TCGA-LGG"       "TCGA-STAD"      "TCGA-LIHC"      "TCGA-CESC"     
[33] "TCGA-HNSC"      "TCGA-KIRC"      "VAREPOP-APOLLO" "TCGA-SKCM"     
[37] "TCGA-BRCA"      "TCGA-OV"        "TCGA-PCPG"      "CTSP-DLBCL1"   
[41] "TCGA-UCS"       "CPTAC-3"        "TCGA-KIRP"      "TARGET-RT"     
[45] "TARGET-ALL-P3"

2.data.category

可以使用TCGAbiolinks:::getProjectSummary(project)查看project中有哪些数据类型，如查询"TCGA-LIHC"，有7种数据类型（就是前面群主视频多次提到的数据类型），case_count为病人数，file_count为对应的文件数。小编要下载表达谱，所以设置data.category="Transcriptome Profiling"

> TCGAbiolinks:::getProjectSummary("TCGA-LIHC")
$`data_categories`
  case_count file_count               data_category
1        376       2122     Transcriptome Profiling
2        376       1537       Copy Number Variation
3        375       3032 Simple Nucleotide Variation
4        377        430             DNA Methylation
5        377        423                    Clinical
6        377       1637            Sequencing Reads
7        377       1634                 Biospecimen

$case_count
[1] 377

$file_count
[1] 10815

$file_size
[1] 1.729756e+13

3.data.type

筛选要下载的文件的数据类型。没有命令可以查看data.type里都有哪些数据类型，但是根据官网连接，如下表图，和所查资料，我们可以总结出常用的data.type都有：

 #下载rna-seq的counts数据
 data.type = "Gene Expression Quantification"
 #下载miRNA数据
 data.type = "miRNA Expression Quantification"
 #下载Copy Number Variation数据
 data.type = "Copy Number Segment"

这里下载表达谱为data.type = "Gene Expression Quantification"

1556293360665.png

4.workflow.type

不同的数据类型，有其对应的参数可供选择。

workflow.type 有三种类型分别为：

HTSeq - FPKM-UQ：FPKM上四分位数标准化值
HTSeq - FPKM：FPKM值/表达量值
HTSeq - Counts：原始count数

小编需要下载count数，所以workflow.type=“HTSeq - Counts”。

5.legacy = FALSE

这个参数主要是因为TCGA数据有两个入口可以下载，GDC Legacy Archive 和 GDC Data Portal，区别主要是注释参考基因组版本不同分别是：GDC Legacy Archive（hg19和GDC Data Portal（hg38）。参数默认为FALSE，下载GDC Data Portal（hg38）。这里小编的建议是，下载转录组层面的数据使用hg38，下载DNA层面的数据使用hg19，因为比如做SNP分析的时候很多数据库没有hg38版本的数据，都是hg19的。

1556293412665.png

6.access

数据开放和不开放，有两个参数:controlled, open。

我们这里使用：access=“open”

7.platform

这里涉及到的平台种类非常多，可以具体去官网看每种数据都有什么平台的可以下载。这个参数可以省略不设置。

1556293428897.png

8.file.type

主要是在GDC Legacy Archive下载数据的时候使用，可以参考官网说明。这里小编在GDC Data Portal下载数据，所以该参数省略不设置。

9.barcode

A list of barcodes to filter the files to download。可以根据这个参数设置只下载某个样本等。如：

barcode = c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01")

10.experimental.strategy

两个下载入口参数选择

GDC Data Portal：WXS, RNA-Seq, miRNA-Seq, Genotyping Array.
Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq

11.sample.type

A sample type to filter the files to download，可以对样本类型进行过滤下载。这里我要下载所有样本类型数据，不设置。部分值选择如下（全部可以查看官网）：如sample.type = "Recurrent Solid Tumor"

1556293447018.png

下面我们开始下载数据：

根据上面的讲解，小编要下载的数据为LIHC，表达谱，count值，因此个参数设置如下：

#先从数据库里找到符合各项参数要求的数据
query <- GDCquery(project = "TCGA-LIHC", 
                 legacy = FALSE, 
                 experimental.strategy = "RNA-Seq", 
                 data.category = "Transcriptome Profiling", 
                 data.type = "Gene Expression Quantification", 
                 workflow.type = "HTSeq - Counts")

#再使用命令GDCdownload(）下载
GDCdownload(query)

下载成功后的运行结果

> GDCdownload(query)
Downloading data for project TCGA-LIHC
GDCdownload will download 424 files. A total of 104.380925 MB
Downloading as: Fri_Apr_26_00_38_40_2019.tar.gz
Downloading: 100 MB

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-04-27，如有侵权请联系 cloudcommunity@tencent.com 删除

数据库