R语言TCGA-Assembler包下载TCGA数据

1.下载TCGA-Assembler

通过官网下载(需要注册),或者百度一下也有资源。需要注意的是要下载最新版,百度或者谷歌的不一定是最新版本,最好在官网下载,但是现在有一个问题,注册账号时验证码的图片总是无法显示,所以无法注册,如果注册时没有我说的这个问题,那就直接注册,注册后直接输入自己的邮箱在1处,点击下载即可。如果无法注册,可通过GitHub下载。

官网:http://www.compgenome.org/TCGA-Assembler/index.php?act=activate&code=169830

GitHub:https://github.com/compgenome365/TCGA-Assembler-2

这个软件的文献:Wei, L., Jin, Z., Yang, S., Xu, Y., Zhu, Y. and Ji, Y. "TCGA-Assembler 2: Software Pipeline for Retrieval and Processing of TCGA/CPTAC Data." Bioinformatics (2017). https://doi.org/10.1093/bioinformatics/btx812

2.建立工作目录

(1)我们在D盘或者E盘(什么盘都行)下新建一个英文名称的文件夹,注意名称中不要带空格,例如:E:\BioInfo\TCGA_Assembler;

(2)然后我们把下载的TCGA-Assembler的安装包解压,解压后会有很多文件。关于个文件是什么不用管,想了解,看官方文档Manual.pdf说明。我们目前只关注Module_A.R和Module_B.R这2个R文件。将其中的Module_A.R和Module_B.R拷贝到这个文件夹TCGA_Assembler中,这个Module_A主要是用来下载数据的,而Module_B主要用来分析数据;

(3)我们还需要新建一个存放下载后数据的文件夹,一般是癌症类型的缩写,例如LUAD,也可以不建立,后面在代码中设置;

在完成上面三步后,我们看到的文件夹应该是这样的:

(4)使用TCGA-Assembler这个软件,需要能够直接在系统中调用Curl,对于我们使用Windows系统的童鞋来说,这也很简单,我们把TCGA-Assembler这个软件包解压后的curl.exe这个文件,拷贝到自己电脑上的C盘Windows文件夹的System32这个文件夹中(C:\Windows\System32)即可,如果复制过程中已有该文件,不用替换;

(5)然后打开R软件,设置工作目录,直接使用代码:setwd(”E:/BioInfo/TCGA_Assembler") 来实现,输入这行代码后,可通过getwd()来获取当前工作目录,确认是否设置成功,要不然后面会出错。还可通过软件直接设置:文件>>改变工作目录,然后选择刚刚那个文件路径就行了,getwd()再验证一下。

(6)加载需要用的包,下面的代码最好一句一句的执行,不要全部复制到R回车,那样很容易出错,我第一次安装的时候就是这样,安装好下面几个包以后,后续载入TCGA_assemble文件夹中的两个模块(Module_A.R和Module_B.R)时,如果提示错误,一般是缺少包,提示缺什么安装什么就行了:

source("https://bioconductor.org/biocLite.R")
biocLite("httr")
biocLite("RCurl")
biocLite("stringr")
biocLite("HGNChelper")
biocLite("rjson")
library(httr)
library(bitops)
library(RCurl)
library(stringr)
library(HGNChelper)
library(rjson)

(7)以上步骤完成后没有报错就可以开始下载数据了。

3.下载数据

3.1.下载生物样本临床数据

代码:

DownloadBiospecimenClinicalData(cancerType, saveFolderName = "./BiospecimenClinicalData",outputFileName = "")  

参数说明:

cancerType: 一个字符串,指示应为其下载数据的指定癌症类型。它的值可以是任何癌症类型的缩写,可以查看 Manual.pdf文档,也可去官网https://tcga-data.nci.nih.gov/docs/publications/tcga/ 查询各种癌症的缩写。这里列举部分出来。

saveFolderName: 用于保存下载数据文件的目录路径的字符串,其默认值为“./BiospecimenClinicalData”。

outputFileName: 用于形成输出数据文件名称的字符串。它的默认值是一个空字符串。

细节:该函数检索生物标本和临床数据文件,这些文件是以制表符分隔的文本文件,其文件类型称为biotab。在数据文件中,符合感兴趣的临床数据类型的患者用TCGA条形码表示。有关biospecimen和临床数据格式的信息,请参阅https://wiki.nci.nih.gov/display/TCGA/Biotab。有关TCGA患者条码的信息,请参考https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode。下载的数据文件的名称由outputFileName及其原始文件名组成,“__”将两者分开。如果outputFileName是空字符串,则下载的数据文件的名称与其原始TCGA文件名相同。

案例:

source("Module_A.R")  
filename_biosClin <- DownloadBiospecimenClinicalData(cancerType = "LUAD", saveFolderName ="./LUAD/ManualExampleData/RawData.TCGA-Assembler/BiospecimenClinicalData", outputFileName = "test")  

3.2 下载拷贝数数据

代码:

DownloadCNAData(cancerType, assayPlatform = NULL, tissueType = NULL, saveFolderName = ".",outputFileName = "", inputPatientIDs = NULL)  

参数说明:

cancerType: 同3.1

assayPlatform: 一个字符向量,指示应下载数据的分析平台。它的值可以是cna_cnv.hg18, cna_cnv.hg19, cna_nocnv.hg18, 和cna_nocnv.hg19中的一个或一个组合,它的默认值是NULL,这表示上面所有的测试平台(如果可用)。关于测序平台可参考下表:

tissueType: 指示指定组织类型的字符向量,应为此下载数据。它的值可以是一个或多个组织类型缩写,包括TP, TR, TB, TRBM, TAP,TM, TAM, THOC, TBM, NB, NT, NBC, NEBV,和NBM. 它的缺省值为NULL,如果可用,它指示所有上述组织类型。组织类型缩写表(下表)显示了所有缩写的详细组织类型名称。

saveFolderName: 用于保存下载数据文件的目录路径的字符串,其默认值为当前工作目录,即“.”。

outputFileName: 用于形成输出数据文件名称的字符串。它的默认值是一个空字符串。

inputPatientIDs: 空值或TCGA条形码的字符向量识别需要获取数据的患者。如果它是空的(默认情况下),将获得指定癌症类型和组织类型的所有患者的数据。输入病人的条形码必须以“TCGA-”开头,长度为12个字符(例如"TCGA-XX-XXXX" ),但不需要是完整的长度和完整的,因为条形码的前12个字符提供了足够的信息来识别患者。有关TCGA条形码的详细信息,请参阅TCGA Wiki(https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode)

描述:

该函数下载用户指定的癌症类型和组织类型样本的拷贝数数据,由指定的检测平台测量,然后将它们合并到以制表符分隔的.txt数据文件中。

对于每个不同的assayPlatform,该函数生成一个以制表符分隔的.txt数据文件。文件名由五个部分组成:(1) outputFileName; (2) cancer type; (3)用于生成数据的分析平台;(4)用“_”或“tissueTypeAll”连接指定的组织类型,表示所有可用的组织类型;(5)下载数据的日期和时间。双下划线“__”用于分隔文件名中的五个组件。如果outputFileName是一个空字符串,则文件名只包含其他四个组件。

所有数据文件都具有相同的格式。第一行包括列名,而每一行对应一个DNA片段。第一列是TCGA条码。第二列是染色体ID。第三列是序列的起始位置。第四列是序列的结束位置。第5列是段中的探测数。第6列是base2 log(copyNumber/2)传输的以0为中心的复制号值。有关数据格式、数据类型和数据生成管道的详细信息,请参考https://wiki.nci.nih.gov/display/TCGA/SNP+arraybased+data

案例:

source("Module_A.R")  
# 获取6例直肠腺癌(READ)患者样本的拷贝数数据。
filename_READ_CNA <- DownloadCNAData(cancerType = "READ", assayPlatform = "cna_cnv.hg19",saveFolderName = "./READ/ManualExampleData/RawData.TCGA-Assembler", inputPatientIDs = c("TCGA-EI-6884", "TCGA-DC-5869", "TCGA-G5-6572", "TCGA-F5-6812", "TCGA-AF-2692", "TCGA-AG-4021"))  
# 获取所有膀胱尿路上皮癌(BLCA)患者样本的拷贝数数据。
filename_BLCA_CNA <- DownloadCNAData(cancerType = "BLCA", assayPlatform = NULL,saveFolderName = "./BLCA/ManualExampleData/RawData.TCGA-Assembler")  
# 获取6例乳腺浸润性癌(BRCA)患者样本的拷贝数数据.
filename_BRCA_CNA <- DownloadCNAData(cancerType = "BRCA", assayPlatform = "cna_cnv.hg19",saveFolderName = "./BRCA/ManualExampleData/RawData.TCGA-Assembler", inputPatientIDs = c("TCGA-3CAAAU", "TCGA-A7-A13F", "TCGA-BH-A0BZ", "TCGA-BH-A18N", "TCGA-BH-A18Q", "TCGA-BH-A18R" ) )  

3.3 下载甲基化数据

代码:

DownloadMethylationData(cancerType, assayPlatform = NULL, tissueType = NULL, saveFolderName = ".",outputFileName = "", inputPatientIDs = NULL)  

参数说明:

assayPlatform: 一个字符向量,指示应下载数据的分析平台。它的值可以是methylation_27和methylation_450的一个或组合。其默认值为NULL,表示两个检测平台(如果可用)。下表为检测平台描述。

该函数下载用户指定的癌症类型和组织类型的样本的甲基化数据,由指定的检测平台测量,并将它们合并到以制表符分隔的.txt数据文件中。

细节:

所有输出数据文件都具有相同的格式。第一行给出样本的TCGA条形码,而每一行对应一个CpG站点。第一列是CpG站点的索引。第二列是基因符号。第三列是染色体ID。第四列是CpG位点的基因组坐标。从第5列开始,每一列都是示例的“Beta_value”。有关数据格式、数据类型和数据生成管道的详细信息,具体请参考https://wiki.nci.nih.gov/display/TCGA/DNA+methylation

案例:

source("Module_A.R")  
# 获取6例直肠腺癌(READ)患者样本的humanmethylation450数据。
filename_READ_Methylation450 <- DownloadMethylationData(cancerType = "READ", assayPlatform ="methylation_450", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler",inputPatientIDs = c("TCGA-EI-6884", "TCGA-DC-5869", "TCGA-G5-6572", "TCGA-F5-6812", "TCGA-AGA01W", "TCGA-AG-3731"))  
# 获取所有直肠腺癌(READ)患者样本的humanmethylation27数据。
filename_READ_Methylation27 <- DownloadMethylationData(cancerType = "READ", assayPlatform ="methylation_27", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler")  
# 获取3例乳腺癌(BRCA)患者样本的humanmethylation450数据。
filename_BRCA_Methylation450 <- DownloadMethylationData(cancerType = "BRCA", assayPlatform =  "methylation_450", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler",inputPatientIDs = c("TCGA-3C-AAAU", "TCGA-A7-A13F", "TCGA-BH-A0BZ", ) )  
# 获取4例乳腺癌(BRCA)患者样本的humanmethylation27数据。
filename_BRCA_Methylation27 <- DownloadMethylationData(cancerType = "BRCA", assayPlatform ="methylation_27", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler",inputPatientIDs = c("TCGA-A1-A0SD", "TCGA-BH-A18N", "TCGA-BH-A18Q", "TCGA-BH-A18R" ) )  

3.4.下载miRNASeq表达数据

代码:

DownloadmiRNASeqData(cancerType, assayPlatform = NULL, tissueType = NULL, saveFolderName = ".",outputFileName = "", inputPatientIDs = NULL)  

参数说明:

说明:

所有数据文件都具有相同的格式。第一行包括样本的TCGA条形码,第二行显示数据列是READ_COUNT还是READ_PER_MERN_miRNA_MAP,而其他行都是miRNA表达值。第一列是miRNA名称。从第二列开始,每两列(即一个READ_COUNT列和一个READ_PER_MERN_MIRNA_MAP列)对应一个示例。有关数据格式、数据类型和数据生成管道的更多详细信息,请参见https://wiki.nci.nih.gov/display/TCGA/miRNASeq

案例:

source("Module_A.R") 
# 收集6例直肠腺癌(READ)患者样本的miRNASeq数据。
filename_READ_miRNASeq <- DownloadmiRNASeqData(cancerType = "READ", assayPlatform ="mir_HiSeq.hg18", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler",inputPatientIDs = c("TCGA-EI-6884", "TCGA-DC-5869", "TCGA-G5-6572", "TCGA-F5-6812", "TCGA-AF-2689", "TCGA-AF-2691"))  
# 收集所有膀胱尿路上皮癌(BLCA)患者样本的miRNASeq数据。
filename_BLCA_miRNASeq <- DownloadmiRNASeqData(cancerType = "BLCA", assayPlatform = NULL,saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler")  
# 收集6例乳腺浸润性癌(BRCA)患者的miRNASeq数据
filename_BRCA_miRNASeq <- DownloadmiRNASeqData(cancerType = "BRCA", assayPlatform ="mir_HiSeq.hg19.mirbase20", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler",inputPatientIDs = c("TCGA-3C-AAAU", "TCGA-A7-A13F", "TCGA-BH-A0BZ", "TCGA-BH-A18N", "TCGA-BHA18Q", "TCGA-BH-A18R" ) )  

3.5 下载RNA序列数据

代码:

DownloadRNASeqData(cancerType, assayPlatform = NULL, tissueType = NULL, saveFolderName = ".",outputFileName = "", inputPatientIDs = NULL)  

参数说明:

assayPlatform: 一种字符向量,指示应下载数据的分析平台。它的值可以是gene_Array, gene.normalized_RNAseq, gene_RNAseq,isoform.normalized_RNAseq, isoform_RNAseq, exon_RNAseq, 和exonJunction_RNAseq 中的一个或多个。它的默认值是NULL,这表示上面所有的测试平台(如果可用)。下表表为检测平台描述。

说明:

当assayPlatform为gene_Array时,下载的数据是log2无下限规格化(cy5/cy3)表达值被基因符号折叠。 第一行是样本的TCGA条形码,而其他每行对应于一个基因。第一栏是基因的基因符号。 从第二列开始,每列都是一个样本的表达式数据。

当assayPlatform为Gene.NormalizedRNAseq时,下载的数据是基因的规范化计数。 第一行是样本的TCGA条形码,而每一行对应于一个基因。 第一列是每个基因的基因符号(在“|”之前)和Entrez ID(在“|”之后)。从第二列开始,每一列都是一个样本的数据。

当assayPlatform为gene_RNAseq时,数据文件包括RAW_COUNT和SCAPED_EASTATE数据。 第一行是SAMPLE的TCGA条形码,第二行指示列是RAW_COUNT还是SCAPED_EASTABLE,而其他每行对应于一个基因。第一列是每个基因的基因符号(在“|”之前)和Entrez ID(在“|”之后)。从第二列开始,每两列对应一个示例,其中包括RAW_COUNT列和SCAPED_EASTURE列。

当assayPlatform为isoform.NormalizedRNAseq时,数据文件包括标准化的isoforms计数。 第一行是示例的TCGA条形码,而每一行对应于一个isoforms。 第一列是isoforms ID。 从第二列开始,每列对应一个样本。

当assayPlatform为isoform_RNAseq时,数据文件包括isoform的RAW_COUNT和SCAPED_EASTABLE数据。第一行是SAMPLE的TCGA条形码,第二行指示列是RAW_COUNT还是SCAPED_EASTABLE,而每一行对应于一个isoform。第一列是isoform ID。从第二列开始,每两列对应一个样本。

当assayPlatform为exonRNAseq时,数据文件包含外显子的RPKM值。第一行是样本的TCGA条形码,其他每行对应于一个外显子。第一栏是外显子的基因组坐标。从第二列开始,每列都包含示例的RPKM值。

当assayPlatform为exonJunction_RNAseq时,数据文件包括外显子连接的原始计数。第一行是样本的TCGA条形码,其他每行对应于一个外显子。第一栏是外显子的基因组坐标。从第二列开始的样本数据。

更多信息参考https://wiki.nci.nih.gov/display/TCGA/RNASeq+Version+2

案例:

source("Module_A.R") 
# 获取6例直肠腺癌(READ)患者样本的归一化基因表达数据。
filename_READ_RNASeq <- DownloadRNASeqData(cancerType = "READ", assayPlatform ="gene.normalized_RNAseq", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler",inputPatientIDs = c("TCGA-EI-6884", "TCGA-DC-5869", "TCGA-G5-6572", "TCGA-F5-6812", "TCGA-AG-3732", "TCGA-AG-3742"))  
# 获取所有读取患者样本的外显子连接表达数据。
filename_READ_RNASeq <- DownloadRNASeqData(cancerType = "READ", assayPlatform ="exonJunction_RNAseq", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler")  
# 获取所有读取患者样本的微阵列基因表达数据。
filename_READ_Microarray <- DownloadRNASeqData(cancerType = "READ", assayPlatform ="gene_Array", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler")  
# 获取6例乳腺浸润性癌(BRCA)患者样本的归一化基因表达数据
filename_BRCA_RNASeq_gene <- DownloadRNASeqData(cancerType = "BRCA", assayPlatform ="gene.normalized_RNAseq", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler",inputPatientIDs = c("TCGA-3C-AAAU", "TCGA-A7-A13F", "TCGA-BH-A0BZ", "TCGA-BH-A18N", "TCGA-BHA18Q", "TCGA-BH-A18R" ) )  
# 获取6例乳腺浸润性癌(BRCA)患者的外显子表达数据
filename_BRCA_RNASeq_exon <- DownloadRNASeqData(cancerType = "BRCA", assayPlatform ="exon_RNAseq", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler", inputPatientIDs= c("TCGA-3C-AAAU", "TCGA-A7-A13F", "TCGA-BH-A0BZ", "TCGA-BH-A18N", "TCGA-BH-A18Q", "TCGABH-A18R" ) )  

3.6 反相蛋白质阵列数据

代码:

DownloadRPPAData(cancerType, assayPlatform = NULL, tissueType = NULL, saveFolderName = ".",outputFileName = "", inputPatientIDs = NULL)  

参数说明:

assayPlatform: 一种字符向量,指示应下载数据的分析平台。它的值只能是protein_RPPA。它的默认值是NULL,这也表示protein_RPPA。下表为检测平台描述。

说明:

在数据文件中,第一行是样品的TCGA条形码,而另一行每行对应于一种蛋白质抗体。第一列显示编码蛋白质的蛋白质抗体名称(在“|”之后)和相应的基因符号(在“|”之前)。从第二列开始,每列对应一个样本。有关数据格式、数据类型和数据生成管道的详细信息,请参见https://wiki.nci.nih.gov/display/TCGA/Protein+Array+Data+Format+Specification

案例:

source("Module_A.R") 
#  获取6例直肠腺癌(READ)患者RPPA蛋白表达数据。
filename_READ_RPPA <- DownloadRPPAData(cancerType = "READ", assayPlatform = "protein_RPPA",saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler", inputPatientIDs = c("TCGA-EI-6884", "TCGA-DC-5869", "TCGA-G5-6572", "TCGA-F5-6812", "TCGA-AG-3582", "TCGA-AG-4001"))  
#  获取所有膀胱尿路上皮癌(BLCA)患者标本的RPPA蛋白表达数据
filename_BLCA_RPPA <- DownloadRPPAData(cancerType = "BLCA", assayPlatform = "protein_RPPA",saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler")  
# 获取6例乳腺浸润性癌(BRCA)患者RPPA蛋白表达数据。
filename_BRCA_RPPA <- DownloadRPPAData(cancerType = "BRCA", assayPlatform = "protein_RPPA",saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler", inputPatientIDs = c("TCGA-3CAALI", "TCGA-A7-A13F", "TCGA-BH-A0BZ", "TCGA-BH-A18N", "TCGA-BH-A18Q", "TCGA-BH-A18R" ) )  

3.7 下载体细胞突变数据

代码:

DownloadSomaticMutationData(cancerType, assayPlatform = NULL, tissueType = NULL,saveFolderName = ".", outputFileName = "", inputPatientIDs = NULL, supportFolderName ="./SupportingFiles")  

参数说明:

assayPlatform: 一种字符向量,指示应下载数据的分析平台。它的值只能是somaticMutation_DNAseq 。它的默认值是NULL,这也表示somaticMutation_DNAseq 。下表为检测平台描述。

说明:

在数据文件中,第一行包含列名,而其他行对应于一个突变。有关数据格式、数据类型和数据生成管道的详细信息请参考https://wiki.nci.nih.gov/display/TCGA/Mutation+Annotation+Format+(MAF)+Specification

此命令下载指定癌症类型(和样本)的所有文件/版本的体细胞突变数据。对于每个文件/版本,该函数从数据表中选择信息列,并将它们保存到以制表符分隔的.txt文件中作为输出。

一些原始TCGA体细胞突变数据文件在文本中包含Ctrl+Z,这是Windows操作系统中的一个特殊字符,用于指示文件的结尾。在Windows系统上(而不是在其他操作系统上)读取这些文件时可能会发生错误,因为读取过程在遇到Ctrl+Z时停止。在这种情况下,只会导入、处理部分原始数据,并将其保存到输出文件中。为了应对这种情况,对于Windows系统(而不是其他操作系统),原始TCGA体细胞突变数据文件也保存在saveSomaticFolderName目录中名为OriginalSomaticMutationFiles的子文件夹中。

案例:

source("Module_A.R") 
# 获取6例乳腺浸润性癌(BRCA)患者样本的体细胞突变数据。
filename_BRCA_somatic <- DownloadSomaticMutationData(cancerType = "BRCA", assayPlatform ="somaticMutation_DNAseq", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler",inputPatientIDs = c("TCGA-E2-A1IU", "TCGA-A7-A13F", "TCGA-BH- A0BZ", "TCGA-BH-A18N", "TCGA-BHA18Q", "TCGA-BH-A18R" ))  
# 获取多形胶质母细胞瘤(GBM)患者标本的体细胞突变数据
filename_GBM_somatic <- DownloadSomaticMutationData(cancerType = "GBM", assayPlatform ="somaticMutation_DNAseq", saveFolderName = "./ManualExampleData/RawData.TCGA-Assembler")  

3.8 下载临床蛋白组学肿瘤分析联盟(CPTAC)蛋白组学数据

代码:

DownloadCPTACData(cancerType, assayPlatform = NULL, tissueType = NULL, saveFolderName = ".",outputFileName = "", inputPatientIDs = NULL)  

参数说明:

assayPlatform: 一种字符向量,指示应下载数据的分析平台。它的值可以是proteome_iTRAQ, phosphoproteome_iTRAQ, 和glycoproteome_iTRAQ中的一个或多个 。它的默认值是NULL,这也表示所以值(如果可用)。下表为检测平台描述。

说明:

在BRCA和OV的蛋白质组数据文件中,第一行是样品的列名和TCGA条形码,其余每一行对应于一种蛋白质。第一列显示编码蛋白质的基因符号。第二栏是基因描述。第三列是有机体。第4列为染色体ID。第5栏是该基因的基因组定位。从第6列开始,每两列对应一个示例,其中第一列为Log Ratio,第二列为非共享Log Ratio。对数比是指样品中某一蛋白质的光谱计数与参考样品中该蛋白质的光谱计数之比的对数,而映射到该蛋白质的所有肽段都被计算在内。非共享对数比率是指样品中一种蛋白质的光谱计数与参考样品中该蛋白质的光谱计数之间的比值的对数,而不计算可以映射到多个蛋白质的肽。

在结直肠癌蛋白质组数据文件(COAD,READ)中,第一行是样品的列名和TCGA条形码,其余每行对应于一种蛋白质。第一列显示蛋白质的基因符号。第二栏是基因描述。第三列是 organism。第4列为染色体ID。第5栏是该基因的基因组定位。从第6列开始,每两列对应一个样本,其中第一列是光谱计数,第二列是非共享光谱计数。光谱计数是指映射到蛋白质的所有多肽的计数,而非共享光谱计数是指唯一映射到该蛋白质的多肽的计数。

在BRCA和OV的磷酸化蛋白质组数据文件中,只包含Log Ratio数据。 第一行是列名和TCGA示例条形码,其他每一行对应于一种亚磷酸盐。 第一栏显示亚磷酸盐的位置。第二列是肽序列。第三列是基因符号。第四列是有机体。数据从第5列开始。

在OV的糖蛋白组数据文件中,仅包含Log Ratio数据。第一行是列名和TCGA示例条形码,其他每行对应于一个糖基化产物。第一列显示糖酸盐的位置。第二列是肽序列。第三列是基因符号。第四列是有机体。数据从第5列开始。

案例:

source("Module_A.R") 
# 获取6例乳腺浸润性癌(BRCA)患者的cptac蛋白表达数据。
filename_BRCA_iTRAQ <- DownloadCPTACData(cancerType =  c("BRCA"),  assayPlatform ="proteome_iTRAQ",  saveFolderName  =  "./ManualExampleData/RawData.TCGA-Assembler",  inputPatientIDs  =  c("TCGA-A2-A0CM",  "TCGA-A7-A13F",  "TCGA-BH-A0BZ",  "TCGA-BH-A18N",  "TCGA- BHA18Q",  "TCGA-BH-A18R"  ))  
# 获取卵巢浆液性囊腺癌(OV)患者样本的所有蛋白组学数据。
filename_OV_iTRAQ <- DownloadCPTACData(cancerType =  c("OV"),  saveFolderName  =  "./ManualExampleData/RawData.TCGA-Assembler")  
# 获取结直肠癌(COAD)患者样本的cptac磷酸化蛋白组数据。
filename_COAD_iTRAQ <- DownloadCPTACData(cancerType =  c("COAD"),  assayPlatform ="proteome_iTRAQ",  saveFolderName  =  "./ManualExampleData/RawData.TCGA-Assembler")  
# 获取结直肠癌(READ)患者样本的cptac磷酸化蛋白组数据。
filename_READ_iTRAQ <- DownloadCPTACData(cancerType =  c("READ"),  assayPlatform ="proteome_iTRAQ",  saveFolderName  =  "./ManualExampleData/RawData.TCGA-Assembler")  

3.9 下载数据总结

下载前实现要设置好相应的变量,比如文件保存路径,让后将这些变量作为参数传入相应的函数体中。

#' Load functions
source("Module_A.R")
source("Module_B.R")
#' set data saving path
sPath1 <- "./BRCA/QuickStartExample/Part1_DownloadedData"
#' choose a cancer type,同3.1
sCancer <- "BRCA"
#' choose some patients
vPatientID <- c("TCGA-A7-A13F", "TCGA-AO-A12B", "TCGA-AR-A1AP", "TCGA-AR-A1AQ","TCGA-AR-A1AS", "TCGA-AR-A1AV", "TCGA-AR-A1AW", "TCGA-BH-A0BZ","TCGA-BH-A0DD", "TCGA-BH-A0DG")
#' Download somatic mutation data
DownloadSomaticMutationData(cancerType = sCancer,assayPlatform = "somaticMutation_DNAseq",inputPatientIDs = vPatientID,saveFolderName = sPath1)

原文发布于微信公众号 - BioInfoCloud(bioInfo_cloud)

原文发表时间:2019-03-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券