TCGA的28篇教程- 数据下载就到此为止吧

长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal) TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)

因为TCGA是一个史无前例的癌症研究项目,值得介绍的东西太多,不能在下载这个基础环境耽误太多的功夫,下载渠道再多,也只需要一个好用的即可!

我以前在生信技能树论坛也写过 TCGA数据下载合集:

也不想在费口舌重复介绍。

下面就简单罗列几个还算是比较流行的TCGA下载器吧:

GDC官方下载工具

GDC给出了一系列的用户友好的选择框,你只需要根据条条框框来选择就可以下载到自己想要的数据,而不需要去几百个文件夹里面漫无目的的查找了。 https://gdc-portal.nci.nih.gov/legacy-archive/search/f 根据自定义搜索过滤条件拿到了 mainfest 文件就可以啦。

GDC客户端的说明书是:https://docs.gdc.cancer.gov/Data ... de/Getting_Started/ 傻瓜式软件,非常简单! 一般人只需要根据你搜索过滤得到的mainfest进行GDC下载数据即可,下载下来的文件,是每个样本一个文件夹,需要合并,需要了解为什么用XML来存储信息

TCGA-assembler 2

发表于 Bioinformatics, May 2018 ,https://doi.org/10.1093/bioinformatics/btx812 据作者自己说是广受好评,帮助了超过 2000 researchers from 64 countries 的科学家,所以才出第二版!

源代码及其使用教程都在:https://github.com/compgenome365/TCGA-Assembler-2

TCGA计划在2016年6月就停止招募病人了,官方数据存放地址是:Genomic Data Commons (GDC, https://gdc.cancer.gov/) 但是有新的蛋白质组学数据出来,存放在 Clinical Proteomic Tumor Analysis Consortium (CPTAC) , 该蛋白质组学使用的主要是 isobaric Tags for Relative and Absolute Quantification (iTRAQ) 这个质谱技术。

也就是说,使用可以很方便的获取包括:

  • gene expression
  • miRNA expression
  • DNA copy number
  • DNA methylation
  • somatic mutation
  • RPPA (Reverse Phase Protein Array) protein expression
  • iTRAQ protein expression (from CPTAC), and clinical and biospecimen information

进入其GitHub看代码,很容易明白其实就是几个R脚本,详细教程也在里面:TCGA-Assembler-2/TCGA-Assembler/Tutorial.pdf

总体来说,下载不同的数据,有着不同的下载函数,而且每个函数有着差不多的参数,通常是需要病人的ID以及下载路径等等。

同时也可以下载多组学数据。

TCGA2STAT

发表于 Bioinformatics, March 2016,https://doi.org/10.1093/bioinformatics/btv677 之所以注意到这个工具,是因为它里面列举了比较详细的肿瘤类型以及各个组学数据缺失情况。

同样,也是基于R的。

代码举例如下:

# Part I: Download NGS expression and methylation data for LUSC

methyl <- getTCGA(disease=“LUSC”, data.type=“Methylation”)
rnaseq2 <- getTCGA(disease=“LUSC”, data.type=“RNASeq2”, clinical=TRUE)
met.var <- apply(methyl$dat, met.var >=
quantile(met.var, 0.99, na.rm=T)&!is.na(met.var))
rnaseq2.var <- apply(log10(1+rnaseq2$dat), 1,var)rnaseq2.var >=
quantile(rnaseq2.var, 0.99, na.rm=T) &!is.na(rnaseq2.var))

# Part II: Merge the two data types for integrated analysis
met.rnaseq2 <- OMICSBind(dat1 = rnaseq.data, dat2= met.data)

# Part III: Perform CCA on merged data, X and Y
lusc.cc <- rcc(t(met.rnaseq2$X), t(met.rnaseq2$Y), 0.75025, 0.5005)

点击进入这篇文章的附件,值得下载打印背诵,相信我!

GDCRNATools

发表于 Bioinformatics, March 2018 , https://doi.org/10.1093/bioinformatics/bty124 下载TCGA数据只是其中一个功能而已,它其实是 an R/Bioconductor package for integrative analysis of lncRNA, miRNA and mRNA data in GDC

更重要的是,该R包是我们生信技能树的VIP成员开发的,于今年6月在美帝博士毕业!

我会邀请他亲自来写该R包的教程!

Clusternomics

主要是TCGA肿瘤数据联合分析如基因表达,拷贝数,甲基化变化

同样的,这些网页工具也是大把,如果介绍它们的用法,那就不是我们生信工程师的风格了:

如果你实在有需要,请自行前往微信搜索咯。

关键词都给你啦!

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2018-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序人生

数据:逍遥游

对程序员来说,数据是我们时刻都在打交道的东西。我们的代码如同一台机器,把进入的数据转换或者映射成出来的数据。数学上,不过是:y = f(x) 而已。数据就像庄子...

1234
来自专栏开源优测

[大数据测试]ETL测试或数据仓库测试入门

概述 在我们学习ETL测试之前,先了解下business intelligence(即BI)和数据仓库。 什么是BI? BI(Business Intell...

3616
来自专栏编程一生

架构师之路--应用架构的选型和dubbo

1452
来自专栏精讲JAVA

关于淘点点面试中碰到的架构问题​

之前面试淘点点的时候被问倒得一个问题至今牵挂,由于工作环境的限制,我没能接触到一些大数据量的并发工作,也没能有机遇参与复杂系统的设计,而我学习复杂或高并发系统的...

1063
来自专栏大学生计算机视觉学习DeepLearning

c语言课程设计之贪吃蛇代码及思路

5337
来自专栏机器人网

技术猿 | 机器人编程你需要知道的知识

---- 机器人编程为使机器人完成某种任务而设置的动作顺序描述。机器人运动和作业的指令都是由程序进行控制,常见的编制方法有两种,示教编程方法和离线编程方法。其...

3188
来自专栏HansBug's Lab

【作业2.0】HansBug的5-7次OO作业分析与小结,以及一些个人体会

2294
来自专栏iOSDevLog

聊天机器人教学:使用Dialogflow (API.AI)开发 iOS Chatbot App

8913
来自专栏恰同学骚年

Unity3D游戏开发初探—1.跨平台的游戏引擎让.NET程序员新生

  Unity是由Unity Technologies开发的一个让轻松创建诸如三维视频游戏、建筑可视化、实时三维动画等类型互动内容的多平台的综合型游戏开发工具,...

1093
来自专栏北京马哥教育

用 4 行代码画一幅中国地图

2535

扫码关注云+社区