标准TCGA大文章需要哪些数据?[赠重磅资料]

很多人总是问我如何挖掘TCGA的数据,发文章!

可是他却连TCGA的数据是怎么来的都不知道,TCGA发了几十篇CNS大文章(自己测序的)了,每篇文章都有几百个左右的癌症样本的6种数据,这几年凑成了一万多个样本,都放在GDC里面可以根据权限下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型,driver mutation,假基因等新型研究领域)

那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据?

其实稍微仔细浏览几篇文章就明白了,套路也是存在的,https://tcga-data.nci.nih.gov/docs/publications/ (本人已经写爬虫把所有TCGA在CNS的大文章的PDF及附件全部下载,请后台回复TCGA大文章获取!)

我们就以2013年发表在新英格兰杂志上面的Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia 为例子吧!

研究的是acute myeloid leukemia (AML),在医院花个十年时间精心挑选了200 adults with de novo AML ,当然病人详细信息是要给的,还要符合伦理,签知情协议书吧。

We performed whole-genome sequencing of the primary tumor and matched normal skin samples from 50 patients (with data from 24 of these patients reported previously17) and exome capture and sequencing for another 150 paired samples of AML tumor and skin (see Table S3 in the Supplementary Appendix for coverage data for the 200 samples).

全基因组测序毕竟贵,就只测50个吧,当然,癌症样本要取癌旁配对研究才有意义。剩余的就做外显子吧,毕竟便宜一点!

We performed RNA-expression profiling on the Affymetrix U133 Plus 2 platform for 197 samples, RNA sequencing for 179 samples, microRNA (miRNA) sequencing for 194 samples, Illumina Infinium HumanMethylation450 BeadChip profiling for 192 samples, and Affymetrix SNP Array 6.0 for both tumor and normal skin samples from all 200 patients.

接着就是芯片和测序的mRNA表达数据,然后是测序的miRNA表达就是,然后是芯片的甲基化数据,和芯片的拷贝数变异检测数据。

Data sets were not completed for all samples on all platforms because of assay failures and availability and quality issues for some samples. The complete list of data sets is provided in Table S4 in the Supplementary Appendix. All data sets are available through the Cancer Genome Atlas (TCGA) data portal (https://tcga-data.nci.nih.gov/tcga).

这么多数据都给TCGA贡献出来了,不发大文章,就没天理了。

至于怎么分析,在现在我们看来,就是一些套路了。(当然,没有两把刀估计连套路都看不懂)

但是这些数据,他们一个组分析肯定只能是挑重点说咯,所以TCGA数据挖掘首先就是可以捡人家剩下的,然后可以把多个癌种合起来分析。

下载这些数据对很多人来说是比较困难的事情,我后面要是有空会讲一讲,大家请持续关注。

虽然在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理:GDAC, Cancer Browser和cBioportal是其中整理最为完整和可靠的。GDAC由美国MIT和Harvard共建的Broadinstitute运行,UCSC运行着Cancer Browser 和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立,提供较为完善的TCGA数据为基础的各类信息检索服务。

再后面全是英文,我懒得翻译,我估计你也懒得看了。

Values for disease include "ACC", "BLCA", "BRCA", "CESC", "CHOL", "COAD", "COADREAD", "DLBC", "ESCA", "FPPP", "GBM", "GBMLGG", "HNSC", "KICH", "KIPAN", "KIRC", "KIRP", "LAML", "LGG", "LIHC", "LUAD", "LUSC", "MESO", "OV", "PAAD", "PCPG", "PRAD", "READ", "SARC", "SKCM", "STAD", "TGCT", "THCA", "THYM", "UCEC", "UCS", and "UVM".

数据类型有:"RNASeq2", "RNASeq", "miRNASeq", "CNA_SNP", "CNV_SNP", "CNA_CGH", "Methylation", "Mutation", "mRNA_Array", and "miRNA_Array".

详细解释如下:

The type parameter should only be used along with these data.type parameters:

• RNASeq - "count" for raw read counts (default);"RPKM" for normalized read counts (reads per kilobase per million mapped reads).

• miRNASeq - "count" for raw read counts (default); "rpmmm" for normalized read counts.

• Mutation - "somatic" for non-silent somatic mutations (default); "all" for all mutations. • Methylation - "27K" platform (default); "450K" platform. • CNA_CGH - "415K" for CGH Custom Microarray 2x415K (default); "244A" for CGH Microarray.

• mRNA_Array - "G450" for Agilent 244K Custom Gene Expression G4502A (default); "U133" for Affymetrix Human Genome U133A 2.0 Array; "Huex" for Affymetrix Human Exon 1.0 ST Array.

The Level III RNA-Seq, miRNA-Seq, mRNA-array, and miRNA-array data imported are at gene level, but not the mutation, copy number alterations/variation (CNA/CNV), and methylation data.

就先说到这里吧!

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-01-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PHP在线

程序人生的寂静欢喜

原文出处: caojueming 标题起得太大咯,是在故作老成么? “程序人生的寂静欢喜”——怎么看都感觉像是某位已故计算机大师的墓志铭,可却偏偏被一个菜...

2793
来自专栏Python中文社区

Python数据分析之基情的择天记

專 欄 ❈ 罗罗攀,Python中文社区专栏作者 专栏地址: http://www.jianshu.com/u/9104ebf5e177 ❈ 人一生都可能无...

2056
来自专栏程序人生

走进 racket(lisp) 的世界

上周追着看了个大牛的好几篇文章,发现一个叫racket的语言出镜率颇高 —— 这已经是我十月来第三次从各种大牛的文章中接触这个词。就如「惊天魔盗团」里那个被催眠...

4123
来自专栏Jerry的SAP技术分享

你的项目刚刚启动?是时候考虑Globalization了!

关于这个很长的定语的由来,请参考这篇文章,里面有王聪的背景介绍,包括他种菜的特长:当我用UI5诊断工具时我用些什么。

1072
来自专栏java工会

科大讯飞人工智能方向的一次面试经历

2565
来自专栏牛客网

双非机器学习秋招坎坷路

写在前面的话:部分牛友在评论区喷 强调机器学习、算法要求没那么高,那么我说一句,你们凭心而论,如果不是手里有那么些个竞赛大奖或者acm等算法大奖,你们的简历怎么...

4377
来自专栏非著名程序员

优秀程序员眼中的整洁代码

有多少程序员,就有多少定义。所以我只询问了一些非常知名且经验丰富的程序员。 ? Bjarne Stroustrup,C++ 语言发明者,C++ Programm...

2097
来自专栏小樱的经验随笔

CTF---安全杂项入门第一题 丘比龙的最爱

丘比龙的最爱分值:10 来源: 2014HCTF 难度:易 参与人数:4498人 Get Flag:1366人 答题人数:1384人 解题通过率:99% 传说,...

2977
来自专栏Crossin的编程教室

【每周一坑】三国演义中谁的存在感最强 +【解答】暴力计算圆周率

自然语言处理(NLP)是人工智能的一个重要领域。在对中文做自然语言处理的时候,一个很基础的操作就是分词:因为中文不像英语有现成的单词划分,需要将汉字序列切分成一...

602
来自专栏cmazxiaoma的架构师之路

一场让我持续懵比的面试

2044

扫码关注云+社区