标准TCGA大文章需要哪些数据?[赠重磅资料]

很多人总是问我如何挖掘TCGA的数据,发文章!

可是他却连TCGA的数据是怎么来的都不知道,TCGA发了几十篇CNS大文章(自己测序的)了,每篇文章都有几百个左右的癌症样本的6种数据,这几年凑成了一万多个样本,都放在GDC里面可以根据权限下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型,driver mutation,假基因等新型研究领域)

那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据?

其实稍微仔细浏览几篇文章就明白了,套路也是存在的,https://tcga-data.nci.nih.gov/docs/publications/ (本人已经写爬虫把所有TCGA在CNS的大文章的PDF及附件全部下载,请后台回复TCGA大文章获取!)

我们就以2013年发表在新英格兰杂志上面的Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia 为例子吧!

研究的是acute myeloid leukemia (AML),在医院花个十年时间精心挑选了200 adults with de novo AML ,当然病人详细信息是要给的,还要符合伦理,签知情协议书吧。

We performed whole-genome sequencing of the primary tumor and matched normal skin samples from 50 patients (with data from 24 of these patients reported previously17) and exome capture and sequencing for another 150 paired samples of AML tumor and skin (see Table S3 in the Supplementary Appendix for coverage data for the 200 samples).

全基因组测序毕竟贵,就只测50个吧,当然,癌症样本要取癌旁配对研究才有意义。剩余的就做外显子吧,毕竟便宜一点!

We performed RNA-expression profiling on the Affymetrix U133 Plus 2 platform for 197 samples, RNA sequencing for 179 samples, microRNA (miRNA) sequencing for 194 samples, Illumina Infinium HumanMethylation450 BeadChip profiling for 192 samples, and Affymetrix SNP Array 6.0 for both tumor and normal skin samples from all 200 patients.

接着就是芯片和测序的mRNA表达数据,然后是测序的miRNA表达就是,然后是芯片的甲基化数据,和芯片的拷贝数变异检测数据。

Data sets were not completed for all samples on all platforms because of assay failures and availability and quality issues for some samples. The complete list of data sets is provided in Table S4 in the Supplementary Appendix. All data sets are available through the Cancer Genome Atlas (TCGA) data portal (https://tcga-data.nci.nih.gov/tcga).

这么多数据都给TCGA贡献出来了,不发大文章,就没天理了。

至于怎么分析,在现在我们看来,就是一些套路了。(当然,没有两把刀估计连套路都看不懂)

但是这些数据,他们一个组分析肯定只能是挑重点说咯,所以TCGA数据挖掘首先就是可以捡人家剩下的,然后可以把多个癌种合起来分析。

下载这些数据对很多人来说是比较困难的事情,我后面要是有空会讲一讲,大家请持续关注。

虽然在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理:GDAC, Cancer Browser和cBioportal是其中整理最为完整和可靠的。GDAC由美国MIT和Harvard共建的Broadinstitute运行,UCSC运行着Cancer Browser 和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立,提供较为完善的TCGA数据为基础的各类信息检索服务。

再后面全是英文,我懒得翻译,我估计你也懒得看了。

Values for disease include "ACC", "BLCA", "BRCA", "CESC", "CHOL", "COAD", "COADREAD", "DLBC", "ESCA", "FPPP", "GBM", "GBMLGG", "HNSC", "KICH", "KIPAN", "KIRC", "KIRP", "LAML", "LGG", "LIHC", "LUAD", "LUSC", "MESO", "OV", "PAAD", "PCPG", "PRAD", "READ", "SARC", "SKCM", "STAD", "TGCT", "THCA", "THYM", "UCEC", "UCS", and "UVM".

数据类型有:"RNASeq2", "RNASeq", "miRNASeq", "CNA_SNP", "CNV_SNP", "CNA_CGH", "Methylation", "Mutation", "mRNA_Array", and "miRNA_Array".

详细解释如下:

The type parameter should only be used along with these data.type parameters:

• RNASeq - "count" for raw read counts (default);"RPKM" for normalized read counts (reads per kilobase per million mapped reads).

• miRNASeq - "count" for raw read counts (default); "rpmmm" for normalized read counts.

• Mutation - "somatic" for non-silent somatic mutations (default); "all" for all mutations. • Methylation - "27K" platform (default); "450K" platform. • CNA_CGH - "415K" for CGH Custom Microarray 2x415K (default); "244A" for CGH Microarray.

• mRNA_Array - "G450" for Agilent 244K Custom Gene Expression G4502A (default); "U133" for Affymetrix Human Genome U133A 2.0 Array; "Huex" for Affymetrix Human Exon 1.0 ST Array.

The Level III RNA-Seq, miRNA-Seq, mRNA-array, and miRNA-array data imported are at gene level, but not the mutation, copy number alterations/variation (CNA/CNV), and methylation data.

就先说到这里吧!

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-01-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据钻研

59条令人捧腹但真实的程序员编程语录

我收集了很多关于软件开发者的编程语录。这些语录和软件开发维护、调试、软件bug、软件设计和文档、代码质量、测试和管理等相关。下面这59条编程语录虽然令人捧腹但也...

2906
来自专栏PHP在线

程序人生的寂静欢喜

原文出处: caojueming 标题起得太大咯,是在故作老成么? “程序人生的寂静欢喜”——怎么看都感觉像是某位已故计算机大师的墓志铭,可却偏偏被一个菜...

2893
来自专栏SDNLAB

千呼万唤始出来,OpenDaylight Lithium版本发布

本周一,期待已久的OpenDaylight Lithium版本发布了。想必大家都忍受了好久helium版本连编辑流表都成问题的硬伤,希望在新的版本中能有质的飞跃...

3419
来自专栏斑斓

闲话 | 代码的体格

Steve Yegge在他特立独行的作品《程序员的呐喊》中写道:“我坚信代码最大的敌人就是体格”。不过他过于自大了,以为这只是像他那样牛逼的程序员才拥有的少数派...

3448
来自专栏程序人生

走进 racket(lisp) 的世界

上周追着看了个大牛的好几篇文章,发现一个叫racket的语言出镜率颇高 —— 这已经是我十月来第三次从各种大牛的文章中接触这个词。就如「惊天魔盗团」里那个被催眠...

4473
来自专栏牛客网

双非机器学习秋招坎坷路

写在前面的话:部分牛友在评论区喷 强调机器学习、算法要求没那么高,那么我说一句,你们凭心而论,如果不是手里有那么些个竞赛大奖或者acm等算法大奖,你们的简历怎么...

4747
来自专栏企鹅号快讯

编程语言简史:有人不喜欢花括号,于是他发明了 Python

编程语言有上千种,但是流行的不过10来种,那些我们经常使用的编程语言都是谁在什么时候创造出来的呢?Casper Beyer为我们进行了整理。 ? 1800年 J...

2557
来自专栏Jerry的SAP技术分享

你的项目刚刚启动?是时候考虑Globalization了!

关于这个很长的定语的由来,请参考这篇文章,里面有王聪的背景介绍,包括他种菜的特长:当我用UI5诊断工具时我用些什么。

1202
来自专栏程序人生

如何提高代码质量?

好的程序员从来不靠格子衫或者颜值吃饭,就像你家 C 罗明明可以靠脸,却非要用不断精进的身体和技术迷倒你。

1270
来自专栏java一日一条

59条令人捧腹但真实的程序员编程语录

我收集了很多关于软件开发者的编程语录。这些语录和软件开发维护、调试、软件bug、软件设计和文档、代码质量、测试和管理等相关。下面这59条编程语录虽然令人捧腹但也...

1624

扫码关注云+社区

领取腾讯云代金券