标准TCGA大文章需要哪些数据?[赠重磅资料]

很多人总是问我如何挖掘TCGA的数据,发文章!

可是他却连TCGA的数据是怎么来的都不知道,TCGA发了几十篇CNS大文章(自己测序的)了,每篇文章都有几百个左右的癌症样本的6种数据,这几年凑成了一万多个样本,都放在GDC里面可以根据权限下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型,driver mutation,假基因等新型研究领域)

那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据?

其实稍微仔细浏览几篇文章就明白了,套路也是存在的,https://tcga-data.nci.nih.gov/docs/publications/ (本人已经写爬虫把所有TCGA在CNS的大文章的PDF及附件全部下载,请后台回复TCGA大文章获取!)

我们就以2013年发表在新英格兰杂志上面的Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia 为例子吧!

研究的是acute myeloid leukemia (AML),在医院花个十年时间精心挑选了200 adults with de novo AML ,当然病人详细信息是要给的,还要符合伦理,签知情协议书吧。

We performed whole-genome sequencing of the primary tumor and matched normal skin samples from 50 patients (with data from 24 of these patients reported previously17) and exome capture and sequencing for another 150 paired samples of AML tumor and skin (see Table S3 in the Supplementary Appendix for coverage data for the 200 samples).

全基因组测序毕竟贵,就只测50个吧,当然,癌症样本要取癌旁配对研究才有意义。剩余的就做外显子吧,毕竟便宜一点!

We performed RNA-expression profiling on the Affymetrix U133 Plus 2 platform for 197 samples, RNA sequencing for 179 samples, microRNA (miRNA) sequencing for 194 samples, Illumina Infinium HumanMethylation450 BeadChip profiling for 192 samples, and Affymetrix SNP Array 6.0 for both tumor and normal skin samples from all 200 patients.

接着就是芯片和测序的mRNA表达数据,然后是测序的miRNA表达就是,然后是芯片的甲基化数据,和芯片的拷贝数变异检测数据。

Data sets were not completed for all samples on all platforms because of assay failures and availability and quality issues for some samples. The complete list of data sets is provided in Table S4 in the Supplementary Appendix. All data sets are available through the Cancer Genome Atlas (TCGA) data portal (https://tcga-data.nci.nih.gov/tcga).

这么多数据都给TCGA贡献出来了,不发大文章,就没天理了。

至于怎么分析,在现在我们看来,就是一些套路了。(当然,没有两把刀估计连套路都看不懂)

但是这些数据,他们一个组分析肯定只能是挑重点说咯,所以TCGA数据挖掘首先就是可以捡人家剩下的,然后可以把多个癌种合起来分析。

下载这些数据对很多人来说是比较困难的事情,我后面要是有空会讲一讲,大家请持续关注。

虽然在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理:GDAC, Cancer Browser和cBioportal是其中整理最为完整和可靠的。GDAC由美国MIT和Harvard共建的Broadinstitute运行,UCSC运行着Cancer Browser 和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立,提供较为完善的TCGA数据为基础的各类信息检索服务。

再后面全是英文,我懒得翻译,我估计你也懒得看了。

Values for disease include "ACC", "BLCA", "BRCA", "CESC", "CHOL", "COAD", "COADREAD", "DLBC", "ESCA", "FPPP", "GBM", "GBMLGG", "HNSC", "KICH", "KIPAN", "KIRC", "KIRP", "LAML", "LGG", "LIHC", "LUAD", "LUSC", "MESO", "OV", "PAAD", "PCPG", "PRAD", "READ", "SARC", "SKCM", "STAD", "TGCT", "THCA", "THYM", "UCEC", "UCS", and "UVM".

数据类型有:"RNASeq2", "RNASeq", "miRNASeq", "CNA_SNP", "CNV_SNP", "CNA_CGH", "Methylation", "Mutation", "mRNA_Array", and "miRNA_Array".

详细解释如下:

The type parameter should only be used along with these data.type parameters:

• RNASeq - "count" for raw read counts (default);"RPKM" for normalized read counts (reads per kilobase per million mapped reads).

• miRNASeq - "count" for raw read counts (default); "rpmmm" for normalized read counts.

• Mutation - "somatic" for non-silent somatic mutations (default); "all" for all mutations. • Methylation - "27K" platform (default); "450K" platform. • CNA_CGH - "415K" for CGH Custom Microarray 2x415K (default); "244A" for CGH Microarray.

• mRNA_Array - "G450" for Agilent 244K Custom Gene Expression G4502A (default); "U133" for Affymetrix Human Genome U133A 2.0 Array; "Huex" for Affymetrix Human Exon 1.0 ST Array.

The Level III RNA-Seq, miRNA-Seq, mRNA-array, and miRNA-array data imported are at gene level, but not the mutation, copy number alterations/variation (CNA/CNV), and methylation data.

就先说到这里吧!

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-01-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏牛客网

腾讯 Web 前端实习面经

1636
来自专栏Kirito的技术分享

中文文案排版指南

目录 空格 中英文之间需要增加空格 中文与数字之间需要增加空格 数字与单位之间需要增加空格 全角标点与其他字符之间不加空格 -ms-text-autospac...

3978
来自专栏生信小驿站

主成分分析 factoextra

483
来自专栏华章科技

用 Python 20 秒画完小猪佩奇“社会人”!附效果视频+完整代码

导读:今年社交平台上最火的带货女王是谁?范冰冰?杨幂?Angelababy?不,是猪猪女孩小猪佩奇。

695
来自专栏阮一峰的网络日志

元数据(MetaData)

元数据是用来描述数据的数据(Data that describes other data)。单单这样说,不太好理解,我来举个例子。 下面是契诃夫的小说《套中人》...

28510
来自专栏生信技能树

【直播】我的基因组59:CNV初步探索

好久不见,基因组直播又来了。这篇推送是对SNV进行一个初步探索。 单纯的一个样本来找CNV,总是不太准确的,但还是那句话,毕竟是自己的基因组,硬着头皮也要上。当...

35413
来自专栏生信宝典

高通量数据分析必备|基因组浏览器使用介绍 - 1

基因组浏览器是高通量测序分析的一个重要的可视化工具。相比于最终提供的表格,基因组浏览器可以提供更多的信息,如直观展示突变位点、查看有无新转录本或新的可变剪接形式...

662
来自专栏知晓程序

开发 | 什么?他用 2 小时做出了一个「简版大众点评」小程序

有人曾说:「人生至少有两次冲动,一次为了奋不顾生的爱情,还有一次就是为了说走就走的旅行」。

894
来自专栏生信技能树

我适合做近视眼手术吗?【直播】我的基因组88

LASIK手术背景知识 LASIK手术,全称是“准分子激光原位角膜磨镶术”(laser in situ keratomileusis, LASIK),手术对象是...

33215
来自专栏知晓程序

酷炫!这个超有格调的晒图方法,能让你制霸朋友圈

首先,你要先拍几十张照片,再把它们拼接起来,这样才能得到一张动图,实在是耗费精力。

872

扫描关注云+社区