我们九月初的文章TCGA数据挖掘如何入门?里,TCGA官方发布的癌型相关Projects是39个,目前已经更新到40个了:
当然,如果你已经习惯使用TCGA数据下载神器-TCGABiolinks去查看、下载及整理TCGA数据,也可以看到这40个Projects如下:
如果刚好了解过Firehose或者Xena,你可能会发现一个有趣的事情,就是这两个基于TCGA数据作进一步整理并发布出来的数据,其中包含着新的数据集COADREAD(结直肠癌):
Firehose:
https://gdac.broadinstitute.org/
Xena:
https://xenabrowser.net/datapages/?cohort=TCGA%20Colon%20and%20Rectal%20Cancer%20(COADREAD)
看名称 COAD READ -> COADREAD 什么鬼!不会就是简单的数据组合吧?
以Xena数据库中mRNA表达为例,详细看下这个COADREAD:
https://xenabrowser.net/datapages/?cohort=TCGA%20Colon%20Cancer%20(COAD)
https://xenabrowser.net/datapages/?cohort=TCGA%20Rectal%20Cancer%20(READ)
https://xenabrowser.net/datapages/?cohort=TCGA%20Colon%20and%20Rectal%20Cancer%20(COADREAD)
评估简单合并的数据(如下mergedata)与直接下载的COADREAD(如下coadread)数据是否一致:
结论:数据一致!
那,这个数据能不能直接用,需不需要做批次矫正?
先看一个肿瘤和正常对照样本的PCA图:
可见,很明显的样本区分,此时你猜这部分红色点里,哪些是结肠癌患者,哪些是直肠癌患者呢?
如下,我们以患者癌属性对样本点进行颜色区分:
可见,READ和COAD患者并无明显的分组区分,所以并不需要进行批次效应矫正!
我们在下面这篇文章中找到了佐证:
Nat Med. 2015 Nov;21(11):1350-6. doi: 10.1038/nm.3967. Epub 2015 Oct 12.
文中对此相应描述如下:
综上
1、COADREAD数据来源于COAD和READ数据的简单合并,数据可直接用于分析无需矫正!
2、Xena中没有COADREAD的miRNA表达数据,可以考虑自己合并数据!
领取专属 10元无门槛券
私享最新 技术干货