首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据挖掘专题 关于TCGA中的COADREAD

我们九月初的文章TCGA数据挖掘如何入门?里,TCGA官方发布的癌型相关Projects是39个,目前已经更新到40个了:

当然,如果你已经习惯使用TCGA数据下载神器-TCGABiolinks去查看、下载及整理TCGA数据,也可以看到这40个Projects如下:

如果刚好了解过Firehose或者Xena,你可能会发现一个有趣的事情,就是这两个基于TCGA数据作进一步整理并发布出来的数据,其中包含着新的数据集COADREAD(结直肠癌):

Firehose

https://gdac.broadinstitute.org/

Xena

https://xenabrowser.net/datapages/?cohort=TCGA%20Colon%20and%20Rectal%20Cancer%20(COADREAD)

看名称 COAD READ -> COADREAD 什么鬼!不会就是简单的数据组合吧?

以Xena数据库中mRNA表达为例,详细看下这个COADREAD:

https://xenabrowser.net/datapages/?cohort=TCGA%20Colon%20Cancer%20(COAD)

https://xenabrowser.net/datapages/?cohort=TCGA%20Rectal%20Cancer%20(READ)

https://xenabrowser.net/datapages/?cohort=TCGA%20Colon%20and%20Rectal%20Cancer%20(COADREAD)

评估简单合并的数据(如下mergedata)与直接下载的COADREAD(如下coadread)数据是否一致:

结论:数据一致!

那,这个数据能不能直接用,需不需要做批次矫正?

先看一个肿瘤和正常对照样本的PCA图:

可见,很明显的样本区分,此时你猜这部分红色点里,哪些是结肠癌患者,哪些是直肠癌患者呢?

如下,我们以患者癌属性对样本点进行颜色区分:

可见,READ和COAD患者并无明显的分组区分,所以并不需要进行批次效应矫正!

我们在下面这篇文章中找到了佐证:

Nat Med. 2015 Nov;21(11):1350-6. doi: 10.1038/nm.3967. Epub 2015 Oct 12.

文中对此相应描述如下:

综上

1、COADREAD数据来源于COAD和READ数据的简单合并,数据可直接用于分析无需矫正!

2、Xena中没有COADREAD的miRNA表达数据,可以考虑自己合并数据!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180208G0YAYZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券