TCGA的28篇教程-早期泛癌研究

长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal)TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)TCGA的28篇教程- 数据下载就到此为止吧TCGA的28篇教程- 指定癌症查看感兴趣基因的表达量TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析TCGA的28篇教程-整理GDC下载的xml格式的临床资料 TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案 TCGA的28篇教程-数据挖掘三板斧之ceRNA TCGA的28篇教程-所有癌症的突变全景图

TCGA计划进行到现在,科学家们于2018年一次性发表了27篇泛癌症研究相关文章,对癌症基因组图谱的数据,以及癌症转录组学、蛋白质组学、甲基化组学、临床数据进行了综合分析,挖掘出其中的有效信息,成功绘制出泛癌症图谱(Pan-Cancer Altas)。 这些最近的研究当然是纳入了全部的33种人类癌症、11000余例病例,但是早期(2014-2015)其实就有过类似的泛癌研究,但是纳入的比例可能就5000例左右,这里我就进行简单的介绍。

主要是研究肿瘤纯度,拷贝数变异,突变全景图,驱动突变,肿瘤异质性。我这里挑选第一个肿瘤纯度的泛癌研究进行解读:

pan-cancer系列之肿瘤纯度 发表于: 2015 Dec 4. doi: 10.1038/ncomms9971 众所周知,肿瘤样品纯度是很有限的,包括围绕在肿瘤细胞周围的各种免疫细胞,还有肿瘤微环境其它细胞。

作者团队在这里对TCGA计划的21种癌症的超过10000个样本系统性的分析了肿瘤纯度

数据来源

We obtained gene expression profiles (RNA-seqV2), DNA methylation profiles (HumanMethylation450) and immunohistochemistry (IHC) analysis for 9,364 tumour samples and 1,958 adjacent normal samples across 21 solid tumour types from the TCGA repository

比较4种估算肿瘤纯度的方法

这里采用4种方法:

  • ESTIMATE, which uses gene expression profiles of 141 immune genes and 141 stromal genes6;
  • ABSOLUTE, which uses somatic copy-number data (estimations were available for only 11 cancer types)7;
  • LUMP (leukocytes unmethylation for purity), which averages 44 non-methylated immune-specific CpG sites (Supplementary Fig. 1 and Methods);
  • IHC, as estimated by image analysis of haematoxylin and eosin stain slides produced by the Nationwide Children's Hospital Biospecimen Core Resource.

三种DNA, RNA and methylation-based方法估算的肿瘤纯度一致性比较高,但是都跟IHC的差异比较大。

结果文件都是在:Tumor purity estimates for TCGA samples. Tumor purity estimates according to four methods and the consensus method for all TCGA samples with available data.

Click here to view.(540K, xlsx) 下载后可以自行作图进行可视化,粗略看起来肿瘤纯度平均值在0.8左右,如下图:

不同肿瘤纯度方法的归一化

全称是:consensus measurement of purity estimations (CPE)

这里的归一化很简单, CPE is the median purity level after normalizing levels from all methods to give them equal means and s.d.'s (75.3±18.9%).

后续分析都使用的是CPE值,具有替代性。

然后作者通过分析发现 median purity levels and median mutational burden 具有非常好的相关性,如下:

肿瘤纯度和其它临床信息的关联性

这里作者这里了722种临床信息,其中299种是不同肿瘤种类特有的,最后发现sex, age, ethnicity, alcohol use and smoking 这些指标跟肿瘤纯度无关,不过只要是统计分析,或多或少都会得到一些显著性指标的,作者毫不例外的在正文描述了那些显著性的。

当然,少不了的是生存分析结果。

校正肿瘤纯度对其它NGS组学分析结果的影响

比如之前的表达数据的聚类,看看是否聚类结果其实是受到了肿瘤纯度的摆布。

是否有些基因的表达量是跟肿瘤纯度相关的。

是否肿瘤纯度会影响差异分析结果,所以作者使用DESeq2包来引入纯度这个变量进行校正。

可以参考去除batch effect的用法,这里的肿瘤纯度这个连续变量可以根据高低进行分组设置为离散变量即可。

使用limma包的removeBatchEffect来处理。

countData: 表达矩阵

colData: 样品分组信息表

design: 实验设计信息,batchconditions必须是colData中的一列

dds <- DESeqDataSetFromMatrix(countData = data,
        colData = sample,  design= ~ batch + conditions)

dds <- DESeq(dds)
## 数据集小于30 -> rlog,大数据集 -> VST。
rld <- rlog(dds, blind=FALSE)
rlogMat <- assay(rld)
rlogMat <- limma::removeBatchEffect(rlogMat, c(sample$batch))

#VST, remove batch effect, then plotPCA:
vsd <- vst(dds)
plotPCA(vsd, "batch")
assay(vsd) <- limma::removeBatchEffect(assay(vsd), vsd$batch)
plotPCA(vsd, "batch")

代码比较简单,思路最重要。

DESeq2为count数据提供了两类变换方法,使得不同均值的方差趋于稳定:regularized-logarithm transformation or rlog(Love, Huber, and Anders 2014)和variance stabilizing transformation(VST)(Anders and Huber 2010)用于处理含有色散平均趋势负二项数据。

结果如下:

此文章完全是数据分析,值得学习。

还有几个其它文章的解读,就不罗列了:

值得注意的是,这些早期泛癌研究都是针对于肿瘤的突变信息,而我们一直强调过,TCGA计划是纳入了下面这些类型数据,包括:

  • DNA Sequencing(包括全基因组和全外显子组的maf格式somatic突变数据)
  • miRNA Sequencing (表达矩阵)
  • Protein Expression(表达矩阵)
  • mRNA Sequencing(测序的表达矩阵)
  • Total RNA Sequencing(表达矩阵)
  • Array-based Expression(芯片的表达矩阵)
  • DNA Methylation (25/450/850K的甲基化芯片或者WGBS)
  • Copy Number(主要是SNP6.0芯片,还有测序后计算的拷贝数变异情况)

理论上,它们都是可以被拿来做泛癌研究。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2018-09-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏顶级程序员

用Python模拟弹道轨迹

转自:中国统计网(小编微信:itongjilove) ‍作者:Toby:python数据科学爱好者。国内最大药品数据中心任职,二十多个数据库负责人。 最近美国...

5675
来自专栏专知

NIH发布包含10600张CT图像数据库 为AI算法测试铺路

美国国立卫生研究院(NIH)最近发布了一个庞大的胸部X光数据库,现已公开近10600张CT扫描图像,以支持医疗人工智能算法的开发和测试。这个大型成像数据库被称为...

1092
来自专栏数据派THU

教你用Python解锁“吃鸡”的正确姿势!

本文用Python分析吃鸡比赛的真实数据,解答至关重要的9个问题,助你提高吃鸡概率。

3013
来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(152)-生产物流-生产线物流规划

企业的运营过程中,物流、资金流和信息流贯穿始终,三位一体,不可分割。物流是最基本的活动,相对于信息流和资金流,物流规划的科学性对企业的整体效益有着决定性的影响。...

2836
来自专栏镁客网

南工大团队研制的可重复使用纸墨组合,刷新现有印刷模式的同时降低了成本 | 黑科技

1756
来自专栏龙行天下CSIEM

科学瞎想系列之五十三 电流传感器(3)

前面两期的瞎想宝宝们知道了电流互感器和分流器以其低廉的价格、优异的可靠性在电力系统和各种稳态检测场合得到了广泛应用。但它们也各自存在着先天的不足。互感器存在着瞬...

3894
来自专栏机器人网

如何利用磁场驱动某个微型机器人

该论文介绍了一种新技术,即使大量机器人采用同样材质制作,还位于同一磁场影响下,我们依然可以利用磁场选择性的驱动某个微型机器人,甚至精确到它们身上的某个组件。

1262
来自专栏IT派

大吉大利,今晚如何用 Python 解锁“吃鸡”的正确姿势

大吉大利,今晚吃鸡~ 今天跟朋友玩了几把吃鸡,经历了各种死法,还被嘲笑说论女生吃鸡的100种死法,比如被拳头抡死、跳伞落到房顶边缘摔死 、把吃鸡玩成飞车被车技秀...

1072
来自专栏钱塘大数据

钱塘弄潮 | Designs for the Worlds First 3D-printed Freeform House

“钱塘弄潮”是钱塘数据新推出的周末版块,旨在给“工业工艺圈”的饕餮大神们奉上国内外优秀的工业设计师作品,一切和工业相关的有乐趣、有逼格、有创意的作品和资讯,别...

3718
来自专栏龙行天下CSIEM

科学瞎想系列之五十五 绝缘处理

搞电机的宝宝们都知道,绝缘处理是电机制造非常关键的环节,电机常见的绝缘处理工艺有浸渍烘焙、绝缘浇注、多胶系统的模压固化等。其中绝缘浇注多用于微特电机; 多胶系...

3364

扫码关注云+社区

领取腾讯云代金券