专栏首页生信技能树100篇泛癌研究文献解读之PhyloWGS算法的肿瘤内部异质性和基因组不稳定性

100篇泛癌研究文献解读之PhyloWGS算法的肿瘤内部异质性和基因组不稳定性

为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达)

发表于 PLoS Genet. 2018 Sep 的研究,Pan-cancer inference of intra-tumor heterogeneity reveals associations with different forms of genomic instability. 系统性的探索了32种癌症的接近6000个肿瘤病人数据的肿瘤内部异质性情况,值得注意的是作者这里使用PhyloWGS算法的结果来代表肿瘤内部异质性,所有的生物学意义的结论都是基于这个假设。

文献解读属于100篇泛癌研究文献系列,首发于:http://www.bio-info-trainee.com/4132.html

PhyloWGS算法得到的克隆数量

PhyloWGS算法这里就不介绍了,用法很简单,但是需要原始的测序数据,所以这里也没有办法演示,但是作者提供了每个样本的PhyloWGS算法得到的克隆数量数据下载。

虽然PhyloWGS本来是为WGS测序数据设计的,但是软件作者说明了其在WES数据也可以使用,可以看到PhyloWGS算法得到的克隆数量这个指标是跟一些因素相关的,包括purity (B) inferred by ABSOLUTE, mean number of reads per mutated sites (RMS) (C), number of mutations (D) and number of copy number altered segments

假设PhyloWGS算法得到的克隆数量就代表着肿瘤内部异质性,那么这个肿瘤内部异质性就手动突变数量和拷贝数变化情况的影响。

根据突变数量和CNV情况对样本进行分类

通过阈值可以分成4组:

  • low numbers of mutations (<300) and CNA (<80) (gray),
  • high number ofmutations (>300) and low number of CNA (<80) (M class, green)
  • high number of CNA(>80) and low number of mutations (<300) (C class,red),
  • high numbers of both mutations (>300) and CNA (>80) (MC class, orange).

它们的相关性如下:

PhyloWGS和EXPANDS的比较

可以看到EXPANDS推断的克隆数量也是在根据突变数量和CNV情况对样本分成的4组是有差异的。

基因组不稳定性影响着肿瘤内部异质性

如下图可以看到,根据突变数量和CNV情况对样本分成4类,它们这4类的肿瘤内部异质性显著差异,排序后可以通过热力图展示。

不同克隆结构代表的异质性

前面是直接使用PhyloWGS算法得到的克隆数量代表肿瘤内部异质性,实际上,即使不同病人都是5个亚克隆, 它们的克隆结构也可以不一样,如下所示:

这个时候,需要引入 Tree scores的概念。

亚克隆的异质性

这个时候需要对PhyloWGS算法有一定的理解,特别是软件的输出结果的理解。

分析结果下载

S1 Table. Properties of the tumor samples.

  1. Column 1—Tumor sample name
  2. Column 2—Tumor type
  3. Column 3—Tumor subtype
  4. Column 4—Mean number of reads per mutated site
  5. Column 5—Number of mutations
  6. Column 6—Number of copy number altered segments
  7. Column 7—Top scoring phylogenies mean number of clones
  8. Column 8—Top scoring phylogenies mean Tree score
  9. Column 9—Top scoring phylogenies mean number of clonal mutations
  10. Column 10—Top scoring phylogenies mean number of subclonal mutations
  11. Column 11—TCGA curated tumor sample purity
  12. Column 12—ABSOLUTE inferred tumor sample purity.

理论上,使用这个表格的数据,我们可以重现作者的分析结果。

后记

从流程图来看,本研究并不复杂,也很容易复现出来, 关键是如何提出还有如何挑选数据集。

当然了,如果你想超脱于他们的泛癌计划已经发表的研究,那么就非常有必要跟着我读完这100篇泛癌文献!

详见我的100篇泛癌研究文献解读目录:http://www.bio-info-trainee.com/4132.html

本文分享自微信公众号 - 生信技能树(biotrainee)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏

    随着深度强化学习的快速发展,AI 已经在围棋等信息完整的游戏中战胜了人类专业玩家。然而,「星际争霸」等信息不完整游戏的研究还没有取得同样的进展。这类研究的一大问...

    机器之心
  • JVM面试问题系列:判断对象是否已死和四种垃圾回收算法总结

    判断对象是否已死就是找出哪些对象是已经死掉的,以后不会再用到的,就像地上有废纸、饮料瓶和百元大钞,扫地前要先判断出地上废纸和饮料瓶是垃圾,百元大钞不是垃圾。判断...

    zhisheng
  • 教程 | OpenCV场景文字检测

    OpenCV在TEXT扩展模块中支持场景文字识别,最早的场景文字检测是基于级联检测器实现,OpenCV中早期的场景文字检测是基于极值区域文本定位与识别、最新的O...

    OpenCV学堂
  • 谷歌首个AI版Doodle:向伟大作曲家巴赫致敬

    3 月 21 日是著名音乐家约翰·塞巴斯蒂安·巴赫的生日,谷歌决定以一种特殊的方式向他致敬:让人人都能以巴赫的风格创作自己的乐曲。 通过机器学习算法,谷歌开...

    机器之心
  • 浅析 Spark Shuffle 内存使用

    在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shuffle 阶段。...

    Fayson
  • JVM面试问题系列:7种JVM垃圾收集器特点,优劣势、及使用场景!

    Serial 是一款用于新生代的单线程收集器,采用复制算法进行垃圾收集。Serial 进行垃圾收集时,不仅只用一条线程执行垃圾收集工作,它在收集的同时,所有的用...

    zhisheng
  • Elasticsearch 7.0 已经发布,盘他!

    Elastic{ON}北京分享了Elasticsearch7.0在Speed,Scale,Relevance等方面的很多新特性。

    zhisheng
  • 漫谈数据质量监控

    本篇分享一些和数据质量监控相关的内容。数据质量监控是一个在快速发展的业务中最容易被牺牲和忽略的功能,但是它确实至关重要的。

    zhisheng
  • Selective Search算法与演示

    在对象检测RCNN模型中使用了SS(Selective Search)进行区域推荐,改进了传统图像检测进行全局开窗检测的高计算消耗,典型的对象检测网络RCNN的...

    OpenCV学堂
  • OpenCV SIFT特征算法详解与使用

    SIFT特征是非常稳定的图像特征,在图像搜索、特征匹配、图像分类检测等方面应用十分广泛,但是它的缺点也是非常明显,就是计算量比较大,很难实时,所以对一些实时要求...

    OpenCV学堂

扫码关注云+社区

领取腾讯云代金券