专栏首页生信技能树使用Mutant-allele tumor heterogeneity(MATH)算法评估肿瘤异质性

使用Mutant-allele tumor heterogeneity(MATH)算法评估肿瘤异质性

前些天看到一篇临床研究的文献,发表于2017年 Breast Cancer Res Treat期刊的Clinical and molecular relevance of mutant-allele tumor heterogeneity in breast cancer,主要讲了使用Mutant-allele tumor heterogeneity(MATH)算法评估肿瘤异质性,并研究了其与一些临床指标以及组学数据的相关性,思路很简单,效果比较一般,并没有较大的突破,但是其MATH的算法还是值得看看的!

MATH算法背景

MATH算法最早可追溯到发表于2013年Oral Oncol期刊的MATH, a novel measure of intratumor genetic heterogeneity, is high in poor-outcome classes of head and neck squamous cell carcinoma文章。后来该作者在Cancer上发表了一篇关于头颈部鳞状细胞癌的文章High intratumor genetic heterogeneity is related to worse outcome in patients with head and neck squamous cell carcinoma,并再次说明了MATH的有效性,高MATH的病人与低整体存活率有关等等

然后结合一篇国外的博文MATH and Tumors,大致上理解MATH的原理,整体上还是比较简单的。

肿瘤异质性

先说说什么是肿瘤异质性,虽然肿瘤异质性可分为肿瘤间异质性和肿瘤内异质性,但是不做特别说明,我们默认为肿瘤异质性就是指肿瘤内异质性(Intra-tumor heterogeneity (ITH)),随着癌细胞的不断生长,其分裂后的子代细胞呈现出与同代细胞或者父细胞的不同,从而使得其各个方面有了较大的差异,最终导致肿瘤的生长、侵染、预后等指标的差异。最近几年对于肿瘤异质性的研究小结可以粗略的看下【盘点】浅谈肿瘤异质性

针对肿瘤异质性这种情况,2013年那篇作者想通过MATH指标来看看是否高肿瘤异质性的病人是否与较差的预后有关联。上述两篇的整体思路是先计算每个病人的MATH值,然后根据MATH值将病人分为低、中、高三大类,然后分别评估这三组病人的MATH值与临床指标的相关性以及突变等组学数据的关联。

MATH算法原文描述

所以我们需要知道MATH值是怎么计算的,先看下Cancer文献的原文:

The MATH value for each tumor was based on the distribution of mutant-allele fractions among tumor-specific mutated loci, calculated as the percentage ratio of the width (median absolute deviation, MAD, scaled by a constant factor so that the expected MAD of a sample from a normal distribution equals the standard deviation) to the center (median) of its distribution:MATH=100 * MAD/median

再看下上述2017年文献中的描述:

the steps to determine the MATH value can be summarized as follows: (1) calculating the mutant-allele fraction (MAF) for each locus as the ratio of mutant reads to total reads; (2) obtaining the absolute differences of each MAF from the median MAF value, multiplying the median of these absolute differences by a factor of 1.4826, thus the median absolute deviation (MAD) was generated; (3) calculating MATH as the percentage ratio of the MAD to the median of the MAFs among the tumor’s mutated genomic loci, presented as MATH = 100 * MAD/median.

以及2013年较早的那篇

Each tumor’s MATH value was calculated from the median absolute deviation (MAD) and the median of its mutant-allele fractions at tumor-specific mutated loci:MATH=100 * MAD/median. Calculation of MAD followed the default in R, with values scaled by a constant factor (1.4826) so that the expected MAD of a sample from a normal distribution equals the standard deviation.

MATH算法个人理解

  1. 首先通过测序数据计算每个样本的MAF(mutant-allele fractions)值,一般软件结果都会给出这个数据
  2. 再通过MAF计算得到MAD(median absolute deviation)值,也就是计算每个MAF值与其中位数的绝对差值,并将这些绝对差值的中位数再乘以一个常量(1.4826),从而获得MAD值,作者为什么要乘以常量,是为了让MAD值更能代表标准差的作用?至于为什么定这个数字的,我看完文献都没找到答案。。。
  3. 最后将MAD值除以MAF的中位数,再乘以100

MATH的意义,作者认为MATH能有效的代表肿瘤特异性特变位点的MAF值的分布的偏差,相当于说明MAF偏离该样本的MAF整体分布的程度(有点标准差的意思),当然是MATH值越大,说明肿瘤异质性越高!

重磅推荐

在bioconductor的maftools这个R包里面可以很方便的计算 MATH值哦,一般人我不告诉他的!

https://bioconductor.org/packages/devel/bioc/vignettes/maftools/inst/doc/maftools.html

发表于2016年的NC,The somatic mutation profiles of 2,433 breast cancers refine their genomic and transcriptomic landscapes 做的是乳腺癌人群队列突变研究, 就使用了MATH算法来探索肿瘤异质性。而且很明显可以看到,ER阳性和阴性的乳腺癌患者的 MATH值分布不一样。而且作者可以把 MATH值用来给病人分组,这样就可以给病人做KM生存分析并且很明显看到在ER阳性的病人里面 MATH指标是跟生存显著相关的,但是在ER阴性病人却并非如此!!!

本文分享自微信公众号 - 生信技能树(biotrainee)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-07-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • MATH值代表的肿瘤异质性在乳腺癌与生存关系不显著

    但是今天要分享的文章Breast Cancer Research and Treatment February 2017 , 题目是:Clinical and ...

    生信技能树
  • WashU EpiGenome Browser使用教程

    WashU EpiGenome Browser 是我用过最赞的浏览器,没有之一。希望大伙跟着教程好好学习下! 还有更多教程见:http://epigenomeg...

    生信技能树
  • 芯片探针ID的基因注释以前很麻烦

    而且学生特别的好学,已经懂得去搜索我们已有的1.3万篇教程,找到了芯片探针序列重新注释的流程,但是我昨天就说到过:芯片探针序列的基因注释已经无需你自己亲自做了,...

    生信技能树
  • Rancher无法启动healthcheck和lb

    一个新产品临近上线,全部采购了腾讯云ECS服务器,安装了Rancher 1.6.17做容器编排。在添加主机到服务器集群时,rancher的 healthchec...

    码代码的陈同学
  • 交互语义学理论(CS)

    本文的思想是通过一种依赖于信息交换的机制来描述。在离散系统间的交互中,使用协议对交换的字符冠以相同的命名。用交互形式(GIF)的游戏决策来补充不确定性协议,使其...

    N乳酸菌
  • hdu 3853LOOPS (概率DP)

    LOOPS Time Limit: 15000/5000 MS (Java/Others)    Memory Limit: 125536/65536 K (J...

    Gxjun
  • 杭电60题--part 1 HDU1003 Max Sum(DP 动态规划)

    Given a sequence a[1],a[2],a[3]......a[n], your job is to calculate the max sum ...

    风骨散人Chiam
  • PageAdmin、WordPress与dedeCMS网站模板制作总结

    PageAdmin、WordPress与dedeCMS作为国内三大cms建站系统,经常在功能性,操作性和负载等方面进行对比,每个cms的侧重点都不一样,所以没有...

    用户4831957
  • 卷积神经网络 第三周作业 Keras+-+Tutorial+-+Happy+House+v1

    Welcome to the first assignment of week 2. In this assignment, you will:

    Steve Wang
  • 本质空间的张量网络的等级(CS)

    阶-d张量的层次(多线性)等级是决定将张量表示为(树)张量网络(TN)的成本的关键。一般来说,众所周知,对于一个固定的精度,一个具有随机条目的张量不能被期望在没...

    管欣8078776

扫码关注云+社区

领取腾讯云代金券