前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MATH值量化肿瘤异质性有一定的临床意义

MATH值量化肿瘤异质性有一定的临床意义

作者头像
生信技能树
发布2019-05-08 17:20:16
1.5K0
发布2019-05-08 17:20:16
举报
文章被收录于专栏:生信技能树生信技能树

昨天我们分享的使用MATH值的研究 MATH值代表的肿瘤异质性在乳腺癌与生存关系不显著 提到了其临床意义不稳定,但是今天要分享的 这篇文章, Sci Rep. 2018 Jul 后面4个月在Oncotarget. 2018 https://doi.org/10.18632/oncotarget.26485 发出来,也是使用MATH值量化肿瘤内部异质性,下载了TCGA数据库的16种癌症的MAF文件,纳入超过6000个病人的信息。

但是作者后续的分析,只挑选了more functional (MF) mutations, 就是那些被PolyPhen-2软件认定为是“probably damaging” or “possibly damaging” 的 469,553 位点。

每个样本计算3个指标:

  • maximum value for probability density function of VAF distribution of MF mutations (m_Peak),
  • log2the total number of MF mutations
  • MATH score for MF (m_MATH)

然后跨癌症的比较六千多病人的这3个指标,使用PCA分析,然后用k-mean对前2个主成分进行聚类, 得到5类:

  • clusters 1 and 2 harbored more MF mutations than the other three clusters
  • Samples in clusters 3, 4, and 5 had fewer MF mutations than clusters 1 and 2

既然病人成功分组,接下来就可以多种分析啦,比如分组的突变特征,分组的临床信息。

使用CART算法, 分类回归树, 决策树,可以根据3个指标把病人分组为这5个cluster

决策树属于经典的十大数据挖掘算法之一,是一种类似于流程图的树结构,其规则就是IF…THEN…的思想,可以用于数值型因变量的预测和离散型因变量的分类。该算法简单直观、通俗易懂,不需要研究者掌握任何领域知识或复杂的数学推理,而且算法的结果输出具有很强的解释性。

使用决策树过程中,有两个非常重要的核心问题需要解决,一个是决策树中节点字段的选择,另一个是决策树的剪枝(在实际应用中,我们是不期望决策树盲目生长的,因为这会导致模型的过拟合)。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档