预测模型之机器学习 Machine Learning结果解读篇

学友提问:对于机器学习出来的只有图形,我怎么解释呢?怎样才能在临床使用呢?

论文的实例:2013年发表在The American Journal of Gastroenterology的一项队列研究,题目是:运用机器学习预测肝癌进展要优于传统的回归方程。研究者对2004年至2006年442例肝硬化患者信息进行分析,运用患者人口学特征和实验室检查等临床常规指标,对疾病恶化(肝癌、肝移植或死亡)做预测。SCI IF=9.6

核心结果中机器学习的内容需要给出这样一个图,目的是展示用于预测的指标重要性排序。

论文结果部分需要描述:

1、结果变量Y是什么(本文是HCC);

2、用于预测的指标有哪些(本文是患者一般资料、临床症状和实验室检查);

3、研究人群(本文是UM队列数据);

4、用于预测的指标重要性排序(本文是AST、ALT、腹水、胆红素、基线AFP和白蛋白)。

上述内容总结模板如下,其中有下划线的是可替换的内容,大家可以根据自己关注的疾病进行名词替换:

Machine Learning Algorithm Models forHCCDevelopment

Random forest algorithms using baseline variables includingpatient demographics, clinical data, and laboratory valueswere used to identify patients who developedHCC in the UM cohort.The proportional importance of each input variable in the random forest model is shown in Figure 2. The most important independent variables in differentiating patients who developedHCCand those withoutHCCwere as follows:AST, ALT, the presence of ascites, bilirubin, baseline AFP level, and albumin.

上述模板是抄的原文,如下:

那么,机器学习的模型是什么?如何发表出来让同行直接使用预测疾病呢?目前小编看到过的临床医学相关SCI论文中,没有呈现出具体机器学习模型的。如果是用传统的回归分析做的,会有回归方程写在SCI论文中,例如本研究:

然而机器学习并没有一个固定的方程,因为每个观察对象都有一个方程,并且这些方程都不完全相同。也正是如此,机器学习真正做到了个体化预测,更加精准的量身定制。 引用陈驰老师的一句话:“机器学习和大家所知的回归模型不是一个体系!就如同火车没翅膀,但飞机有翅膀一样。用既往知识去套新的体系,不是很合适。”

如何对新患者运用机器学习的结果做预测呢?怎样才能在临床使用呢? 具体过程可以用易侕软件自带的数据demo做练习。在“分析项目”-“打开现有项目”-“练习用的项目”中。

部分数据截图如下,目前数据中有832个研究对象,把需要预测的新患者放在数据文件的最后面,例如这里红框中所示。数据中这5个新患者只有X,可以缺失结局指标Y,因为Y还不知道呢需要预测。(数据中如果你填上Y,也不影响软件运行)

直接得出一系列的图表结果,里面有5个彩图就是这5位新患者的预测结果。

第一个彩图看横坐标可知,研究对象是年龄52岁、身高1.53的这位患者,即原始数据中倒数第五行的患者。纵坐标是发生疾病的可能性(是百分比)。

图中最后一个黑色的表示预测结果(Prediction),本例患者是0.51,表明发生高血压的风险是51%。这个51%是如何得出的呢?可以看左边的条带,蓝色的是使风险升高的:包括年龄、身高、性别、体重;红色是使风险降低的:包括职业、教育程度、BMI。每个指标对发病风险的贡献大小,就体现在条带的长度上。

做出这个图的好处:

可以对每一位新患者做个体化预测

一目了然知道是哪些因素起主要作用

如果是可以提前干预的因素,在预测同时给出下一步精准治疗的方案

机器学习的模型被输出在工作路径的文件夹下,好处是当数据量很大时,不需要每次都重新建立模型。这个xgb.model文件在笔记本上通常是打不开的。按理说,对于数据库中的每一位都可以做出一个预测图。

2018年易侕软件会继续完善机器学习模块

敬请关注!

相关内容

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180110G0SRCG00?refer=cp_1026

扫码关注云+社区