预测模型之机器学习 Machine Learning

文章来源：企鹅号 - 易侕统计

看一篇论文的实例：2016年发表在Crit Care Med的一项观察性队列研究，对于住院患者运用机器学习（Machine Learning）的方法早期预测疾病恶化。

研究者对五家医院2008年至2013年的住院信息进行分析，运用患者人口学特征、实验室检查和生命体征等临床常规指标，对疾病恶化（心脏骤停、转入ICU或死亡）做预测。（SCI IF=7.1分）

本研究的亮点是：下图对比了多种预测模型构建方法后，得出机器学习的方法对本数据的预测能力最高，AUC=0.801。值得注意的是，目前临床上常用的MEWS评分的预测能力是最低的，表明机器学习做预测要比传统的方法靠谱很多。

机器学习得出各个因素对预测的重要性排序，下图可以看出排在第一位的是呼吸频率，第二位的是心率。这个图如何做呢？下面软件操作部分会分享。

机器学习、人工智能（AI）和神经网络等名称，相信大家在不同场合都听说过。机器学习的方法学瓶颈，通常是阻碍临床医生做科研的障碍。2018年易侕软件增加了机器学习的方法，使之前需要花费很多人力物力才能做到的分析，只在一个点击间完成。具体如何操作呢？

第一步是收集数据，最常见的数据格式是一个患者一行，第一行是变量名。这相当于把医生的临床经验记录下来。

第二步：运用易侕软件数据分析-诊断试验与预测方程-机器学习与预测分析模块。

直接得出一系列的图表结果（包括图片和PDF矢量图格式）。后台是R语言，具体的R程序可以在结果输出界面查看并调用R编改程序，爱好学习R的朋友可以研究。

下图是每个指标对预测的重要程度排序，建议这个图可以放在论文中，例如本文开头的SCI论文，好处是一目了然知道哪些变量重要。

得出预测模型评价的指标，包括准确度、Kappa值、敏感度和特异度等。其中重要的是ROC曲线下面积（AUC），这里AUC=0.8052，这个值越大越好，通常需要写在SCI论文摘要的结果中。

到此为止，预测模型就做好了。

如何更加优化？

可以把研究对象分成建模和验证两组，好处是对模型进行了验证，提高了证据级别。具体软件操作：设置训练集（Training sample）比例，如果填100表示所有样本用于建模；如果填75表示建模用75%，验证用25%的样本。做验证是锦上添花的操作，如果研究样本量不大，也可以只做建模不做验证。

机器学习预测分析（XGBoost）适用范围：

1.自变量（X）可以是二分类、多分类、连续变量

2.结局指标（Y）可以是二分类、连续变量

3.如果结果变量与X变量的关系不是线性的，本模块预测效果要好于线性模型。

2018年易侕软件会继续完善机器学习模块

敬请关注！

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货