风险预测模型是根据个体的一系列特征来估计个体发生某种疾病或结局概率的统计模型,常用于临床实践中对疾病严重程度进行分层,并揭示疾病或疾病预后的风险特征。
随着科学技术的进步,临床和生物学数据的不断增加,预测模型在肾脏疾病领域得到了越来越广泛的应用。
本文将通过以下步骤指导读者创建一个预测模型,步骤包括:
最后,以建立终末期肾病(ESKD)患者ICU入院后90天死亡率的预测模型为例,说明预测模型的推导过程。
论文标题
目 录
风险预测模型可以根据模型中预测变量的值来估计个体出现某一疾病或结局(如死亡)的概率。在诊断、治疗、辅助预测和疾病严重程度分层方面,这些模型可以用来指导临床医生做出决策。
随着新技术的进步,大型医疗数据库的建立为预测模型的构建和验证提供了机会。在肾脏疾病领域,已经开发了很多预测模型用于临床实践,如预测ESKD风险的模型和国际IgA肾病预测模型。
本文阐述了构建风险预测模型所涉及的步骤,其中重点是模型的开发和验证,并举例进行说明。
临床背景:1名55岁的男性ESKD患者,维持性血液透析治疗,在出现严重肺炎后被送入ICU。
临床问题:ESKD患者进入ICU后死亡的风险是多少?
本研究使用这个例子来说明预测模型的开发,构建的模型可以预测ESKD伴透析患者ICU入院后90天的死亡风险。
数据来自MIMIC-III数据集,该数据集来源于美国一家大型三级医院的综合ICU数据库,包含患者特征、临床观察、实验室结果、药物、液体平衡、诊断代码和生存数据。可以从http://mimic.physionet.org
网站获取该数据集信息。
本文所建立的模型仅作演示之用,不应用于临床实践。有关模型构建步骤的更多详细信息,请参见补充附录,以及R脚本的副本。
预测模型的建立可分为7个步骤:
临床预测模型的类型主要有两种:诊断模型和预后模型。
诊断模型用来估计患者发生某一疾病的风险,可以识别高风险患者,及早预防和治疗。
预后模型用来估计患者未来某一时间段发生某一结局的风险,对出院前的患者进行评估,识别出高风险患者,通过对高风险患者加强随访,可以改善患者预后。
区分预测模型与流行病学模型是很重要的。预测模型追求对结局的最精确的预测,而不考虑其各个组成部分与结局之间的关联。
尽管预测模型和流行病学模型使用相同的统计工具,但它们的构建方式不同,我们不应该得出因果结论,也不应将预测模型的组成部分解释为结局的风险因素。
下表总结了预测模型和流行病学模型之间的差异。
特征 | 预测模型 | 流行病学模型 |
---|---|---|
模型目的 | 为了准确的预测结局,如预测特定患者群体发生疾病或结局的风险 | 评估变量与结局之间的流行病学或因果关系,如吸烟与肺癌之间的关系 |
变量 | 为预测模型提供信息来做出更准确预测的影响因素 | 根据模型结构,变量可以认为是结局的风险因素,或是变量和结局之间关系的混杂因素 |
变量筛选 | 基于改善预测模型性能的能力来筛选变量,这些变量不一定与结局存在生物学或流行病学关系,如婚姻状况和ICU死亡率 | 基于现有知识和变量与结局之间因果关系的假设来筛选变量,如年龄和性别可能是吸烟对CKD风险影响的混杂因素,因此包含在调整模型中 |
预测模型的类型取决于感兴趣的结局。
传统上,logistic回归模型用于二分法结局,如疾病诊断的有无(如急性肾损伤),或预先确定时间段的结局事件(如30天死亡)。
Cox比例风险模型用于包含时间的数据(如进展到ESKD的时间)。
新的机器学习方法,如随机森林、k近邻、支持向量机和人工神经网络,也越来越多地用于预测模型的开发。本系列的另一篇文章将介绍机器学习方法用于预测建模的更多细节。
在本文的例子中,因为感兴趣结局是二分类结局(ICU入院后90天是否死亡),所以我们使用logistic回归模型来构建预测模型。
建立预测模型的数据可以重新收集,也可以来自现有的试验、队列研究、登记注册或管理的数据集。数据集应包括与预测模型的感兴趣人群相同的患者群体。数据集中样本量越大、患者信息越多,构建的预测模型就越准确。
在本研究中,MIMIC-III数据集包含了患者基本特征信息(如年龄和性别),以及每个患者ICU入院期间生命体征和实验室结果的数据。我们使用患者的基本特征、首次获得的生命体征数据和在ICU入院48h内获得的基本实验室结果作为潜在的预测变量来开发预测模型。
在开始构建模型之前,要检查每个变量是否有缺失值、离群值或异常值,还应评估每个变量的分布。
根据缺失值的类型以及处理缺失值的方式,缺失值处理常可能导致统计分析出现偏倚。可以采取几种方法来处理缺失值,如删除缺失值后的完整病例分析或使用插补法。本系列的另一篇文章将详细介绍缺失值的处理。
除了缺失值外,协变量的编码和类型也是需要考虑的。协变量可以是分类变量,如男性/女性;也可以是连续变量,如年龄和血清钠水平;还可以是计数的离散型变量,如既往住院的次数或合并症的数量。
分类变量的每一个水平都应该有足够的观测对象。如果某一水平观测对象较少,可以合并观测对象较少的类别水平。一般来说,只有当变量的潜在价值很小时,连续变量和离散变量才应该转换成分类变量,其他情况下不建议这样做,因为这样做会减少预测信息,并可能降低模型的预测能力。
在本研究中,使用ICD-9诊断代码来识别伴有透析的ESKD患者,并使用相关变量的项目代码从数据集中提取协变量的信息。
其他的数据处理步骤包括:将所有温度值转换为相同单位(摄氏度),将入院类型、种族和婚姻状况变量进行重新分类。数据集中只存在少量的缺失值(每个变量<4%),因此可以进行完整病例分析。