一文带你了解预后模型构建

百味科研芝士

发布于 2020-04-30 18:28:20

4.7K0

发布于 2020-04-30 18:28:20

文章被收录于专栏：百味科研芝士百味科研芝士

今天分享一篇预后研究综述，这是个系列文章，共四篇，这是第二篇。文献来自于BMJ杂志(IF：27)，是2009年的文章。虽然文献有点旧，但知识不会过时。

文章标题

目录

1. 介绍
2. 数据处理
- 2.1 筛选候选预测变量
- 2.2 评估数据质量
- 2.3 数据处理决策
- 2.4 选择变量
- 2.5 连续性变量构建模型
- 2.6 评估预测性能
3. 讨论
4. 总结要点
End

1. 介绍

本系列的第一篇文章描述了预后研究的重要性以及其在不同临床环境中的应用，并且强调了病因学研究中的多变量模型与预后研究中的多变量模型之间的区别，并总结了构建预后模型的研究设计特点。

本文主要关注多变量预后模型的构建。通过使用Logistic回归模型预测感兴趣结局风险来说明其中的统计学问题。

本文的目标是使用多个变量来构建一个预测性能良好的预测模型。预测模型是由预测变量组成的一个复杂函数，如天气预报，但是在临床实践中，需要考虑到实用性，通常建议构建简单的、易解释的模型（如框1所示）。

目前还没有广泛认可的方法来从一组候选预测变量中建立多变量预测模型。本研究将重点考虑一些标准的建模方法，也会考虑预测模型中的连续变量怎么处理，如年龄。

框1：预后模型的例子 通过logistic回归模型预测手术后24小时内出现恶心或呕吐（PONV）的风险评分。

风险评分

风险评分中所有变量均编码为0(为No)或1(为Yes)。评分中的数字-2.28为截距，模型中的其他数字是相应预测变量的估计回归系数，表明经过调整后预测变量对结局风险的相对贡献。预测风险或概率PONV=1/（1+e^(-risk score)）。

2. 数据处理

首先假设我们使用的预后数据很准确，可以代表感兴趣结局人群。在开始构建多变量预测模型前，需要做很多影响模型的处理，从而会影响研究结论。比如：

选择可能纳入模型的临床相关的候选预测变量；
评估数据的质量，并判断怎么处理缺失值；
数据处理决策；
选择一种策略来选择最终模型中的重要变量；
连续性变量怎么建模；
选择一个好的方法来评价预测模型的准确性和预测性能。

其他考虑因素包括：评估模型的稳健性；研究预测因素之间的交互作用；确定是否需要调整和怎么调整最终模型的过度拟合，并探索模型的稳定性。

2.1 筛选候选预测变量

在构建模型前通常会测量很多的候选预测变量，但是纳入最终模型的预测变量比较少，因此涉及到候选预测变量的筛选。

已经报道过的与预后有关的预测变量通常可以作为候选预测变量。与其他预测变量有高度相关性，但是独立作用较弱的的预测变量可以排除。然而，在单因素分析中没有统计学意义的预测变量可以作为候选预测变量，不被排除。

2.2 评估数据质量

目前没有用于评估数据质量的安全规则，因此数据的判断评估是很有必要的。原则上，用来构建预测模型的数据应该与研究目的有关，候选预测变量和结局的测量在临床医生和研究中心之间应该具有可比性。测量不够准确、误差较大的预测变量可能需要排除，因为这会影响预测模型的准确性。

现代统计方法(如多重插补法)可以处理包含缺失值的数据集。然而，所有的方法都对数据丢失的方式做出了关键但无法检验的假设。研究结果的准确性会随缺失数据的增加而降低。

缺失数据很少是属于完全随机缺失型数据，它们通常与其他受试者或疾病特征（包括研究结局）存在直接或间接的相关关系。因此，直接删除含有缺失数据的病例不仅会降低统计效力，而且经常会错误的估计模型和特定预测变量的预测能力。

当只有少量病例存在缺失数据（如＜5%）时，直接删除包含缺失数据的病例也是可以的。如果某一个候选变量存在大量的缺失数据，这个候选变量可以排除。

2.3 数据处理决策

在数据处理中，我们有时需要创建新变量，如根据舒张压和收缩压计算平均动脉压。

对于有序分类变量如疾病分期，可能需要折叠分类类别或者明智的选择编码。

不建议将连续性变量转换为二分类变量，模型中纳入连续变量也是可以的，因为会保留更多的预测信息。

2.4 选择变量

选择变量的最佳方法目前尚无共识。有两种主要的策略，每种策略都有其衍生的变体。

在完整模型方法中，所有的候选变量都纳入在模型中。完整模型声称可以避免过度拟合和选择偏倚，并提供正确的标准误差和P值。但是，由于必须做出许多重要的初步处理，并且纳入所有候选变量通常是不切实际的，因此完整模型并不总是容易定义的。

后退法从所有候选预测变量开始，预先选择一个显著性水平（通常为0.05）。使用一系列假设检验来确定是否应该从模型中删除给定的预测变量。与前进法相比，后退法更可取，可以根据最佳候选预测变量建立预测模型。

显著性水平的选择对变量筛选的数量有很重要的影响。显著性水平为0.01时，纳入模型的变量数目比0.05要少。而当显著性水平为0.10或0.15时，可能会纳入一些不重要的变量，完整模型方法就是如此。

通过显著性检验(尤其是在传统显著性水平)选择预测变量会由于过度拟合而产生选择偏倚和乐观，这意味着模型过于适应数据。选择性偏倚意味着回归系数被高估。

过度拟合可以导致独立数据的预测作用更差，它常常出现在小样本数据集或预测变量预测作用较弱的情况下。请注意：与P值接近显著性水平的弱预测变量相比，P值很小的预测变量(如 < 0.001)不容易出现选择偏倚和过度拟合。通常，预后数据集会包括一些强的预测变量和几个较弱的预测变量。

2.5 连续性变量构建模型

在多变量模型中处理连续性预测变量是很重要的。假定连续变量是线性的，并不可取，因为他可能导致对预测变量影响的误解，并进而在新患者中预测不准确。在预测模型中如何处理连续性预测因素可参见框2。

2.6 评估预测性能

逻辑回归模型的预测性能可以通过校准度和区分度来评估。

可以通过将观察到的事件比例与预测风险之间的关系作图来研究校准度，该预测风险是由各个预测风险范围定义的组。一种常见的方法是使用10个大小相等的风险组。理想情况下，如果观察到的事件比例和预测概率在整个概率范围内一致，则该图将显示为一条45°的直线(即斜率为1)。校准图常伴随着Hosmer-Lemeshow检验，尽管该检验用于评估不良校准的能力有限。

对于开发模型的样本，总的观察到的事件和预测的事件概率相等，但是在验证研究中，对其他样本进行模型性能评估时并不能保证。正如我们将在下一篇文章中讨论的那样，与开发模型样本相比，模型在验证样本中表现良好要更困难。

很多统计量都可以描述区分度，如ROC曲线下面积或c统计量。预后模型的c统计量通常在0.6到0.85之间（在诊断试验中可以看到更高的值）。另一种评价方法是R²，用于逻辑回归评估所解释的风险变化，并且是观察到的结果（0或1）与预测风险之间的相关性的平方。

3. 讨论

我们说明了使用数据开发多变量预后模型的几个重要方面。尽管目前还没有建立最佳模型的共识定义，但足够样本量和高质量数据的重要性还是广泛认可的。小样本量数据集构建模型时需特别注意。

当在同一个数据集中开发和评估模型时，模型的预测性能有可能被高估。建模过程中存在最多的问题包括样本量较小、候选预测变量很多、预测变量预测作用很弱等。模型的乐观程度可以通过内部验证技术来评估和纠正。

模型的开发是一个很复杂的过程，一个新的预后模型应报告数据处理和建模方法的详细信息。所有候选变量、纳入最终模型的变量及其显式编码都要详细报告。模型中所有变量的回归系数还有截距也要报告，以便读者能够计算预测风险。

方法选择不当或数据质量较低可能会对模型的预测性能或准确性造成不利影响。但是即使使用高质量的模型，也可能存在太多无法解释的变化而无法生成准确的预测。因此，多变量模型的一个关键要求是可推广性或者外部有效性——即确认模型在新的相似患者群体中的表现符合预期。我们将在本系列的下两篇文章中讨论这些问题。

4. 总结要点

可以开发多变量的模型来给出准确而有区别的预测。
在临床实践中，简单的模型具有更高的实用性。
开发模型的理想方法目前没有共识。
开发简单且可解释的模型的方法要描述和比较。

参考文献略，文献只翻译了下主要意思。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2020-04-21，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

数据处理

本文分享自百味科研芝士微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

编程算法

数据处理

登录后参与评论

0 条评论

热度