今天给大家介绍2020年11月12日发表在Nature Machine Intelligence上的三篇评论。这三篇评论都缘于该期刊往期的一篇标题为“An interpretable mortality prediction model for COVID-19 patients”的文章,评论主要抨击了原文章提出的对于COVID-19患者的死亡率预测模型所存在的问题。同时,该期刊同期发表了原作者li Yan等人对该三篇评论的回复。
1
共同的研究背景(原文章)
COVID-19病例的突然增加给全世界的医疗服务带来了巨大压力。在此阶段,对疾病严重程度进行快速,准确和早期的临床评估至关重要。因此,Yan等人利用中国武汉地区485名感染患者的血液样本数据库,选择出了三种关键的生物标志物:乳酸脱氢酶(LDH)、淋巴细胞和高敏C反应蛋白(hs-CRP),提出了一个简单且可操作的决策规则,可以提前10天以上以90%以上的准确度预测患者的死亡率,识别高风险患者,从而可以对患者进行优先排序,并有可能降低死亡率。
2
评论的主要内容
(一)来自“Replication of a mortality prediction model in Dutch patients with COVID-19”
我们使用来自大型综合医院(St Antonius Hospital,Nieuwegein,荷兰)的数据独立复制了该模型。并纳入了305名18岁以上的患者的数据去进行验证。
模型验证
结果发现,该模型具有92%的存活率预测精确度,但只有27%的死亡率预测精确度。相比之下,Yan等人的存活率预测精确度为100%,死亡率预测精确度为81%。
在我们的303名患者中,有42名进入重症监护室(ICU)。在这些患者中,36人(86%)根据决策规则会有不利的结果,但实际只有15名(36%)死亡(都满足LDH >365 U l-1).
结论
在荷兰患者中,该决策规则的有利结果确实是预测不进入ICU和存活下来的一个良好的指标。尽管可以将决策规则的不利结果解释为警告信号,但如此分类的大多数患者仍然存活。我们假设我们的数据与Yan等人的数据之间存在差异可能是由于所提供生物标志物表达的遗传差异。例如,据报道,LDH的表达在亚洲人和白种人之间显示出有大量的遗传异质性。或者,患者的治疗方案或基线特征的差异可能也影响结果。总之,我们的分析支持了Yan等人提出的决策规则的高存活率预测精度,但未能证实其高死亡率预测精度。
(二)来自“External validation demonstrates limited clinical utility of the interpretable mortality prediction model for patients with COVID-19” 我们使用来自在Northwell Health医院接受治疗的COVID-19患者的数据来验证其模型。
模型验证
我们在收集所有三种血液测试的第一个时间点,在其验证数据上测试了模型的性能,类似于医生对新患者进行风险分层的方式(图.1a)。该关键时间点未包含在原始论文中,这很重要,因为作者建议可以使用他们的模型来确定护理的优先级。与结果模型不同的是,前瞻性临床模型用于结果时间未知的前瞻性研究,该模型基于已知结果日期回顾性地使用数据。鉴于临床医生不知道何时会出院或死亡,所提出的模型的性能在接近结果的时间改善的事实并不是临床有用的信息。因此,重要的是要证明该模型具有足够的性能足以证明在入院时有必要改变临床护理。
我们使用https://github.com/siabolourani/YIN_reply上提供的代码在Python和R上进行了分析。预测死亡率的精确度为0.48,这意味着模型预测死亡的患者中有超过一半实际上可以幸存。准确性是0.88,F1分数是0.41。在解释这些结果时,必须仔细考虑不平衡的数据——他们的验证集的生存率为0.88,这意味着始终预测存活率的空模型和提出的完整模型的准确性相似。
为了测试死亡率预测模型的临床可移植性,我们使用Northwell Health电子健康记录数据库在外部对其进行了验证。在总共13,106名患者中,最终纳入了1,038名患者进行模型验证。
我们最初使用所有三个实验室值均可用的第一个时间点测试了模型性能(图.1b)。模拟该模型在此初始分类点的操作,死亡的精度为0.40(F1得分为0.56),总精度为0.48。
据报道,随着实验室值越来越接近患者的结果,该模型的准确性会提高。如前所述,取决于事先知道结果日期的临床模型值得怀疑。不过,我们使用数据集中的最终(死亡或出院前)实验室值从外部验证了模型,死亡精度仍然很低,为0.41,总体模型精度为0.50(图.1c)。
结论
我们已经证明了Yan等人最近发表的模型不能根据原作者提供的内部验证数据集去作为分类工具。此外,我们证明了决策算法对于未经修改和优化的参数均无法移植到大型外部验证数据集中。因此,我们已经证明了在实际临床实践中广泛采用该模型之前,对其进行外部验证的重要性,特别是考虑到该模型在发布后迅速且广泛地传播。此外,我们的发现与其他研究一致,确认所提出的该模型不能推荐用于常规临床实施。
(三)来自“Limited applicability of a COVID-19 specific mortality prediction rule to the intensive care setting”
为了验证该规则的可推广性,我们使用了Outcomerea的数据,Outcomerea是法国重症监护病房(ICU)的多中心队列,涉及重症COVID-19患者的管理。
模型验证
我们纳入了178名18岁以上的患者,这些患者在2020年3月1日至2020年6月1日之间经实验室确诊COVID-19被纳入ICU。排除ICU入院后三天内未测量LDH,hs-CRP或淋巴细胞的患者。这178名患者中,在第14天和第28天,死亡率分别为18%和34.2%。表中显示的结果表明,决策规则对于预测死亡的精确度和准确性非常低。在第28天获得的不良结果最少,准确度为37%(阳性预测值),准确度为43%,但召回率则为93%(阴性预测值)。该决定规则在我们的重症患者预选队列中缺乏特异性,这可能会影响其常规使用。
结论
这些结果可以用我们队列的真实特异性来解释。确实,只有约5%的COVID-19患者因急性低氧血症性呼吸衰竭(AHRF)被送入ICU 。因此,我们的ICU人群不包括①绝大多数LDH和hs-CRP血清水平很低且淋巴细胞计数很高的丘疹症状患者(这些患者预后良好),以及②一些病情最严重的患者hs-CRP和LDH血清水平高且淋巴细胞计数低的患者,由于治疗受限而未入ICU(这些患者的预后最差)。由此,Yan等人的预测规则在我们的队列中应用不准确也并不奇怪。但是,他们提出的生物标志物对于预测ICU的入院率以及ICU入院患者的死亡率也可能很有趣,但是具有其他阈值。因此,我们认为应该针对疾病的不同阶段调整不同的规则。例如,可以在ICU中重建决策树以预测死亡的发生。此外,死亡可能不是最合适的结果——疾病恶化可能会更好。可以为进入急诊室的患者建立另一个决策规则,以预测恶化情况,即严重或严重类型的COVID(COS-COVID)的发生。
3
总结
4
原作者回复
作者回复中首先感谢了相关作者对其论文的关注,和他们对其预测模型的应用。也肯定了医院和实验室规程的差异、亚洲人和白种人之间的遗传异质性可能导致血液样本的显著变化,并对他们提出的质疑给与以下解释和回复:
第一:如下图显示,同济医院和其他医院的所有三种生物标志物的数据分布在统计上是不同的。另外,来自同济医院的数据中的三个生物标志物(训练和外部测试数据相结合)在存活和死亡之间有着清晰的区分。但是,AH(St Antonius医院)、FO(法国Outcomerea)和NH(Northwell Health)的数据集却不是这种情况,他们患者的出院方案与同济医院的出院方案相比较也有明显不同。
第二:可能与医院中使用的不同实验室规程有关。
第三:LDH表达似乎有亚洲人和白种人之间的实质性的遗传异质性。
第四:不同的医院治疗方法或患者的基线特征会影响预后。
第五:自2020年4月起,重症监护室和非重症监护室的死亡率每周下降2%至5%。这可能会使我们的实验数据与AH、FO、NH数据集的数据之间产生差异。
第六:据报道,SARS-CoV-2病毒至少有两个谱系。患者可能因这些生物标记物的不同表达而感染了不同的菌株。而中国、欧洲和美国似乎被划分为不同的类别。
第七:FO数据集的患者选择未遵循我们使用的完整的患者选择过程,因此不能用作该模型的无偏验证。从本质上讲,本来可以通过我们的模型正确分类的患者被删除,仅留下了一些难以分类的中级患者,从而降低了我们模型的整体准确性。
进一步验证
自论文发表以来,除了同济医院,我们还将武汉金银滩医院和深圳第三人民医院的新患者数据应用于该决策树。总体而言,两家医院的表现均与同济医院相近,准确率分别为94%和90%。这表明,在中国不同的地区,完全相同的模型可以提前10天以上预测单个患者的死亡率,准确性达到90%以上。
总结
我们利用了来自荷兰的St Antonius医院(AH)、法国Outcomerea(FO)和美国Northwell Health(NH)的三个数据集测试了该模型。关键信息如下:
在某些情况下,不需要进行重新训练,而在另一些情况下,重新训练可以大大提高模型的性能。
参考资料