应用机器学习和电子病历估算艰难梭菌感染相关的当地成本

检索:周嘉祥(北京大学第一医院)

翻译:陈德钦(厦门市中医院)

审核:徐华(山东省立医院)

艰难梭菌感染(CDI)是美国报道最多的医院内感染(HAI),也是发达国家医院感染性腹泻的主要感染原因,每年造成数十亿美元的额外医疗费用。由于统计方法、患者纳入标准和地区成本的不同,每个患者艰难梭菌感染的成本估算从2,871美元到122,318美元不等。鉴于这些费用在医院和医院之间的差异很大,感染控制人员、医院管理人员和临床医生将从对他们特定人群和医疗保健实践量身定制的估算中受益。具体界定艰难梭菌感染预防措施的潜在节约成本,将使利益相关者能够在众多可用的有效干预措施中谨慎做出选择。

目的

我们试图仅应用从电子病历(EMR)自动提取数据综合评估在一家城市三级保健机构归因于艰难梭菌感染的住院时间(LOS)的变化。

方法

我们进行了一项回顾性队列研究,涵盖了跨度为7年期间的171,938个访问。总共从入院24时内记录的电子病历中提取了23,968个变量并用于训练弹性网络正则化逻辑回归模型进行倾向评分匹配。为解决时间依赖偏差(反向因果关系),我们按感染时间进行分层,分别比较,并拟合了多态模型。

1、数据来源

这项研究是在西奈山医院进行的,这是纽约市的一家有着1,171张病床的三级医院。收集的数据包括人口学资料,住院时间,死亡时间,入院来源,报告的药物和“008.45”国际疾病分类第九版(ICD9)主要或次要访问诊断代码表明“艰难梭菌引起的肠道感染”。此外,所有药物治疗记录,异常实验室结果,手术程序代码或入院后前24小时内的问题列表ICD-9代码被作为布尔变量收集。

2、研究人群

该队列包括2009年1月1日至2015年10月22日收治的所有18岁或以上的患者。对每一个患者,在时间范围内的第一次记录访问以外的访问皆被排除在外,这样每位患者对应唯一一次访问。在出院后24小时内定义为死亡记录的死亡病例访问被排除在外(2,682名成年患者;1.5%)。日期信息缺失或无效的访问被排除在外(

3、研究设计

以前的研究不同于使用ICD-9执行编码与阳性实验测试来定义艰难梭菌感染病例,并鉴定免疫分析和基于核酸的实验室测试的不同阳性预测值。为了确保最大限度的可靠结果并能与之前的研究进行比较,我们重复了对艰难梭菌感染5个定义的分析。

定义1:“008.45”ICD-9访问诊断代码

定义2:≥1次粪便毒素酶联免疫法(EIA)实验结果阳性

定义3:≥1粪便毒素的聚合酶链反应(PCR)实验结果阳性

定义4:定义2或定义3

定义5:定义1,2或3

我们的研究包括了两段期间,第一段是EIA测定被视为标准的医院实验室检测方法(~3年),接下去的是PCR检测方法为认定的标准方法(~4年)。对于包含定义2和3的病例队列,只有来自相同标准检测时期的才允许进行比较。医院的实验室协议要求不成形的粪便样本进行毒素检测。

4、统计分析

基于5个定义的艰难梭菌感染倾向模型被应用于正则化逻辑回归分析。在对性别和年龄段进行精确匹配之后,对倾向性得分进行最邻近1:1匹配,并用倾向性得分对数值的0.2个标准差进行衡量。重复匹配,使用已经匹配的对照对仍未匹配的对照创建一个重新匹配的队列,测试是否单独匹配与住院时间变化相关联。对于艰难梭菌感染的每种病例定义,计算病例和匹配对照之间的住院时间中位数差异,使用双侧Mann-Whitney U检验确定统计显著性。尽管违反了比例风险假设即传统Cox生存分析,对时间依赖出院风险进行评估的非参数Kaplan-Meier法被用于对匹配队列进行描绘。

为了进一步解决感染时间对艰难梭菌感染风险的可能影响和测量住院时间差异,我们重复了定义4的分析,在第一次阳性毒素测定时使用3个时间层:0-3天,3-8天,和≥8天进行时间分层分析。倾向性模型再次对每个如前所述进行匹配的病例队列进行拟合,并且附加条件是对在艰难梭菌感染时间窗口开始之前,对不符合匹配条件的对照进行排除。住院时间比较遵循上述相同程序。此外,我们拟合了与以前研究一致的非参数多态模型,在这个模型中,平均额外住院时间被估计为在所有时间点已经过或未经过感染状态的患者之间住院时间的平均差异,使用未感染状态下的花费时间的分布进行加权。使用R3.2.2软件(统计计算R基金会,维也纳,奥地利)进行分析;所有的软件代码都可以在

https://github.com/powerpak/cdi-cost上找到。

结果

对于每个病例定义,>75%的病例成功通过倾向评分与对照组相匹配(表1)。这些群体在人口统计学和倾向得分上匹配很好(表1)。根据病例定义,住院时间中位数的差异是:定义1(根据ICD-9编码),3.1天(95%置信区间[CI ],2.2-3.9);定义2(依据阳性毒素EIA),10.1天(95% CI, 7.3–12.2);定义3(依据阳性毒素PCR),6.6天(95% CI, 5.0–8.1);定义4(也是依据毒素毒素测定法),7.2天(95% CI, 5.8–8.3);定义5(依据这些的任何一个),5.7天(95% CI, 4.5–6.6)。

表1 研究人群和匹配队列的人口学特征

注解:CDI,艰难梭菌感染;ICD-9,国际疾病分类第九版;EIA,酶免疫分析法;PCR,聚合酶链式反应;SMD,标准化平均差。

为了进一步解决逆向因果关系,我们拟合了一个类似以前发表的研究的多态模型,明确估计了过渡到艰难梭菌感染与出院的时间依赖的竞争风险。为了总结艰难梭菌感染与住院时间的总体关系,住院时间的差异通过初始状态和平均花费的时间分布来加权。每个病例定义的平均差异为:定义2(应用阳性毒素EIA),3.0天(95% CI, 2.0–4.0);定义3(应用阳性毒素PCR),3.5天(95% CI, 2.7–4.5);定义4(应用任意毒素测定方法),3.3天(95% CI, 2.6–4.0)。值得注意的是定义4队列差异的95% CI与同一队列倾向匹配分析中的“早期HA”层在3.1天差异处重叠。

讨论

由于住院时间是艰难梭菌感染成本的主要贡献因素,所以住院时间变化可以通过乘以额外住院日的平均成本来推断近似的经济成本。在我们的数据集中,使用时间依赖调整后的3.1-3.3天的住院时间和全国的艰难梭菌感染病例额外住院天数平均成本的差异,每个病例的相关中位数成本约为10,600-11.300美元。与2011年全国平均住院费用相比这一费用是真实可靠的(2011年全国平均住院费用约为13.000美元)。使用毒素检测阳性病例数据集中观察到的平均每年病例负荷,我们的数字显示西奈山每年约150万美元的核算成本,不包括艰难梭菌感染病人病床占用的机会成本或感染控制资源的影响。原则上我们的分析可以推广到任意医院感染,只要电子病历中记录的实验室结果能有力反映感染的发生率。

总之,2个独立的调整时间依赖偏倚的统计分析在西奈山(3.1天和3.3天)艰难梭菌感染相关住院时间变化上产生类似的结果,表明基于机器学习和未处理电子病历数据的自动化方法稳健地和保守地估算医院感染在住院时间和财务方面的本地成本。这一程序透明,可重复,价格便宜,表明医师和感染控制人员可以利用电子病历数据来持续估算医院感染具体本地成本而不是依赖其他机构发布的广泛的不同的基准。

原文信息

Pak, T., Chacko, K., O’Donnell, T., Huprikar, S., Van Bakel, H., Kasarskis, A., & Scott, E. (2017). Estimating Local Costs Associated With Clostridium difficile Infection Using Machine Learning and Electronic Medical Records.Infection Control & Hospital Epidemiology,38(12), 1478-1486. doi:10.1017/ice.2017.214

(责任编辑:周嘉祥)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180827B16EF500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券