首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >自动化机器学习如何提升心血管风险评估

自动化机器学习如何提升心血管风险评估

原创
作者头像
用户11764306
发布2025-12-27 22:34:13
发布2025-12-27 22:34:13
210
举报

前言

心血管疾病是全球主要死亡原因。目前的风险预测工具,如各种风险评分,存在局限性。自动化机器学习(AutoML)能够处理大量数据集,构建定制化模型,且无需深厚的数据科学专业知识,为改善心血管疾病风险预测提供了潜力。

本研究利用来自LURIC研究和UMC/M研究两个临床数据集,构建了AutoML模型,分三个阶段预测脂蛋白(a)、特定心血管疾病及心血管相关死亡率。

研究方法

主要数据集
  1. LURIC研究数据集
    • 数据收集于1997年至2000年,后续随访持续至2010年。
    • 纳入了德国莱茵-内卡地区的3316名接受冠状动脉造影的患者。
    • 数据集包含3058个患者参数(特征),经过整理合并为单一电子表格。
  2. UMC/M数据集
    • 收集了2017年至2020年间某中心(原文为UMC/M,此处代指)脂质学门诊的患者记录。
    • 纳入了423名患者,包含267个特征。
    • 数据同样经过整理合并。
数据准备
  • 对数据集进行了特征丰富化和转换(例如,将数值变量转换为分类变量)。
  • 为进行跨数据集比较,创建了仅包含两个数据集共有特征的简化版本(LURIC-Common和UMC/M-Common),包含36个共同特征。
  • 针对心血管死亡率预测,从LURIC数据集中策划了四个不同的特征列表(EoL-1至EoL-4)。
自动化机器学习分析
  • 使用某机构的AutoML平台进行分析。
  • 流程包括:上传数据集、选择预测目标、执行探索性数据分析、自动建模。
  • 数据集被划分为训练集、验证集和保留集。
  • 模型根据其性能指标(主要使用曲线下面积AUC)进行排名和选择。
  • 为最小化过拟合,采用5折交叉验证。
模型解释
  • 使用“特征影响”和“特征效应”函数来理解模型决策。
  • 在第二和第三阶段,使用SHAP(SHapley Additive exPlanations)值进行模型解释和可视化。

研究结果

第一阶段:识别Lp(a)和心血管疾病事件的决定因素
  • 模型性能:构建的模型在交叉验证中AUC值范围为0.62至0.91,平均AUC为0.77,表明模型具有良好的区分能力。
  • 关键发现
    • Lp(a)水平:在LURIC数据集中,冠心病(CAD)的存在是预测Lp(a)升高的最有影响力的特征;在UMC/M数据集中,左心室功能是最有影响力的特征。
    • 冠状动脉疾病:在两个数据集中,“年龄”都是预测CAD的最强特征。在LURIC模型中,Lp(a)是前十大决定因素之一。
    • 其他心血管疾病:对于心肌梗死(MI)和急性冠状动脉综合征(ACS),NTproBNP是一个高影响力的特征。对于中风,颈动脉狭窄是一个强有力的预测因素。
第二阶段:在外部数据集上验证模型
  • 目标:评估在LURIC-Common数据集上训练的模型,在UMC/M-Common数据集上的预测性能。
  • 模型性能:所选模型在外部验证中的AUC值范围为0.65至0.81,平均AUC为0.74,性能略有下降但仍具鲁棒性。
  • 模型解释
    • 对于CAD预测,最有影响力的特征包括“他汀类药物治疗”、“年龄”、“性别”和“NTproBNP水平”。
    • SHAP分析(如蜂群图、决策图)清晰展示了各个特征如何影响模型对个体患者的预测。
第三阶段:心血管死亡率风险预测
  • 模型性能:使用四个不同特征列表训练的死亡率预测模型,在交叉验证中AUC值范围为0.74至0.85。其中,基于正则化逻辑回归(L2)的EoL-1模型表现最佳(AUC=0.85)。
  • 关键特征:在大多数死亡率模型中,“年龄”和“NTproBNP”是重要的预测因子。“维生素D25”的影响则因模型而异。
  • 数据漂移分析:将EoL-1模型应用于UMC/M数据集进行外部验证时,发现了数据漂移(例如,年龄分布与训练数据不同)。这凸显了对预测模型进行持续监控和调整的必要性。

讨论

  • 本研究首次系统地将AutoML应用于评估Lp(a)与心血管疾病临床数据集中其他风险因素的关系。
  • AutoML能够识别传统和非传统的心血管风险决定因素,并构建具有良好预测性能的模型。
  • 第二阶段验证了模型在外部数据集上的一定普适性。
  • 第三阶段的死亡率模型展示了机器学习在长期预后预测方面的潜力,同时数据漂移分析强调了模型在临床部署中需要具备适应性。
  • 局限性:研究基于回顾性数据;两个队列存在差异;UMC/M队列缺乏死亡率随访数据,限制了第三阶段模型的完全外部验证;模型为二元分类而非生存分析模型。

结论

本研究证明,AutoML能够有效分析复杂临床数据,识别心血管疾病的关键决定因素,并构建稳健的风险预测模型。通过将Lp(a)置于更广泛的特征背景中评估,AutoML揭示了其在多种心血管结局中的细致作用。随着医疗数据的不断演进,将这些先进的预测工具整合到临床实践中,有望实现更个性化、精准和自适应的医疗系统,从而改善患者预后,减轻全球心血管疾病负担。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 研究方法
    • 主要数据集
    • 数据准备
    • 自动化机器学习分析
    • 模型解释
  • 研究结果
    • 第一阶段:识别Lp(a)和心血管疾病事件的决定因素
    • 第二阶段:在外部数据集上验证模型
    • 第三阶段:心血管死亡率风险预测
  • 讨论
  • 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档