临床科研大数据应用系列1:加强对重症监护医学数据集MIMIC-III的利用分析

导读

MIMIC-III已成为重症监护医学研究的重要数据支撑和临床科研工具,也是病人生命体征监测设备数据分析改进的重要数据源。

MIMIC-III数据集概述

MIMIC-III是一个免费开放的重症监护医学数据集,由美国麻省理工学院计算生理学实验室、贝斯以色列迪康医学中心(BIDMC)以及飞利浦医疗共同发布。早期的MIMIC数据集主要用于还原临床实际中各种危重症病人所用诊疗方案和监护策略,基于该数据集,能够检测、比较和评估为重症病人多参数智能监护系统性能以及数据分析算法。MIMIC-III是MIMIC-II的更新版,MIMIC-II命名是“多参数智能监测数据库”(Multiparameter Intelligent Monitoring in Intensive Care),MIMIC-III升级为“重症监护医学数据集”(Medical Information Mart for Intensive Care)。

由于MIMIC具有开放性、数据集时间跨度长(12年)以及个人健康数据完整等特点,使它成为重症医学界著名的科研数据集,吸引了学术界和工业界众多研究成员使用该数据集从事重症医学科学研究。对MIMIC-III数据集成管理方法进行研究探讨,对当前医院电子病历数据挖掘分析以及大数据支撑临床科研有重要意义。

MIMIC-III数据集包含2001-2012年间麻省理工贝斯以色列迪康医学中心重症监护室病人真实医疗数据,共有成人(年龄>=16岁)53423人,还包括了2001-2008年间7870个新生儿的临床医疗数据。不仅包括病人生命体征、化验结果、用药情况,也包括了医学图像(超声、核磁、CT等),还包括了病人的医疗过程及人口统计信息。基于这些数据,国际上相关学者进行了大量研究,发表了大量有价值的论文成果,近年来利用该数据集发表临床科研文献持续增多。

数据源与集成方案

MIMIC-III数据集临床医疗数据来源于以下业务系统:重症监护信息系统数据、BIDMC的EMR数据库、社会保险关于病人死亡文件记录。

BIDMC使用了两套重症监护信息系统:飞利浦的CareVue临床信息系统和IMDSoft MetaVision ICU系统。包含了以下临床数据:护理过程中的病人生命体征时态数据(如心率、血压、呼吸等),医生观察记录以及输液记录等;医院EMR系统中病人的数据有:病人基本信息、实验室检验报告、出院小结、心电及影像报告、病人费用情况以及国际疾病诊断ICD-9编码等;通过社会保险系统得到了病人院外死亡的日期,作为MIMIC-III数据集的组成部分。

MIMIC-III重症监护医学数据集的总体方案如下图所示。

MIMIC-III重症监护医学数据集数据集成示意图

数据表设计

MIMIC-III 数据库包含了医院多种ICU病人的临床数据和生命体征波形数据集,由26个数据表组成。这26个数据表按照内容分为四大类,分别是病人基本信息表、门诊相关信息表、住院ICU临床相关信息表以及辅助字典术语信息表。具体解释如下:

1、病人基本信息表

表1:病人基本信息及转床信息表

2、病人门诊信息表

表2:病人门诊治疗相关信息表

3、病人ICU相关信息表

表3:病人ICU的临床治疗相关信息表

4、辅助字典术语信息表

表4:辅助字典及术语信息表

数据访问与利用分析

MIMIC-III数据集的数据以一组独立文件形式提供下载,同时包含了将这些数据加载到PostreSQL、MySQL以及MonetDB的脚本文件。在使用这些数据前,研究者需要在MIMIC网站注册并获得使用授权,具体方法不再赘述。

基于MIMIC-III数据集进行数据挖掘分析已成为国外一些著名大学临床数据挖掘分析的课程内容。基于MIMIC-III进行了大量的临床科研项目,包括:预测病人预后的机器学习模型、病人生命体征临床检测技术改进以及非结构化医学文本的语义分析等。

许多研究者利用MIMIC-III对重症监护数据进行数据挖掘,产生了新的临床模型和评价,包括疾病严重度评分、并发症评分以及临床诊疗方法的改进,如机械通气、血压测量等。MIMIC-III已成为了重症监护医学研究的重要数据支撑和临床科研工具,也是病人生命体征监测设备数据分析改进的重要数据源。

MIMIC-III数据集自开放以来,对重症医学临床科研起到了巨大的支撑作用。系统梳理MIMIC-III数据集内容及相关研究,对目前我国临床医疗大数据研究与实践有重要意义。通过对重症医学领域MIMIC数据集及其挖掘分析初步研究,笔者建议:

(1)临床大数据信息集成管理与利用分析是医疗大数据应用的重点内容,专门领域数据深度挖掘是临床大数据发展的重要方向。

(2)我国医疗行业大数据应用还处于初级水平,在数据集成和数据标准化方面仍存在很大差距,需要引起重视。

(3)MIMIC数据集拥有真实、丰富、完整的病人大数据,可以有效地进行临床决策,能够对具体疾病发展进行影响因素分析,预测疾病发展趋势。

(4)伴随人工智能技术发展,医学语义分析、机器学习模型与深度学习技术应用,大数据应用分析能对医学临床科研产生突破性进展,结合AI技术的专科大数据应用是今后临床大数据发展需要关注的重要方向。

【作者简介】

郑西川,上海交通大学附属第六人民医院计算机中心主任、教授级高工。上海交通大学医学院生物医学工程专业硕士研究生导师,苏州大学放射医学与公共卫生学院生物医学工程专业硕士研究生导师。中国医院协会信息管理专业委员会 (CHIMA)委员;中国医药信息学会(CMIA)委员;上海市医院协会信息管理专业委员会委员;中国医药信息学会上海分会常委;中国生物医药技术协会医药信息分会常委;《医疗卫生装备》杂志特约审稿专家。

研究方向:①基于PACS电子病历的临床信息共享;②HL7/XML电子转诊相关技术及应用研究;③ 区域临床信息共享及协同医疗信息技术研究;④数字化医院的相关标准及实现技术。

近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多项。发表论文40余篇。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180820B1C1A300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券