临床科研大数据应用系列3:基于MIMIC-Ⅲ数据集的病人数据隐私保护技术及启示

导读

对于病人数据特别是非结构化病人数据去标识化的研究,能够促进医院临床科研整体水平的提升。

目前,医院信息化建设已形成内容丰富、数量庞大的临床科研数据资料,临床数据中心(CDR)以及大数据应用建设已成为医疗信息化建设的新趋势,医院临床信息的有效利用成为信息化建设新方向。由于临床科研需求的多样性,每个研究者对于临床数据的要求各不相同,涉及到的数据包括患者症状、诊断、用药、检查、检验、手术治疗等,既有结构化数据,也有电子病历自由文本、医学影像等非结构化数据。这些数据来自于不同的信息系统,涉及不同来源的数据组织融合,病人数据的隐私保护成为科研数据利用分析和临床数据共享的关键。

MIMIC-Ⅲ数据集包含2001-2012年间麻省理工贝斯以色列迪康医学中心重症监护室患者的真实医疗数据,面向全球研究者开放数据。MIMIC-Ⅲ数据集患者数据隐私保护完全符合HIPPA要求,采用计算机自动化算法对患者数据进行预处理,包括去标识化、日期移位以及格式转换等技术。MIMIC-Ⅲ数据集病人数据匿名化处理方法值得医院临床信息工作者在大数据临床科研信息处理中借鉴。

HIPAA 对患者隐私保护的要求

美国卫生及公共服务部明确禁止医疗实体使用和披露个人受保护健康信息(Protected Health Information,PHI),要求病人PHI在健康信息共享中不得泄露。HIPAA隐私条例规定:当医疗数据去除18种PHI信息后,数据发布过程中可忽略病人知情同意的授权。这18种PHI信息如表1所示。

表1 HIPAA隐私条例规定的18种PHI

MIMIC-Ⅲ患者数据去标识化方法

MIMIC数据库利用模式识别算法实现患者数据去标识化,本质上该算法适用于任何医疗文本。通过和查找表内容关键词比对、正则表达式和上下文检查的简单启发式算法来识别并移除PHI。在MIMIC-Ⅲ数据集中,除了HIPAA法案规定的PHI外,还移除了以下几种PHI:

任何个人的标识符,包括医护人员和探视人员;

医院、诊所和其他医疗机构的名字;

种族和公共节日,如圣诞节、光明节(犹太教假日)等。

上述PHI虽不能唯一地标识特定病人,但可以通过与其他有效的信息链接来推测出病人的敏感信息。

该算法的目前版本是针对MIMIC数据库的护士记录和出院总结进行去标识化处理,但是算法具有通用性,可以定制以适应于任何医疗文本。去标识化系统提供了模块化的设计和一个可配置的接口,以便用户启用和关闭每一个PHI滤波模块。

1、查找表对比去标识

MIMIC的去标识化算法使用了4种类型的查找表,如表2所示:

表2 去标识化算法使用的4种查找表

2、命名实体去标识

姓名和地名等非数值型的敏感信息通常称之为“命名实体”,其相对于数值型数据难以检测,姓名和地名也属于HIPAA规定的PHI,姓名直接代表了特定的病人,其信息泄露的危险性最高。

命名实体的去标识化过程首先逐行扫描医疗文本,根据空格进行分词,然后与已知PHI查找表进行关键词比对,直接识别住院病人和医护人员的姓名。由于姓名的误拼、昵称的使用和探视人员的姓名不在已知PHI查找表内,因此,还需与包含美国人口普查得到的常用姓名、医院名称等的潜在PHI查找表做关键词匹配识别潜在的命名实体。

得到的命名实体再根据是否出现在常用词典表和一体化医学语言系统中分为:有歧义类和无歧义类。其中,无歧义类直接被去除并替换为相应的标签,[**Name**]或[**Location**];有歧义类经过启发式算法的检查来决定是否是敏感信息,如一个有歧义的名字后面跟一个有歧义的姓氏,则两个都被认为是PHI,因此该模式符合英语姓名的特定模式()。除此之外,算法还利用正则表达式来识别带有特定指示符的姓名,如Mr、Dr、name is、steet等指示符。

3、日期平移

医疗记录里所有日期数据都是PHI,但是日期间隔(除了89岁以上的病人年龄)不是,而且日期间隔在MIMIC数据库里是重要的数据元素。由于日期格式一般较为固定,因此,算法采用正则表达式识别日期数据,并加上一个随机数偏移N来使日期数据迁移到未来的某个时间。为保证日期在医疗数据中的分析挖掘价值,该随机数N有以下几个重要的性质:

N是7的倍数,使得转换后的日期和真实日期有相同的工作日,允许对依赖星期的数据进行分析;

N是大约25的倍数,使得转换后的日期和真实日期有相同的季度,允许对季度性数据进行分析;

N是非常大的正数,使得转换后的日期在几个世纪后,避免了转换日期和真实日期混淆的可能,简化了从记录里识别和去除遗留真实日期数据的任务;

N对于一个病人的所有日期数据(除了可能的出生日期)都是相同的,但在病人之间是互不相同的。

4、数值类型的PHI去标识

对于电话号码、传真号、病历号和社会安全号码等包含数字模式的PHI,去标识化过程通过数字模式的正则表达式能够很容易地识别。然而,部分病人特性的数字标识符有可能代表临床数据,因此算法还必须检查特定数字格式的文本以排除诸如心率、血压的数字格式。例如:XXX-XXXX的数字格式通常会被认为是电话号码,但是当前面有医疗术语的时候,如SAR、VT、Tidal Volume时,这些数字格式就应被认为是临床数据而不加以去除。

5、超过89岁的年龄信息

超过89岁的病人年龄也是PHI,这类病人在住院病人中的比例通常很小,因此算法将超过89岁的病人统归为一类。首先算法搜索数字模式或者文本模式落在89-125范围的数字或文本,如95、ninety-five或者ninety five等。然后,上下文检查以确定候选PHI是否真正地表达患者年龄,只有上下文含age、years old、patient is等指示符的数字或文本才被确定为PHI。最后将该类PHI统一用[**Age over 89**]代替。

启示与结论

目前,医院临床数据中心CDR建设已成为医院信息化建设的重点,医院越来越重视临床数据利用分析。基于CDR、面向医院管理决策的应用已取得了初步效果,但在临床科研方面,电子病历的非结构化数据处理仍处于探索阶段。对于病人数据特别是非结构化病人数据去标识化的研究,能够推动临床专题科研病例数据库的建设,促进医院临床科研整体水平的提升。

MIMIC-Ⅲ数据集是面向全球自由访问的重症医学数据集,所有数据在发布前都进行了患者数据的去标识化处理,去标识化算法采用查找表方法,使查找表内容与软件代码分开,用户可自行配置,扩展查找表,具有扩展性和通用性。MIMIC-Ⅲ不仅移除了HIPAA法案规定的18种PHI,还移除了患者数据其他敏感信息,值得我们在医院科研数据库建设中借鉴。

【系列文章】

作者简介

郑西川,上海交通大学附属第六人民医院计算机中心主任、教授级高工。上海交通大学医学院生物医学工程专业硕士研究生导师,苏州大学放射医学与公共卫生学院生物医学工程专业硕士研究生导师。中国医院协会信息管理专业委员会 (CHIMA)委员;中国医药信息学会(CMIA)委员;上海市医院协会信息管理专业委员会委员;中国医药信息学会上海分会常委;中国生物医药技术协会医药信息分会常委;《医疗卫生装备》杂志特约审稿专家。

研究方向:①基于PACS电子病历的临床信息共享;②HL7/XML电子转诊相关技术及应用研究;③ 区域临床信息共享及协同医疗信息技术研究;④数字化医院的相关标准及实现技术。

近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多项。发表论文40余篇。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180912B07ZUO00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券