首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

手把手教你EHR数据分析1

写在最前面

这是个准备了一段时间的系列专题,更准确的说,是我自己整理的一些学习笔记和思考。在正式开始之前,先做几点说明。

01

可能适合的读者群体

有兴趣利用电子病历(Electronic Health Record, EHR)数据开展临床研究解决临床问题的医生;

有志于开展EHR数据研究的工程师/数据科学家;

对这一领域感兴趣的任何人。

02

为什么要写这个专题

首先,本人水平有限,目的重在学习和交流。

这毕竟是一个相对较新的领域,而且当前的行业大背景,国内充斥了很多鼓吹概念、纯靠忽悠的团队和资讯,“鱼龙混杂”是一个比较好的比喻。而临床研究由于涉及到可能对诊疗行为产生影响,本身有非常严格的方法论体系,这并不会因为新技术、新数据来源就会发生改变的。如何对数据质量进行评价,如何对结果进行解读,都是非常重要的问题。也期待能利用这个平台,与感兴趣的同道进行交流学习。

03

更新的频率?

初步计划每周更新一次,以实际应用案例为主,穿插理论和方法整理。

考虑到平时还有临床工作,初步计划每周更新一次。将会以实际的研究案例为主,中间穿插一些理论和方法的整理。对于医生群体,会介绍一些相对技术的话题,例如常用的sql语句,基本的数据处理方法;对于工程师/数据科学家,则会阐述一些基本的临床研究方法论,以及对结果的解读等。

04

数据的来源

虽然目标读者应该具备一定的获取EHR数据能力,但考虑到目前在国内,取得EHR数据还是存在一定困难,因此会从利用开源数据库开始。但中间会穿插如何利用自己手中EHR数据开展研究的内容。

05

大纲

因为是边写边整理,边做边梳理,所以还没有一个最终确定的大纲,下面是基本的一些计划,会在过程中进行调整与逐步完善。

前言......................................就是这一篇了

基本的数据准备....................2-3篇,介绍MIMIC数据库的准备

EHR数据中的混杂................1篇,数据质量,以及如何避免错误

常用基础sql语句...................1篇,帮助临床医生从MIMIC提取数据

如何定义研究问题.................1篇

EHR患者队列定义................1篇

数据准备和预处理.................2-3篇

缺失值和填补........................1篇

实际研究案例........................1-2篇

机器学习常用方法与应用......2-3篇

06

为什么要对EHR数据进行分析?

随着电子病历和医疗信息化的发展,临床研究其实也在经历一些潜移默化的转变。走过历史的长河,经历无数血泪和生命的教训,临床医学能走到今天这一步,绝对离不开充分的临床研究证据支持。无论对于医生、患者还是国家,提高更好的医疗服务水平应该是永恒的目标。

然而事实上,许多临床上正在进行的治疗方法都缺乏证实其优效性的证据,不仅如此,甚至很多治疗不仅无益反而有害。越来越多的学会组织都在推广临床指南,帮助医生开展临床决策、规范诊疗行为。然而遗憾的是,经过了多年的努力,依然只有有限的证据能够用来制定指南。不仅如此,指南多数证据来源于有限样本的RCT研究,而通常又有着严格的入选与排除标准,不可避免的会影响其结论的外部真实性。有数据统计,作为临床研究金标准的RCT研究,仅支持了10-20%的医疗决策,而大多数临床决策根本就没有RCT研究证据支持。而且,由于诸如预算及人员等种种限制,医生在真实诊疗环境中面临的大量需要决策的情况,根本无法开展随机研究。正是面临以上种种困境,医生与研究人员必须学会如何利用已经存在的数据利器——EHR,以便从中发掘临床证据。

医疗产业以飞快的速度进入电子化,无论是中国还是美国,绝大多数的医疗机构现在都依赖于信息系统。现代医疗信息化每时每刻都在产生并存储着海量的与患者临床诊疗相关的数据。但很遗憾的是,这些真实世界的数据中,只有非常少的一部分被利用起来以拓展并支持医疗改进,造成这样局面的原因众多,但最核心的,还是种种原因导致研究者无法获取这部分数据。总结起来,就是**“合适的人无法在合适的时间地点利用合适的数据”**。因此,提高这些数据的可及性,并对其进行整合,将有助于更多研究者回答许多临床场景下的关键问题。

过去5-10年里,绝大多数使用大型数据库的研究都有赖于医院出院记录与注册登记数据。一方面,医院的出院记录数据最初是以付费为目的产生,因此缺乏患者层面足够的颗粒度,无法提供准确、有用及足够完整的数据来解决复杂的临床问题。另一方面,注册登记数据库大多缺少目的性,并且需要拓展外部数据的收集。因此,未来的临床研究需要充分利用已有的大数据来提高临床诊疗质量,EHR数据无疑是一个很好的资源。

但另一方面,EHR的数据对于任何个人来说,都异常复杂并且永远存在缺失的问题。因此,EHR数据无法回答所有临床问题,而且由于观察性研究本身存在的局限性,在对研究结果进行解释时一定要慎重。实际上,往往这种研究结果只能作为辅助的证据支持,其更重要的意义在于可以以更低的成本、更快的速度来指导后续严格的临床试验,并得出靠谱的结论。

07

参考书目

推荐大家一定要读的,是由MIT Critical Data(http://criticaldata.mit.edu/)实验室编写的《Secondary Analysis of Electronic Health Records》(https://link.springer.com/book/10.1007/978-3-319-43742-2)

该实验室隶属于麻省理工大学,专注于与健康最密切的重要数据的研究。该书作为2016.HST.953这门同名课程的教材,旨在培养下一代数据科学家,让基于日常诊疗产生的健康数据发挥更大的价值。

更新的过程中,我会在每篇附上推荐的阅读材料。

下期预告:可用的数据集准备(1)

MIMIC-III与eICU数据集的简单介绍,以及如何获取数据使用权。

本文作者:李昱熙,北京大学第一医院心内科主治医师

苹果用户可长按上方二维码赞赏

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180208G1F15U00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券