动态 | 谷歌开源FHIR标准协议缓冲工具,利用机器学习预测医疗事件

AI科技评论按:在上月 26 日,谷歌在 arXiv 上发表的一篇论文《Scalable and accurate deep learning for electronic health records》( Alvin Rajkomar et al.)。文中他们提出基于快速医疗保健互操作性资源(FHIR)格式的患者 EHR 原始记录表示,利用深度学习的方法,准确预测了多起医疗事件的发生。

论文摘要如下:

使用电子健康记录(EHR)数据的预测建模预计将推动个人化医疗并提高医疗质量。构建预测性统计模型通常需要从规范化的 EHR 数据中提取策略预测变量,这是一种劳动密集型过程,且放弃了患者记录中绝大多数信息。我们提出基于快速医疗保健互操作性资源(FHIR)格式的患者全部 EHR 原始记录的表示。我们证明使用这种表示方法的深度学习方法能够准确预测来自多个中心的多个医疗事件,而无需特定地点的数据协调。我们使用来自两个美国学术医疗中心的去识别的 EHR 数据验证了我们的方法,其中 216,221 位成年患者住院至少 24 小时。在我们提出的序列格式中,这一块EHR数据总计包含了46,864,534,945个数据点,包括临床说明。深度学习模型对预测院内死亡率(AUROC 跨站点 0.93-0.94),30 天无计划再入院率(AUROC 0.75-0.76),延长住院时间(AUROC 0.85-0.86)以及所有患者的最终诊断(频率加权 AUROC 0.90)等取得了极高的准确度。在所有情况下,这些模型的表现都优于传统的预测模型。我们还介绍了一个神经网络归因系统的案例研究,该系统说明临床医生如何获得预测的一些透明度。我们相信,这种方法可以为各种临床环境创建准确的、可扩展的预测,且附有在患者图标中直接高亮证据的解释。

在这项研究过程中,他们认为若想大规模的实现机器学习,则还需要对 FHIR 标准增加一个协议缓冲区工具,以便将大量数据序列化到磁盘以及允许分析大型数据集的表示形式。

昨天,谷歌发布消息称已经开源该协议缓冲区工具。下面为谷歌博文内容:

过去十年来,医疗保健的数据在很大程度上已经从纸质文件中转变为数字化为电子健康记录。但是要想理解这些数据可能还存在一些关键性挑战。

  • 首先,在不同的供应商之间没有共同的数据表示,每个供应商都在使用不同的方式来构建他们的数据;
  • 其次,即使使用同一个供应商网站上的数据,可能也会有很大的不同,例如他们通常对相同的药物使用多种代码来表示;
  • 第三,数据可能分布在许多不同表格中,这些表格有些存在交集,有些包含着实验数据,还有些包含着一些生命体征。

采用至少一个基本电子病历系统并拥有经过认证的电子病历系统的非联邦急性护理医院的百分比。Basic 的电子健康记录( Electronic Health Record ,EHR)满足 EHR 系统的基本功能,Certified EHR 表示医院已经与 EHR 有法律协议,但不等同于采用了EHR系统。

快速医疗保健互操作性资源(Fast Healthcare Interoperability Resources,FHIR)作为一项标准草案,描述的是用于交换电子病历数据格式和数据元以及应用程序界面,该标准由医疗服务标准组织 Health Level Seven International 制定。这项标准已经解决了这些挑战中的大多数:它具有坚实的、可扩展的数据模型,建立在既定的 Web 标准之上,并且正在迅速成为个人记录和批量数据访问中事实上的标准。但若想实现大规模机器学习,我们还需要对它做一些补充:使用多种编程语言的工具,作为将大量数据序列化到磁盘的有效方法以及允许分析大型数据集的表示形式。

今天,我们很高兴开源了 FHIR 标准的协议缓冲区工具,该工具能够解决以上这些问题。当前的版本支持 Java 语言,随后很快也将支持 C++ 、Go 和 Python 等语言。另外,对于配置文件的支持以及帮助将遗留数据转换为 FHIR 的工具也将很快推出。

开源地址:https://github.com/google/fhir

协议缓冲区工具:https://developers.google.com/protocol-buffers/

FHIR 作为核心数据模型

在过去几年中,我们一直在与学术医疗中心进行合作,利用机器学习的方法「去识别」(de-identified)医疗记录(即剥离任何个人身份信息,以预测未来可能的情况,可以在症候出现前预知患者的需求。),很明显我们需要正视医疗保健数据中的复杂性。事实上,机器学习对于医疗数据来说非常有效,因此我们希望能够更加全面地了解每位患者随着时间的推移发生了什么。作为红利,我们希望拥有一个能够直接应用于临床环境的数据表示。

尽管 FHIR 标准能够满足我们的大多数的需求,但是使用医疗数据将比“传统”的数据结构更容易管理,并且实现了对立于供应商的大规模机器学习。我们相信缓冲区的引入可以帮助应用程序开发人员(机器学习相关)和研究人员使用 FHIR。

协议缓冲区的当前版本

我们已经努力使我们的协议缓冲区表示能够通过编程式访问以及数据库查询。提供的一个示例显示了如何将 FHIR 数据上传到 Google Cloud 的 BigQuery(注:BigQuery 是 Google 专门面向数据分析需求设计的一种全面托管的 PB 级低成本企业数据仓库。)并将其提供给外部查询。我们也正在添加其他直接从批量数据导出并上传的示例。我们的协议缓冲区遵循 FHIR 标准(它们实际上是由 FHIR 标准自动生成的),但也可以采用更优雅的查询方式。

目前的版本还没有包括对训练 TensorFlow 模型提供支持,但未来将更新。我们的目标是尽可能地开源我们最近的工作,以帮我们的研究,使其更具可重复性并能够适用于现实世界的场景当中。此外,我们正与 Google Cloud 中的同事进行密切合作,研究更多用于管理医疗保健数据的工具。

via Google Blog,AI 科技评论编译。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-03-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

工业机器人的视觉系统该如何选择?

机器视觉软件是检测系统中的智能部分,也是最核心的部分。软件的选择决定了你编写调试检测程序的时间、检测操作的性能等等。 1.摄像头和光学部件 这一类通常含有一个或...

3218
来自专栏ACM算法日常

新手入门 | 算法书籍推荐

公众号设立以来,很多同学都在问如何入门、提高,以及有什么好的算法书籍可以学习。这周空闲时间我就大概在网上整理了一下,由于每个人的性格、学习习惯都不...

1002
来自专栏FreeBuf

走近科学:隐藏在图像数据库中的安全问题

本文原刊登于IEEE IT Professional杂志。 由于系统改造的代价之高,使用适于系统设计的网络安全措施则是最好的选择。而新科技和应用则带来更多安全与...

19110
来自专栏熊二哥

项目管理快速入门02--“多快好省”

项目管理最重要的四个要素就是jd的口号,“多快好省”,当然这是不可能的,哈哈。 多:项目范围管理 快:项目时间管理 好:项目质量管理 省:项目成本管理 这部分内...

20210
来自专栏人人都是极客

如果无人驾驶是未来,程序员该如何入门?

为什么需要无人驾驶? 首先我们探讨下无人驾驶能如何提高人类社会的效率。 第一是无人驾驶对环境的影响:每辆传统车每年平均排放 5 吨二氧化碳,以美国为例有 2.5...

2897
来自专栏WeTest质量开放平台团队的专栏

腾讯内部揭秘:游戏留存的隐藏杀手!

近日。在腾讯内部分享会上,游戏数据分析组的高级游戏测试工程师为我们分享了质量数据分析对于游戏留存的影响。让我们更加深入的了解游戏质量数据分析的重要地位。

763
来自专栏量子位

眼擎科技CEO朱继志:如何设计自动驾驶的视觉成像系统 | 吃瓜笔记

882
来自专栏AI科技评论

动态 | MIT CSAIL最新研究:将AI应用于流媒体视频,可获得更好的播放体验

AI科技评论按:在网上看视频时,缓冲或色块问题时有发生,极其影响观看体验。现在,MIT计算机科学与人工智能实验室(CSAIL)利用神经网络算法,最大化地缓解了这...

3498
来自专栏IT大咖说

AR,离我们并不遥远

摘要 AR,增强现实,这项技术离我们并不遥远。从AR游戏到AR红包,我们已经开始体验到这项技术的魅力,而AR在商业方面也已经开始崭露头角。这场演讲将从团队构成、...

3366
来自专栏新智元

微软首席研究员童欣:深度学习将席卷计算机图形,VR/AR爆发临近

【新智元导读】微软亚洲研究院网络图形组培养了一大批中国图形学的人才。其首席研究员童欣,内部人称“童姥”,近日接受了新智元专访。在微软做了近20年图形的他认为,计...

36811

扫码关注云+社区