Petuum新研究助力临床决策:使用深度学习实现自动ICD编码

原标题:学界 | Petuum新研究助力临床决策:使用深度学习实现自动ICD编码

Petuum 专栏

作者:Haoran Shi、Pengtao Xie、Zhiting Hu、Ming Zhang、Eric P. Xing

机器之心编译

在过去一年中,我们看到了很多某种人工智能算法在某个医疗检测任务中「超越」人类医生的研究和报道,例如皮肤癌、肺炎诊断等。如何解读这些结果?他们是否真正抓住医疗实践中的痛点、解决医生和病人的实际需要? 这些算法原型如何落地部署于数据高度复杂、碎片化、异质性严重且隐含错误的真实环境中?这些问题常常在很多「刷榜」工作中回避了。事实上,从最近 IBM Watson 和美国顶级医疗中心 MD Anderson 合作失败的例子可以看出,人工智能对医疗来说更应关注的任务应该是如何帮助医生更好地工作(例如生成医疗图像报告、推荐药物等),而非理想化地着眼于取代医生来做诊断,并且绕开这个终极目标(暂且不论这个目标本身是否可行或被接受)之前各种必须的铺垫和基础工作。因此与人类医生做各种形式对比的出发点本身有悖严肃的科学和工程评测原则。这些不从实际应用场景出发的研究,甚至无限放大人机对战,对人工智能研究者、医疗从业者和公众都是误导。

知名人工智能创业公司 Petuum 近期发表了几篇论文,本着尊重医疗行业状况和需求的研究思路,体现出了一种务实风格,并直接应用于他们的产品。为更好地传播人工智能与医疗结合的研究成果,同时为人工智能研究者和医疗从业者带来更加实用的参考,机器之心和 Petuum 将带来系列论文介绍。本文是该系列第二篇,介绍了使用深度学习实现自动 ICD 编码。

国际疾病分类(ICD/International Classification of Diseases)是由世界卫生组织维护的一个医疗分类系统,提供了疾病、病症、损伤、体征、症状等的诊断代码分级。它在报告疾病和健康情况、协助医疗报销决策、收集发病率和死亡率统计数据等方面有着广泛的应用。

尽管 ICD 编码对制定临床和财务决策而言非常重要,但医疗编码(medical coding,即在患者就诊时为其分配正确的 ICD 编码)很耗时、易出错且成本高昂。医疗编码人员需要查阅医生对一次临床事件用文本短语和句子写的诊断描述以及(如有必要)电子病历中的其它信息,然后再按照编码指导以人工的方式分配合适的 ICD 编码。这个过程中有几种常出现的错误。首先,医生在写诊断描述时常常使用缩写和同义词,这会导致编码人员在将 ICD 编码与这些标签匹配时出现混淆和不准确的情况。其次,在很多情况中,多种诊断描述是紧密相关的,应该结合组成一个单个的组合 ICD 编码。但是,经验不足的编码人员可能会单独给每种疾病编码。这种错误被称为未绑定(unbundling)。第三,ICD 编码是以分层的结构组织的,其中上层编码表示范围宽泛的疾病类别,下层编码表示更特定的疾病。当编码人员将诊断描述匹配到了一个过于宽泛的编码,而不是更加特定的编码,就会出现误编码的情况。据估计,美国每年为了提升编码质量的财务支出高达 250 亿美元。

为了减少编码错误并降低成本,我们的目标是开发一种能自动且准确地将自由文本书写的诊断描述转译成 ICD 编码的 ICD 编码机器。这一目标的实现需要解决如下一些技术难题。首先,即使指的是同一种疾病,医生写的诊断描述和 ICD 编码的文本描述的书写风格也差异很大。具体而言,ICD 编码的定义非常正式和精确,而医生写的诊断描述往往不太正式,有时也会不符合语法规则,或者带有指代其它内容的短语、缩写甚至书写错误。其次,如前所述,在诊断描述和 ICD 编码之间并不一定存在一对一的映射关系,人类编码人员在分配编码时应该考虑整体的健康情况。在很多情况下,两个紧密相关的诊断描述需要被映射至单个的组合 ICD 编码。另一方面,医生可能会将两个健康状况写入同一个诊断描述中;在这种情况下,这个诊断描述需要被映射到两个 ICD 编码。

论文:使用深度学习实现自动 ICD 编码(Towards Automated ICD Coding Using Deep Learning)

论文地址:https://arxiv.org/abs/1711.04075

摘要:国际疾病分类(ICD)是一个权威的医疗分类系统,其中包含了不同的疾病和健康状况,可应用于临床和管理。因为根据整体诊断情况为每位就诊病人分配正确编码的过程很复杂且需要专门处理,所以我们考虑到这一点而提出了一种带有注意机制的分层深度学习模型,该模型可以根据写出的诊断自动分配 ICD 诊断编码。我们使用了可感知字符的神经语言模型来生成所写诊断描述和 ICD 编码的隐含表征,并且还设计了一种注意机制来处理描述的数量和编码数量之间的不匹配问题。我们的实验结果表明根据诊断描述自动匹配 ICD 编码有很大的潜力。我们最好的模型的 F1 分数和受试者工作特征(ROC)的曲线下面积(area under curve)分别达到了 0.53 和 0.90。这个结果优于使用不可感知字符的编码方法或没有注意机制的方法所得到的结果。这表明我们提出的深度学习模型可以相当好地自动编码并为计算机辅助 ICD 编码提供了一个框架。

贡献

我们提出了一种用于根据诊断描述自动执行 ICD 编码的深度学习方法。具体而言,我们提出了一种分层的神经网络模型,其可以得到 ICD 定义和诊断描述的潜在语义,尽管这两者的书写风格存在显著差异。我们设计了注意机制来解决诊断描述数量和被分配的编码数量之间的不匹配问题。我们在 8066 份医院就诊数据上训练了该模型,并在 1728 份就诊数据上对超参数进行了调整,还在保留的 1729 份医院就诊数据构成的测试集上对该模型的表现进行了评估。实验表明我们的编码机器可以准确地分配 ICD 编码。

方法

数据集和预处理

表 1 给出了原始数据集中就诊记录的样本以及提取出的诊断描述。

表 1:来自 MIMIC-III 数据集的一个就诊数据样本

图 1(a) 给出了提取出的纯文本诊断描述的数量在病历上的分布情况。在将我们的 ICD 编码目标限制到前 50 种最常见的编码之后,得到的 ICD 编码频率的分布如图 1(b) 所示,每个就诊记录所分配编码的数量的分布在图 1(c) 给出。我们将整个数据集分成了包含 8066 份医院就诊记录的训练集、包含 1728 份记录的验证集和包含 1729 份记录的测试集。

本文来自企鹅号 - 凤凰网媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

机器学习算法检测分析辐射损伤,速度和准确率均胜过人类

威斯康星大学麦迪逊分校和橡树岭国家实验室的研究人员训练计算机,使其快速一致地检测和分析核反应堆材料的微观辐射损伤,并且计算机在这项艰巨的任务中表现胜过人类。

832
来自专栏机器之心

让人工智能发明自己的语言:OpenAI语言理解研究新方向

选自OpenAI 作者:Igor Mordatch 等 机器之心编译 参与:李泽南、蒋思源、微胖、黄小天 在本文中,OpenAI 展示了自己的新研究,让人工智能...

3147
来自专栏专知

自动驾驶的“大脑”——决策规划篇

自动驾驶的“大脑”——决策规划篇 中国人工智能系列白皮书-智能驾驶2017 ▌决策规划技术概述 ---- 智能汽车 ( Intelligent Vehic...

4648
来自专栏机器之心

讨论 | Reddit热门话题:你是否也对NLP的现状感到失望?

3386
来自专栏人工智能快报

人工智能将重力透镜分析速度提升千万倍

美国国家加速器实验室(SLAC)和斯坦福大学的研究人员表示,脑模拟的“神经网络”可以改变天体物理学家分析其最复杂数据的方式,包括对我们对宇宙理解至关重要的时空极...

3408
来自专栏人工智能快报

谷歌科研人员提出单样本机器学习技术

在看到某个物体一到两次之后,我们大多数人都能认出来。但支持计算机视觉和语音识别功能的算法却需要接触数千个例子,才能对新的图像或词语变得熟悉。 现在,谷歌Deep...

2755
来自专栏Vamei实验室

统计01:概述

完成了概率论之后,数据之旅的下一站就是统计。统计是研究数据的学科。它包括了数据很多方面,比如如何描述数据、如何通过抽样推测整体的信息、如何通过数据判断假设的真伪...

1817
来自专栏AI研习社

OpenAI 尝试打破“中文房间悖论”,让 AI 创造语言并自发交流

大规模机器学习技术已经在翻译、语言推理、语言理解、句子生成等领域取得巨大进展,而它的训练方式都大同小异: 给系统输入大量文本数据; 系统提取特征并提炼模式。 ...

34211
来自专栏AI科技评论

论文 | 斯坦福视觉实验室最新研究:人眼移动也可以用来探测病情!?

通过眼睛-移动基于视觉进行发育障碍分类 联合编译:章敏,陈杨英杰 摘要 本论文提出了一种可以将发育障碍进行细粒度分类的系统,它通过使用多模态视觉数据测量个人的眼...

3147
来自专栏量子位

这里是强化学习入门,的入门 | 绝对新手友好

强化学习是机器学习里面非常重要的一个派别。智能体 (agent) 会不断执行一些操作,通过结果来学习,在不同的环境中分别应该采取怎样的行动。

962

扫码关注云+社区