Petuum新研究助力临床决策:使用深度学习实现自动ICD编码

原标题:学界 | Petuum新研究助力临床决策:使用深度学习实现自动ICD编码

Petuum 专栏

作者:Haoran Shi、Pengtao Xie、Zhiting Hu、Ming Zhang、Eric P. Xing

机器之心编译

在过去一年中,我们看到了很多某种人工智能算法在某个医疗检测任务中「超越」人类医生的研究和报道,例如皮肤癌、肺炎诊断等。如何解读这些结果?他们是否真正抓住医疗实践中的痛点、解决医生和病人的实际需要? 这些算法原型如何落地部署于数据高度复杂、碎片化、异质性严重且隐含错误的真实环境中?这些问题常常在很多「刷榜」工作中回避了。事实上,从最近 IBM Watson 和美国顶级医疗中心 MD Anderson 合作失败的例子可以看出,人工智能对医疗来说更应关注的任务应该是如何帮助医生更好地工作(例如生成医疗图像报告、推荐药物等),而非理想化地着眼于取代医生来做诊断,并且绕开这个终极目标(暂且不论这个目标本身是否可行或被接受)之前各种必须的铺垫和基础工作。因此与人类医生做各种形式对比的出发点本身有悖严肃的科学和工程评测原则。这些不从实际应用场景出发的研究,甚至无限放大人机对战,对人工智能研究者、医疗从业者和公众都是误导。

知名人工智能创业公司 Petuum 近期发表了几篇论文,本着尊重医疗行业状况和需求的研究思路,体现出了一种务实风格,并直接应用于他们的产品。为更好地传播人工智能与医疗结合的研究成果,同时为人工智能研究者和医疗从业者带来更加实用的参考,机器之心和 Petuum 将带来系列论文介绍。本文是该系列第二篇,介绍了使用深度学习实现自动 ICD 编码。

国际疾病分类(ICD/International Classification of Diseases)是由世界卫生组织维护的一个医疗分类系统,提供了疾病、病症、损伤、体征、症状等的诊断代码分级。它在报告疾病和健康情况、协助医疗报销决策、收集发病率和死亡率统计数据等方面有着广泛的应用。

尽管 ICD 编码对制定临床和财务决策而言非常重要,但医疗编码(medical coding,即在患者就诊时为其分配正确的 ICD 编码)很耗时、易出错且成本高昂。医疗编码人员需要查阅医生对一次临床事件用文本短语和句子写的诊断描述以及(如有必要)电子病历中的其它信息,然后再按照编码指导以人工的方式分配合适的 ICD 编码。这个过程中有几种常出现的错误。首先,医生在写诊断描述时常常使用缩写和同义词,这会导致编码人员在将 ICD 编码与这些标签匹配时出现混淆和不准确的情况。其次,在很多情况中,多种诊断描述是紧密相关的,应该结合组成一个单个的组合 ICD 编码。但是,经验不足的编码人员可能会单独给每种疾病编码。这种错误被称为未绑定(unbundling)。第三,ICD 编码是以分层的结构组织的,其中上层编码表示范围宽泛的疾病类别,下层编码表示更特定的疾病。当编码人员将诊断描述匹配到了一个过于宽泛的编码,而不是更加特定的编码,就会出现误编码的情况。据估计,美国每年为了提升编码质量的财务支出高达 250 亿美元。

为了减少编码错误并降低成本,我们的目标是开发一种能自动且准确地将自由文本书写的诊断描述转译成 ICD 编码的 ICD 编码机器。这一目标的实现需要解决如下一些技术难题。首先,即使指的是同一种疾病,医生写的诊断描述和 ICD 编码的文本描述的书写风格也差异很大。具体而言,ICD 编码的定义非常正式和精确,而医生写的诊断描述往往不太正式,有时也会不符合语法规则,或者带有指代其它内容的短语、缩写甚至书写错误。其次,如前所述,在诊断描述和 ICD 编码之间并不一定存在一对一的映射关系,人类编码人员在分配编码时应该考虑整体的健康情况。在很多情况下,两个紧密相关的诊断描述需要被映射至单个的组合 ICD 编码。另一方面,医生可能会将两个健康状况写入同一个诊断描述中;在这种情况下,这个诊断描述需要被映射到两个 ICD 编码。

论文:使用深度学习实现自动 ICD 编码(Towards Automated ICD Coding Using Deep Learning)

论文地址:https://arxiv.org/abs/1711.04075

摘要:国际疾病分类(ICD)是一个权威的医疗分类系统,其中包含了不同的疾病和健康状况,可应用于临床和管理。因为根据整体诊断情况为每位就诊病人分配正确编码的过程很复杂且需要专门处理,所以我们考虑到这一点而提出了一种带有注意机制的分层深度学习模型,该模型可以根据写出的诊断自动分配 ICD 诊断编码。我们使用了可感知字符的神经语言模型来生成所写诊断描述和 ICD 编码的隐含表征,并且还设计了一种注意机制来处理描述的数量和编码数量之间的不匹配问题。我们的实验结果表明根据诊断描述自动匹配 ICD 编码有很大的潜力。我们最好的模型的 F1 分数和受试者工作特征(ROC)的曲线下面积(area under curve)分别达到了 0.53 和 0.90。这个结果优于使用不可感知字符的编码方法或没有注意机制的方法所得到的结果。这表明我们提出的深度学习模型可以相当好地自动编码并为计算机辅助 ICD 编码提供了一个框架。

贡献

我们提出了一种用于根据诊断描述自动执行 ICD 编码的深度学习方法。具体而言,我们提出了一种分层的神经网络模型,其可以得到 ICD 定义和诊断描述的潜在语义,尽管这两者的书写风格存在显著差异。我们设计了注意机制来解决诊断描述数量和被分配的编码数量之间的不匹配问题。我们在 8066 份医院就诊数据上训练了该模型,并在 1728 份就诊数据上对超参数进行了调整,还在保留的 1729 份医院就诊数据构成的测试集上对该模型的表现进行了评估。实验表明我们的编码机器可以准确地分配 ICD 编码。

方法

数据集和预处理

表 1 给出了原始数据集中就诊记录的样本以及提取出的诊断描述。

表 1:来自 MIMIC-III 数据集的一个就诊数据样本

图 1(a) 给出了提取出的纯文本诊断描述的数量在病历上的分布情况。在将我们的 ICD 编码目标限制到前 50 种最常见的编码之后,得到的 ICD 编码频率的分布如图 1(b) 所示,每个就诊记录所分配编码的数量的分布在图 1(c) 给出。我们将整个数据集分成了包含 8066 份医院就诊记录的训练集、包含 1728 份记录的验证集和包含 1729 份记录的测试集。

本文来自企鹅号 - 凤凰网媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

研究人员找到“绑架”神经网络的方法

【概要】谷歌的研究人员找到了一种方法,可以“绑架”神经网络,迫使它去完成计划之外的任务。

1002
来自专栏大数据文摘

新一季《权力的游戏》谁又要挂掉?算法神预测龙妈要去领盒饭了!

1884
来自专栏机器之心

教程 | 如何用Python和机器学习炒股赚钱?

选自Hackernoon 作者:Gaëtan Rickter 机器之心编译 参与:熊猫 相信很多人都想过让人工智能来帮你赚钱,但到底该如何做呢?瑞士日内瓦的一位...

47813
来自专栏AI研习社

AI Challenger 2018 即将进入决赛,八大数据集抢先看

雷锋网(公众号:雷锋网) AI 研习社消息,由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主...

934
来自专栏大数据挖掘DT机器学习

深度学习的GPU:深度学习中使用GPU的经验和建议

深度学习是一个计算需求强烈的领域,您的GPU的选择将从根本上决定您的深度学习体验。在没有GPU的情况下,这可能看起来像是等待实验结束的几个月,或者运行一天或更长...

46211
来自专栏AI科技大本营的专栏

人工智能在医疗领域的实践精选

导读:随着机器学习的不断发展,医疗领域也在发生巨大的变革,下面我们将对人工智能在医疗领域的实践做一个简单的介绍。 “数据挖掘即为深入分析数据直到得出满意结果的过...

2804
来自专栏机器学习算法与Python学习

干货 | 台大“一天搞懂深度学习”课程PPT(下载方式见文末!!)

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 Deep Learing Tutor...

7084
来自专栏网络

Arxiv网络科学论文摘要14篇

祝大家新年快乐! 意见动态中的交叉问题团结与真相收敛; 普查与第二定律:美国众议院最优分摊的熵权法; 基于主体的模型的特征; Power Plexus:基于网络...

1858
来自专栏AI2ML人工智能to机器学习

机器学习模型常见对比

在“R语言和表数据分析”, 我们对常见的数据预处理流程给出一个大致的解决方案, 在这个基础上, 才能很好的谈数据质量data quality, 否则只是Garb...

932
来自专栏CDA数据分析师

访谈 | 与吉林大学统计系教授聊聊时间序列分析

本文由经管之家CDA数据分析师独家整理,转载请注明来源 前不久,经管之家邀请到了吉林大学数据学院概率统计系教授朱复康博士参与了论坛的线上互动问答,与广大坛友就时...

20010

扫码关注云+社区