前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >匿名电子病例信息不全?深度学习能更好的判断出种族(代码开源)

匿名电子病例信息不全?深度学习能更好的判断出种族(代码开源)

作者头像
量子位
发布2018-03-28 16:35:54
7320
发布2018-03-28 16:35:54
举报
文章被收录于专栏:量子位量子位量子位
问耕 发自 凹非寺 量子位 报道 | 公众号 QbitAI

匿名电子病历(EMR)是越来越受欢迎的研究数据来源。然而,这些数据集通常缺少人种和种族信息。这给人类疾病的研究人员造成了困扰,因为人种和种族对许多健康风险和治疗结果有着重要的影响,另外也跟人口特异性遗传变异密切相关。

为此,来自普林斯顿大学的Ji-Sung Kim,以及来自芝加哥大学的Andrey Rzhetsky共同展开了一项新的研究,并把研究工具RIDDLE进行了开源。

RIDDLE是一个开源的Python2库,用于使用深度学习方式在匿名电子病历中估算人种和种族信息。

Kim和Rzhetsky使用了来自芝加哥和纽约的EMR数据集,总共描述了超过150万名患者,约有1.5万个特征,包括:性别、年龄、临床事件观察(编号为ICD9代码)。

在这个研究中,他们发现深度神经网络比其他方法(例如逻辑回归、随机森林)能更准确的补全缺失的人种和民族信息,在所有考察标准上都得到了更好的分类性能:精度、交叉熵损失(误差)等。

实验结果表明,RIDDLE的平均精度为0.671,最高的两个准确度为0.865,测试数据的交叉熵损失为0.849,这个结果显著优于逻辑回归和随机森林分类器。

他们用这些训练过的神经网络模型来识别、量化和可视化预测人种和种族的医学特征,并使用这些特征来进行人种和种族差异性疾病模式的系统比较。事实上,临床病史对人种和种族的估算信息可能反映出:

  • 跨越种族和族裔的蓝领、白领职业的偏态分布
  • 可能的生活习惯变化,例如饮食习惯
  • 易患疾病的遗传背景和变异差异

RIDDLE通过运行并行化的TensorFlow/Theano后端来高效训练模型,以及使用预处理数据和分批训练的方式来避免内存溢出。

RIDDLE使用Keras来指定和训练潜在的深度神经网络,并用DeepLIFT来计算“特征到类别”的贡献值。

目前的RIDDLE Python模块与TensorFlow和Theano一起作为Keras的后端。默认架构是一个深度的多层感知器(深度MLP),使用二进制编码的特征和目标。当然,你可以自己编写model_module文件来指定任何神经网络架构和数据格式。

想要进一步了解RIDDLE,可以访问如下地址:

https://github.com/jisungk/riddle

相关论文可以访问这个地址查看:

https://arxiv.org/pdf/1707.01623.pdf

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-07-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问耕 发自 凹非寺 量子位 报道 | 公众号 QbitAI
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档