业界 | AI医疗新突破:增强罕见疾病的影像数据集,大幅提高识别准确率

选自Science Daily

机器之心编译

参与:晓坤

AI 特别是深度学习在提升医疗诊断的速度和准确率上拥有相当的潜力,但在临床医师可以驾驭 AI 的能力识别医学图像(例如 X 射线影像)中反映的疾病之前,他们需要先对模型进行大量训练,而罕见疾病标记图像的匮乏一直是深度学习医疗的一大障碍。现在,多伦多大学教授 Shahrokh Valaee 和他的团队设计了一种 AI 医疗领域中的新方法:使用生成对抗网络创建的 X 射线影像来增强 AI 训练集。实验表明,通过数据增强,无论对常见疾病还是罕见疾病,系统的识别准确率都有大幅提高。

Shahrokh Valaee 教授和博士生 Hojjat Salehinejad 正在使用机器学习创建虚拟 X 射线胸透影像来训练 AI 系统识别罕见疾病。摄影:Jess MacInnis

由于以监督学习方式训练 AI 系统的医学图像非常稀少,识别医学图像中的罕见疾病对于研究者而言一直是很有挑战的问题。

Shahrokh Valaee 教授和他的团队设计了一种新方法:使用机器学习创建计算机生成的 X 射线影像以增强 AI 的训练集。

在每个象限的左侧是一张真实的病人 X 射线胸透影像,其旁边是由 DCGAN 生成的合成 X 射线影像。在 X 射线影像的下方是对应的热图,是机器学习系统观察影像后得到的。图源:Hojjat Salehinejad/MIMLab

「在某种意义上,我们在使用机器学习来做机器学习,」多伦多大学 Edward S. Rogers 高级电气与计算机工程系(ECE)教授 Valaee 说。「我们正在创建模拟的但反映了特定罕见疾病的 X 射线影像,从而我们可以将它们和真实 X 射线影像结合起来,以得到足够规模的数据库,来训练神经网络在其它 X 射线影像上识别这些疾病。」

Valaee 是医学实验室机器智能(MIMLab)的成员,MIMLab 是一个由医师、科学家和工程研究员组成的团队,致力于将他们的专业知识结合到图像处理、人工智能和医学中以解决医学挑战。「AI 在医疗领域中有无数种方式能提供帮助,」Valaee 说,「为此我们需要大量数据。但对于某些罕见疾病,并没有让这些系统正常工作而必要的数千张标记图像。」

为了创建这些人工 X 射线影像,该团队使用了称为深度卷积生成对抗网络(DCGAN)的 AI 技术,来生成和不断提升模拟图像。GAN 是一类由两个网络构成的算法:一个网络生成图像,另一个尝试将合成图像和真实图像区分开来(判别器)。这两个网络被持续训练直到判别器无法将合成图像和真实图像区分。一旦创建了足够多的人工 X 射线影像,它们就和真实 X 射线影像结合起来以训练一个深度卷积神经网络(即分类器),然后该分类器用于对其它图像进行诊断(正常或有疾病)。

「我们的实验表明,由 DCGAN 生成的人工数据可以用于增强真实数据集,」Valaee 说。「这为我们提供了更多的训练数据,并提升了这些系统在识别罕见疾病上的性能。」

MIMLab 将用增强数据集获得的识别准确率和原始数据集获得的准确率进行对比,发现对于常见疾病,其识别准确率提高了 20%。对于某些罕见疾病,准确率提高了约 40%,并且由于合成的 X 射线影像不是源于真实的个体,该数据集可以轻易地提供给医院外的研究者,而不会侵犯个人隐私。

「这实在令人激动,通过证实这些增强数据集帮助提高了分类准确率,我们已经可以克服将人工智能应用到医疗中的一大障碍,」Valaee 说。「深度学习仅当训练数据足够多的时候才有效,而数据增强是可以确保神经网络能以高精度分类图像的一种方式。」

原文链接:https://www.sciencedaily.com/releases/2018/07/180706150816.htm

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-07-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

想成为机器学习工程师?这份自学指南你值得收藏

问耕 编译整理 量子位 出品 | 公众号 QbitAI 这篇文章的作者为Andrey Nikishaev,他既是一个软件开发者,也是一个创业者。 ? 如何成长为...

50250
来自专栏新智元

【让高中生掌握深度学习】掀起DL炼金术之争的Ali,这次要像教物理那样教深度学习

来源:argmin.net 作者:Ali Rahimi 【新智元导读】在NIPS 2017与LeCun论战,说深度学习是炼金术的Ali Rahimi,近日发表文...

419100
来自专栏AI科技评论

智能体的白日梦,谷歌大脑又出来PR文了?

智能体能否在梦中学习?Yes! 白日梦是人类的专属?No! 这是谷歌大脑的又一篇 PR 文章吗?难说~ AI 科技评论按:继前段时间在 arxiv 上贴出《on...

30860
来自专栏新智元

【无监督学习】我们如何教人类婴儿学习,也如何教AI

【新智元导读】这篇文章讨论了在深度学习中为什么高质量、有标签的数据如此重要,从哪里得到这些数据,以及如何有效使用它们。作者最后提出,解决训练数据缺乏的方法可以是...

34680
来自专栏吉浦迅科技

Facebook的三堂AI入门课

语音助理、智慧家电、购物推荐⋯⋯ 人工智能替我们的生活中带来便利,但却也让不少人担心人工智能发展到最后,是否会产生自主行为,形成电影中机器挑战人类的情节。 在图...

377140
来自专栏互联网数据官iCDO

评估归因模型供应商的6个问题

译者:互联网数据官志愿者 王全鹏 前言:如何选择正确的归因模型来进行营销效果评估?如何评估你的归因模型供应商?专栏作家 Alison Lohse 给出了6个问题...

411140
来自专栏机器之心

数学和编程能力,马维英说这是字节跳动AI Lab招人的首要准则

在开放日上,现场 Demo 展现了很多熟悉而又炫酷的应用。你知道怎样利用聚类算法和 CNN 从短视频从抽取最好看的小姐姐么?你知道怎样用单摄手机拍出柔顺的背景虚...

20730
来自专栏新智元

【干货】生成对抗式网络创始人Quora答疑

【新智元导读】还记得不久前LeCun在Quora答题时说的,他最激动的深度学习进展是“生成对抗网络”吗?生成对抗网络的提出者Ian Goodfellow日前也在...

371120
来自专栏大数据文摘

吴恩达李飞飞课程打卡召集令:2018我们一起变成更厉害的人!

17030
来自专栏机器学习算法工程师

《机器学习》笔记-绪论(1)

作者:刘才权 编辑:王抒伟 写在最前面 1 如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好...

35970

扫码关注云+社区

领取腾讯云代金券