神经网络诊断皮肤癌超越人类专家?来自医疗界的这篇论文给出了证明

作者:European Society for Medical Oncology

机器之心编译

今日,一篇关于皮肤癌诊断的文章发表在医疗期刊《肿瘤学年鉴》(Annals of Oncology)上,这篇出自医疗界高级管理医师的研究首次表明:深度学习卷积神经网络(CNN)在检测皮肤癌方面的表现优于有经验的皮肤科医生。对比对象是来自 17 个国家的 58 位皮肤科医生,其中包括 30 位专家。

这是人工智能又一次在医疗图像识别上实现「超越人类」的水平。尽管如吴恩达这样的著名机器学习学者领导的 AI 医疗影像研究也正在受到质疑,但随着技术的发展,越来越多基于人工智能的医疗成果正在出现,此类技术或许很快就可以帮助我们更好地应对疾病。

研究人员首次表明,深度学习卷积神经网络(CNN)在检测皮肤癌方面的表现优于有经验的皮肤科医生。

今天发表在国际著名癌症期刊《肿瘤学年鉴》(Annals of Oncology)上的一项研究中,德国、美国和法国的研究人员使用 10 万多幅恶性黑色素瘤(最致命的皮肤癌)和良性痣的图像训练了一个 CNN 来识别皮肤癌。他们将其诊断与 58 位国际皮肤科医生的诊断进行了比较,发现 CNN 比皮肤科医生漏诊的黑色素瘤更少,误诊良性痣的几率更低。

CNN 是一种人工神经网络,受到大脑中神经细胞(神经元)相互连接并对眼睛看到的东西做出反应时的生物过程的启发。CNN 能够从它「看到」的图像中快速学习,并根据所学知识自学来提高其性能(这一过程被称为机器学习)。

这项研究的第一作者,德国海德堡大学皮肤科高级管理医师 Holger Haenssle 教授解释说:「CNN 的工作原理就像一个孩子的大脑。为了训练它,我们向 CNN 展示了 10 万多幅恶性皮肤癌和良性痣的图像,并标出每幅图像的诊断结果。我们仅用了皮肤镜图像,即以 10 倍放大倍率成像的病变图像。CNN 通过学习每幅训练图像提高了区分良性和恶性病变的能力。

「训练结束后,我们借用海德堡大学图书馆的数据创建了两套从未用于训练的测试图像,因此 CNN 对此一无所知。一组 300 幅图像的数据集专门用来单独测试 CNN 的性能。在此之前,我们选择了 100 种最难判断的病变来测试真正的皮肤科医生,并与 CNN 的结果进行比较。」

来自世界各地的皮肤科医生受邀参加,17 个国家的 58 位专家同意参加会议。其中 17 人(29%)表示他们在皮肤镜检查方面的经验不足两年,11 人(19%)表示他们拥有 2 至 5 年的经验,30 人(52%)表示他们拥有 5 年以上的经验。

开始时,这些医生被要求仅根据皮肤镜图像(I 级)诊断恶性黑色素瘤或良性痣,并决定如何处理该状况(手术、短期随访或不需要采取行动)。四周后,他们拿到了患者的临床信息(包括年龄、性别和病变位置)和相同的 100 例特写图像(II 级),并被要求再次诊断并作出决定。

在 I 级中,皮肤科医生准确地检测到平均 86.6% 的黑色素瘤,正确地识别出平均 71.3% 的非恶性病变。然而,当 CNN 与医生水平持平,即正确识别出 71.3% 的良性痣时,它检测到 95% 的黑色素瘤。在 II 级中,皮肤科医生的表现有所提高,准确诊断出了 88.9% 的恶性黑色素瘤和 75.7% 的非恶性病变。

「CNN 漏诊的黑色素瘤更少,表明它比皮肤科医生有更高的敏感度,并且它将良性痣误诊为恶性黑色素瘤的次数也更少,这意味着它的专业性更强;这将帮我们省去更多不必要的手术。」Haenssle 教授说。

「当皮肤科医生接收更多 II 级的临床信息和图像时,他们的诊断结果得到提升。然而,CNN 仅使用皮肤镜图像,并且没有接收额外的临床信息,仍然超越了医生的诊断能力。」

专业的皮肤科医生在 I 级中能超越经验较少的皮肤科医生,在检测恶性黑色素瘤中表现得更好。然而,他们做出准确诊断的平均水平在两个等级中仍然低于 CNN。

「这些发现表明深度学习卷积神经网络在检测黑色素瘤的任务中有能力超越皮肤科医生,包括那些受过大量训练的专家。」他说。

恶性黑色素瘤的发病率越来越高,全世界每年估计有 232000 名新病例和大约 55500 名死亡病例。如果能在早期检测出来是可以被治愈的,但很多病例仅在癌症进一步恶化和更难治疗的时候才被诊断出来。

Haenssle 教授说:「我曾经参加一个研究项目将近 20 年,它旨在改善黑色素瘤在可治愈阶段的早期检测。我的团队和我聚焦于非侵入式技术,希望帮助医生在执行皮肤癌检查时不漏诊黑色素瘤。当发现近期关于深度学习算法在特定任务上超越人类的报告时,我立刻意识到可以在诊断黑色素瘤上探索这些人工智能算法。」

研究者并没有设想用 CNN 取代皮肤科医生诊断皮肤癌,但可以将其作为一项额外辅助技术。

「这种 CNN 技术有望在皮肤癌检查中辅助帮助医生决定是否要做活检病变。大多数皮肤科医生已经使用数字皮肤镜系统来对病变进行拍照、归档和跟进。然后 CNN 可以轻易和快速地评估已保存的影像,得到黑色素瘤概率的『专家意见』。我们目前正计划前瞻性研究来评估 CNN 对医生和病患的现实影响。」

该研究有一定的局限性,包括:皮肤科医生是在一个人工环境中,他们知道自己没有作出「生死」攸关的决定;测试集没有涵盖所有类型的皮肤损伤;非白种人皮肤类型和遗传背景的有效图像较少;事实上,医生可能不会一直遵循他们不信任的 CNN 的建议。

在随后的社论 [4] 中,Victoria Mar 博士(澳大利亚墨尔本莫纳什大学)和 H. Peter Soyer 教授(澳大利亚布里斯班昆士兰大学)写道:「目前,黑色素瘤的诊断准确性取决于治疗医生的经验和培训。……Haenssle 等人……已经表明使用卷积神经网络的计算机算法优于所测试的 58 名皮肤科医生中的大多数……这表明人工智能保证了更标准化的诊断准确性水平,使得所有人,无论他们住在哪里或看哪个医生,都能够获得可靠的诊断评估。」

他们强调了 AI 在成为临床标准之前需要解决的一些问题,包括在手指、脚趾和头皮等部位的黑色素瘤难以成像,以及如何训练 AI 充分识别非典型和患者没有发现的黑色素瘤。

他们的结论是:「目前,没有什么技术可以替代彻底的临床检查。然而,2D 和 3D 全身摄影能够捕获大约 90%~95% 的皮肤表面。鉴于成像技术的指数发展,我们设想自动诊断迟早将改变皮肤病学的诊断模式。但是,要将这一激动人心的技术安全地应用到常规临床护理中,还有很多工作要做。」

论文:Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists

论文链接:https://academic.oup.com/annonc/advance-article/doi/10.1093/annonc/mdy166/5004443

摘要

背景

深度学习卷积神经网络(CNN)可能促进黑色素瘤检测,但是仍缺乏 CNN 与大量皮肤科医生诊断表现的对比数据。

方法

研究者使用皮肤镜图像和对应诊断结果训练谷歌的 Inception v4 CNN 架构。在对比横断面研究中,研究者使用了包含 100 张图像的测试集(I 级:只有皮肤镜图像;II 级:皮肤镜图像和临床信息)。研究中主要的衡量指标包括:敏感度、特异性和 CNN 对病灶进行诊断分类(二分类)的 ROC 曲线下面积(AUC),以及 58 名国际皮肤科医生。次要指标包括皮肤科医生管理决策的诊断效果,以及他们的不同诊断表现。此外,CNN 的表现还与 2016 生物医学成像国际会议(ISBI)挑战赛中的 top-five 算法进行了对比。

结果

在 I 级诊断中,皮肤科医生对病变分类的敏感性和特异性的平均得分(±标准差)分别为 86.6% (±9.3%) 和 71.3% (±11.2%)。获得更多临床信息后(level-II),得分分别提升到了 88.9% (±9.6%, P = 0.19) 和 75.7% (±11.7%, P < 0.05)。相比于皮肤科医生在 I 级、 II 级的特异性与敏感性得分,CNN 的 ROC 曲线显示出更好的特异性(82.5%)。CNN 的 ROC 曲线下面积要比皮肤科医生的平均 ROC 面积(0.86 vs 0.79, P < 0.01)大。CNN 的得分接近 ISBI 2016 挑战赛的 3 大顶级算法结果。

结论

我们首次对 CNN 与国际皮肤科医生团队(共 58 位,其中包括 30 位专家)的诊断表现进行了对比。大部分皮肤科医生的表现都不如 CNN。有了 CNN 图像分类辅助,任何内科医生(无论经验多么丰富)都有可能从中受益。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-05-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯高校合作

AI+医疗 | 腾讯AI Lab食道癌早期筛查技术率先进入临床预实验

文章转载自微信号腾讯AI实验室(tencent_ailab) 昨天,腾讯发布了首款AI医学影像产品——腾讯觅影,使用腾讯AI Lab技术的食管癌早期筛查也成为首...

3095
来自专栏新智元

【Nature封面】深度学习识别皮肤癌媲美医生,智能手机检测癌症

【新智元导读】斯坦福大学的研究人员开发深度学习算法,识别皮肤癌的准确率与专业的人类医生相当,相关研究论文被选为封面论文在本期 Nature 发表。研究人员训练系...

4019
来自专栏ATYUN订阅号

用机器学习检测出诱发痴呆和中风的最常见病因,比现有方法更准确

机器学习在最常用的脑部扫描(CT)形式中检测出诱发痴呆和中风的最常见病因,比现有方法更准确。

933
来自专栏吉浦迅科技

深度学习技术从胸部 X 光片里及早发现疾病

想要分析胸部 X 光片吗? 我们有一套神经网络能派上用场。 来自马里兰州贝塞斯达美国国家卫生研究院(NIH)的研究人员,采用深度学习技术发展出一项架构,能从胸部...

3326
来自专栏量子位

AI诊断心脏病比人类更准?但这只是识图,不是诊断

这个星球上的人们,或许还没有做好迎接人工智能医生的准备。不过,加州大学旧金山分校(UCSF) 的研究人员培育的AI,已经在心脏图像的分类比赛上,超过了参赛的人类...

362
来自专栏AI科技评论

论文 | 京东金融IJCAI 2018论文,用深度学习预测水质及空气质量

京东金融城市计算事业部的一篇论文被人工智能领域国际顶级学术会议 IJCAI 2018录用,其主要作者被邀请于会议上进行口头报告。

862
来自专栏新智元

【谷歌AI以眼识心】超越人类医生,从视网膜图像识别心脏病

新智元报道 来源:Google blog、DeepMind 编辑:闻菲、常佩琦、艾霄葆 【新智元导读】谷歌大脑研究人员刚刚在官博上宣布了他们的最新研究成...

35315
来自专栏ATYUN订阅号

斯坦福开发新算法CheXNet,能比放射科医生更好地发现肺炎

在人工智能可以比人类做得更好的清单上,现在可以加上“诊断出危险的肺部疾病”这一事项了。斯坦福大学的研究人员在arXiv发表了一篇新的论文,解释了他们开发的卷积神...

2895
来自专栏ATYUN订阅号

卷积神经网络检测皮肤癌已超越皮肤科专家

研究人员首次发现深度学习卷积神经网络(CNN)比经验丰富的皮肤科医生在检测皮肤癌方面表现更好。

1082
来自专栏BestSDK

IBM识别癌变细胞技术取得重大突破,用深度学习与神经网络重塑病理学

医生在诊断癌变细胞时,主要通过用活组织切片检查法分析病人组织样本的方式。然而即使这些组织有时如针头般微小,病理学家需要从中检测出肿瘤细胞消失的种种迹象,也要观测...

2935

扫码关注云+社区