吴恩达最新研究成果被指炒作:要被AI 取代?放射科医生可不答应

让机器代替人类工作、减轻人类的负担一直是人们的希望,也是计算机科学家们追求的目标。5 月 24 日,人工智能、深度学习领域知名科学家吴恩达在推特上介绍了斯坦福计算机科学系、医学系和放射学系的最新研究成果。

这项研究成果介绍了 MURA 肌肉骨骼医疗数据集和一个基础模型,声称该模型可以像放射科医生一样根据 X 光片进行诊断。然而,这条推特一经发出便引起了激烈的讨论。

图| 吴恩达推特截图:“你的 AI 模型可以像放射科医生一样在 X 光片上诊断骨科病变吗?我们的实验室刚刚发布了新的数据集 MURA。参与我们的深度学习比赛来看看你的模型表现如何吧。”

首先,我们需要知道,通过 X 光片进行诊断具有非常重要的意义。若诊断为正常,则可以免去患者进一步检查和干预的麻烦。这其中对肌肉骨骼的诊断尤其重要,它是长期疼痛甚至残疾的常见诱因,每年全世界有超过 1.7 亿人被其困扰,有 3 千万人因其急诊,且这一数量还在逐年增加。

此外,医生的疲劳问题是影响所有医疗专业人员的常见问题,放射科医生则尤其容易受到影响。有证据表明,工作负载要求过高,疲劳可能影响诊断的准确性。

在这样的背景下,让机器来代替放射科医生工作可以产生极高的价值。在吴恩达这条推特下,就有人留言称自己已经被骨科疾病困扰了 5 年,希望发布的模型可以帮助自己。

图| 推特留言截图:“如果我提供一个真正的骨科 X 光片,你认为你的人工智能模型可以检测它吗?我已经被骨科疾病困扰了 5 年了,最开始这个疾病没有被放射科医生诊断出来。我觉得这对你们来说是一个很好的例子。需要的话可以联系我。”

而质疑的声音则来自不少相关领域的研究人员。他们认为, AI 并未发展到如此成熟的地步,吴恩达的说法有炒作之嫌。

这已经不是吴恩达第一次被质疑了。2017 年年末,吴恩达就曾发推特称放射科医生可能面临失业的危险,因为他们的模型可以更好地通过 X 光片诊断肺炎。实验结果表明,该模型结果优于四名专业医师的平均值。当时,美国医师 Eric Topol 就质疑四名参与对比的医师的水平能否代表整个医生群体以支持实验结论。

这一次的研究结果引来更多反对和质疑的声音。加州理工学院计算生物学家 Lior Pachter 认为,之前的研究和这次研究的结果都并不严谨,而吴恩达夸大自己的实验结果欺骗不会深究的公众。

生物遗传学博士后 Harold Pimentel 更表示,放射科医师不会失业,研究者应该对自己的研究负责。这些反对者认为,机器学习科学家总是高调地发布自己的研究结果,甚至不惜炒作来夸大自己的研究以吸引眼球,这无异玷污了公众对他们的信任。

图 | 反对和质疑的声音

那么,具体而言,这项研究为什么会受到如此多的质疑呢?

我们首先看一下吴恩达团队发布了什么。这次他们发布的 MURA 是一个庞大的上肢肌肉骨骼 X 光片数据集。数据集共包含来自 12173 名患者 14863 项研究的 40561 张图像,每一项研究包含一张或多张图像。这些图像来自斯坦福医院图像存档和通信系统(Picture Archive and Communication System PACS),属于七种肢体放射学研究类型:手肘,手指,前臂,手掌,肩膀,手腕和肱。

图| 已公开的医疗数据集

MURA 中的数据被人工标注为“正常”或“异常”,其中 9045 个图像为“正常”,5818 个为“异常”。数据的标注是在 2001 年到 2012 年间,在对至少 300 万像素的医疗级别显示器上呈现的 DICOM 图像的诊断时进行的。其最大亮度为 400cd 每平方米,最小亮度为 1cd 每平方米。像素尺寸为 0.2,原始像素为 1500 x 2000 像素。

该数据集被分为训练集、验证集和测试集,目前已经公开,并鼓励更多人在其上进行实验研究。

图| 数据集详情

除此之外,研究人员也介绍了一个基础模型,这是一个 169 层稠密的卷积神经网络,可以利用 X 光片检测病变。

图| 模型结构图

该模型每次输入一项研究的一张或多张照片,通过神经网络进行预测该图片“异常”的可能性,最终对多个图片的结果取平均值作为最终预测结果。

论文中的实验结果表明,模型探测手指和腕部病变的效果与放射科医生中最好的表现相当,而在肘部、手掌、肱和肩膀部位的病变检测中则表现略差。正是这个实验结果引发了争议。

研究者称,为了测试模型的鲁棒性并同时评估放射科医生的水平,他们在测试机上从六位职业资格被认证的斯坦福放射科医生那里收集了额外的标签,这其中包含了 207 项肌肉骨骼方面的研究。医生们使用 PACS 系统对 DICOM 文件进行独立标注,且不会获得图像外的任何信息。最后,选择 6 位医生中的 3 位的结果作为标准,另三位的结果与模型结果进行比较。

首先,实验中选择 3 位医生的标注结果作为标准,在标注结果不同时,选择票数较多的标签。而这是一个二分类问题,意见不同时投票数为 2:1 或 1:2。那么在争议存在的情况下,仅仅一人之差能保证获得正确的答案吗?换句话说,用于检测模型效果的标准答案本身就可能存在问题。

其次,这六位医生的平均有 8.83 年的工作经验,从 2 年到 25 年不等。一般认为从业时间越久的医生越有经验。如果拥有 25 年经验的医生被分配到标准答案组,则剩下 5 人的经验仅 5.6 年。也就是说用于和模型对比的放射科医生组的平均工作经验不到6年,这样的水平能否代表整个放射医生群体的水平呢?

如此看来,无论是实验中标准答案的制定还是比较实验的设定,都值得质疑,模型的效果也不是那么可信,机器取代放射科医生的职位似乎真的为时尚早。但是,开源的数据集无疑将帮助更多人在其上开展自己的研究。

开源数据地址:

https://stanfordmlgroup.github.io/competitions/mura/

论文地址:

https://arxiv.org/pdf/1712.06957.pdf

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180530A1JKY100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券