专栏首页机器之心资源 | MURA:斯坦福ML团队开放的大型放射影像数据集与挑战赛

资源 | MURA:斯坦福ML团队开放的大型放射影像数据集与挑战赛

机器之心编译

参与:蒋思源、刘晓坤

近日,吴恩达及斯坦福 ML 团队开放一项骨骼医疗影像的竞赛,它利用去年 12 月开放的 MURA 数据集尝试在骨骼影像上达到放射科医生的水平。此外,MURA 是最大的开放性放射影像数据集之一,它有助于诊断上肢骨骼疾病。

什么是 MURA?

MURA(肌骨骼放射影像)是骨骼 X 射线的大型数据集,算法的任务是确定一张 X 射线影像是正常还是异常。

肌骨骼(Musculoskeletal)疾病在全世界上影响了 1.7 亿人,是严重长期疼痛与疾病的最常见成因,且每年有 3 千万的急诊部就诊。研究者希望该数据集能帮助医疗影像技术取得显著的进步,且能达到人类专家的诊断水平,从而提升放射科医生的工作效率与放射科的医疗条件。

MURA 是最大的开放放射影像数据集之一,研究者将该数据集提供给社区来举办对应的竞赛,因而能了解模型在医学影像上能不能做得更好。

MURA 使用一个隐藏的测试数据集以官方评估模型的性能。参赛团队可在 Codalab 上提交可执行代码,并在非公开的测试数据集上运行,这样的流程基本能保证测试结果的公平性。下面地址展示了 MURA 的提交与评估过程,只要模型经过官方的评估,测试分数就会显示在排行榜中。

MURA 提交教程:https://worksheets.codalab.org/worksheets/0x42dda565716a4ee08d61f0a23656d8c0/

MURA 是如何收集数据的?

MURA 是肌骨骼放射照片的数据集,它包含了 12173 名患者共计 14863 份研究,共有 40561 份多视图放射影像。每一份都属于 7 种标准上肢放射学研究类型之一,即手指、手肘、前臂、手、肱骨、肩膀和手腕。每一份研究都由斯坦福医学院董事会认证的放射科医生手动标记为正常或异常,这些标注都是 2001 年到 2012 年根据放射诊断学对临床医学影像的解释而完成的。

为了评估模型并获得放射科医生水平的鲁棒性估计,研究者从 6 名经认证的斯坦福放射科医生收集额外的标签,其中包括 207 份肌骨骼研究。放射科医生平均有 8.32 年的从业经验,从业年限的范围从 2 到 25。研究者随机选择 3 个放射科医生构建黄金准则,该准则定义为大多数放射科医生投票的标签。

基线模型是什么?

MURA 的基线使用一个 169 层的卷积神经网络来检测和定位异常症状。模型取某项研究中的上肢的一个或多个视图的照片为输入。在每个视图中,该网络对异常概率进行预测。研究者通过取每张照片的网络输出异常概率的算术平均来计算该研究中的总体异常概率。当该研究中的异常概率超过 0.5 时,模型做出异常的二值预测。

网络使用密集连接卷积神经网络架构,其中每个层和其它所有层都有前向连接,从而使深度网络优化更容易进行。研究者将应用一个 sigmoid 非线性层之后的单个输出替换了最后的全连接层。他们使用类别激活图(Class Activation Map)来可视化放射照片的对模型异常预测贡献最大的部分。

该基线表现如何?

研究者在 Cohen 的 Kappa 统计上评估了该基线,Kappa 统计表达了模型和黄金标准的匹配程度。基线将和放射专家在手指、手腕研究的异常检测上进行性能对比。然而,基线在检测手肘、前臂、手、肱骨、肩膀的异常检测中的性能要稍微低于最好的放射专家,表明该任务为未来研究提供了很好的挑战性问题。

论文:MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs.

论文地址:https://arxiv.org/abs/1712.06957v2

摘要:我们在本文中介绍 MURA,这是一个肌肉骨骼射线照片的大规模数据集,包含 40895 张来自 14982 项研究的照片,其中每项研究的照片都是由放射专家手动标记(正常或异常)。在这个数据集上,我们训练了一个 169 层的密集连接的卷积网络来检测和定位异常症状。六位有专科医师资格的放射专家为 209 项研究构成的测试集提供了额外标记,我们在其上对比了模型和放射专家的诊断表现,发现我们的模型能达到和那些放射专家相当的性能。在对于手指、手和手腕的研究照片上,我们模型的 F1 分数要稍微高于放射专家,但在统计上并不显著;在对于手肘、前臂、肱骨和肩膀的研究照片上,我们模型的 F1 分数要稍微低于放射专家,但在统计上也不显著;预示着该数据集为未来研究提供了很好的挑战性问题。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用深度学习构建先进推荐系统:近期33篇重要研究概述

    机器之心
  • 挑战目标跟踪算法极限,商汤开源SiamRPN系列算法解读

    由于存在遮挡、光照变化、尺度变化等一些列问题,单目标跟踪的实际落地应用一直都存在较大的挑战。过去两年中,商汤智能视频团队在孪生网络上做了一系列工作,包括将检测引...

    机器之心
  • Nature论文预测余震只是炒作?数据科学家历时半年揪出漏洞

    最近,四川宜宾、云南楚雄接连发生地震,再次掀起人们对地震的恐慌。预测地震自古以来都是地震科学工作者的奋斗目标。在深度学习如此火爆的今天,人们不禁想到,强大的深度...

    机器之心
  • 【AngularJS】—— 10 指令的复用

    前面练习了如何自定义指令,这里练习一下指令在不同的控制器中如何复用。   —— 来自《慕课网 指令3》   首先看一下一个小例子,通过自定义指令,捕获鼠标事...

    用户1154259
  • 使用深度学习构建先进推荐系统:近期33篇重要研究概述

    机器之心
  • 哈佛超柔性机器人把水母握手心 ,还可下海活捉章鱼

    【新智元导读】近期哈佛大学的研究人员研发了一款十二面体的“折纸花瓣”柔性机械臂RAD,能够抵达人类无法到达的深海,捕捉海底世界的软体动物并将其完好无损地带回陆地...

    新智元
  • 前辈分享:机器人算法工程师有关资料和经验

    机器人控制入门,我属于比较晚的那种,2014年6月才真正接触和了解机器人控制算法相关知识,非常感谢现在的领导和好哥们带我走入机器人控制世界。所有的机器人控制、...

    机器人网
  • 猴年马月,来了猴年,马月呢?

    用户1130025
  • 推荐 | 张树祥:潜心研发的工业机器人产业人

    现在流行一个词“工业4.0(Industry 4.0)”。这个词由德国政府提出,总理默克尔亲自代言。中国工信部正在狠推“中国制造2025规划”,即到2025年步...

    机器人网
  • Springboot处理CORS跨域请求的三种方法

    浏览器出于安全的考虑,使用 XMLHttpRequest对象发起 HTTP请求时必须遵守同源策略,否则就是跨域的HTTP请求,默认情况下是被禁止的。换句话说,浏...

    陈哈哈

扫码关注云+社区

领取腾讯云代金券