深度学习胸部x射线

作者:PranavRajpurkar * 1 Jeremy Irvin * 1 Kaylie Zhu 1 Brandon Yang 1 Hershel Mehta 1TonyDuan1 Daisy Ding 1 Aarti Bagul 1 Curtis Langlotz 2 Katie Shpanskaya 2Matthew P.Lungren 2 Andrew Y. Ng1

摘要

我们研发出一个优于职业放射科医师的,通过胸部x射线检测肺炎的算法。算法全名叫做CheXNet,是一个121层的卷积神经网络,并且在ChestX-ray14中实践训练,ChestX-ray14是目前最大的公开可用的胸透X光数据集,包含了14中疾病的100,000多张X射线主视图。基于四个临床学术放射科医生所注释的测试集,我们可以从中对比CheXNet与放射科医生的表现情况。我们发现CheXNet在肺炎检测的敏感度与专业性都超过了放射科医生的平均水平。我们拓展了CheXNet用以检测ChestXray14中的14种疾病,并获取了所有14种疾病目前最新的科研成果。

1 简介

在美国,每年超过一百万的人因为肺炎住院,大约5万人因肺炎而失去生命(CDC,2017)。胸透X光是目前诊断肺炎最佳的方法(WHO,2001),在临床护理(Franquet,2001)与流行病学研究(Cherian et al.,2005)都起着至关重要的作用。但是,通过胸透X光对肺炎进行检测依赖于放射科医生的专业水平,在本次工作中, 我们呈现一个可以通过胸透X光自动检测肺炎的模型,这个模型的水平超过了临床放射科医师的水平。

图一:CheXNet是一个121层卷积神经网络,它可以把胸透X光图片当作输入,并输出病变的概率。在这个例子中,CheXNet准确的检测出了肺炎,并准确在肺部定位出病变的位置。

我们的模型,CheXNet(显示在图一),是一个121层卷积神经网络,将胸透X光的图片作为输入,并且输出一个肺部的热导图,定位出所检测出来最有可能发生肺炎的位置。我们通过最近发布的ChestX-ray14数据集来训练CheXNet模型(Wang et al.,2017),这个数据集包含112,120个单独标注14种不同胸部疾病(包括肺炎)的正面胸部x射线图像。我们通过密集的连接和批量标准化,使这种深度网络的优化变得易于处理。

对放射科医师来说,通过胸部拍片来检测肺炎是有一定困难的。从X光图片中显示的肺炎特征是很模糊的,也可能被其他的诊断覆盖,或者被误诊为具有相似特征的其他良性疾病。这巨大的诊断差异导致了放射科医师在诊断肺炎时的巨大差别。为了评估放射科医师的专业水平,我们收集了四个临床学术放射科医师从ChestX-ray14来源的420张图片子集的注释,以其他放射科医生的多数人投票来作为基准,测量评估每个放射科医师的水平,对模型也采取了类似的方式来评估专业水平。

图二:CheXNet使用X光图进行肺炎检测的能力水平超过了放射科医师的平均水平。CheXNet 是针对四名临床放射科医师的敏感度(衡量正确识别的正反馈比例 )与特异性进行检测(衡量正确识别的负反馈比例)。每个放射科医生的专业水平用一个橙色的标记,平均专业水平用绿色标记。CheXNet输出胸部x射线检测肺炎的概率,蓝色曲线是通过改变分类界限使用的阈值产生的。每个放射科医生敏感度-特异性的比例的点都在蓝色的线下方,意味着CheXNet检测肺炎的能力是匹配甚至超越放射科医师的。

我们发现这个模型的检测肺炎的能力是超过放射科医师的平均水平的,准确率更高,出错率更低。为了比较CheXNet与之前的ChestX-ray14的成果,我们简单修正以后,让CheXNet直接通过ChestX-ray14检测所有的14种疾病,我们发现,这个模型检测14种疾病的能力比已公布的成果还要优秀。在专家放射科医师的水平上自动检测胸部X光的疾病,不仅在临床上具有巨大的优势,而且在向诊断影像专家接触不足的人群中提供医疗服务也是非常宝贵的。

2 CheXNet

2.1 问题公式化

肺炎检测任务是个二元分类器问题,当输入一个胸透X光主视图,便输出一个二元标签y ∈ ,分别标明了肺炎的有或者无。在训练数据集一个简单的例子中,我们优化了二进制交叉熵损失的权重:

L(X,y) = −w+·ylogp(Y=1|X) −w−·(1−y)logp(Y =0|X),

其中p(Y =i|X) 代表了网络分配标签i的概率,w+ =|N|/(|P|+|N|), 和 w− = |P |/(|P |+|N |) 中的 |P | 和 |N | 分别代表了训练集中肺炎检测成功与失败的案例数量。

2.2. 模型构建与模型训练

CheXNet是一个121层密集卷积神经网络(密集网络)(Huang etal., 2016) ,由ChestX-ray14的数据集训练而来。密集网络通过网络改善了信息流与图像梯度,使得深度网络的优化变得易于处理。我们用一个具有单输出的完全连接层替换,之后我们应用s型非线性模型。

神经网络的权重初始设定来自于ImageNet上的预训练模型(Denget al., 2009) ,这个神经网络是用亚当模型的标准参数(= 0.9 and= 0.999) (Kingma & Ba, 2014) 进行端对端训练。我们采用规模为16的小批量来训练模型。我们使用0.001的初始学习率,当每次验证损失在某时期后达到一个稳定的水准,则衰减10倍,最终选择拥有最低验证损失的模型。

3 数据

3.1.训练集

我们所使用的ChestX-ray14数据集是Wang etal. (2017)发布的,包含了30,805个独立患者的112,120张正面X光图像。Wang etal. (2017)使用放射学报告中的自动提取方法,用多达14个不同的胸部病理学标签来标注每个图像。我们将这些确认为肺炎的图片标记为正反馈案例,其他的图片标记为负反馈案例。在肺炎检测任务中,我们将这些数据集随机分别放入训练集(28744个病人,98637张图),验证集(1672歌病人,6351张图),以及测试集(389个病人,420张图)。每个数据集合之间没有病人是重复的。

在将图片放入神经网络之前,我们将图像缩小至224×224,并基于ImageNet训练集的均值和标准差将其标准化。我们还通过随机水平翻转来增加训练数据。

3.2.测试集

我们收集了胸透X光的420张正面胸部x射线图片作为测试集。注释是从斯坦福大学的四位执业放射科医师分别独立获得,他们曾参与标记Wang et al(2017)的14种病理,这四个放射研究者分别有4、7、25和28年的经验,其中一个放射科研究者是胸部放射相关专业的合作伙伴。放射研究者没有权利知道数据中的任何病人信息以及疾病流行的知识。标签被标准化的数据输入程序。

4 CheXNet VS. 放射科医师

4.1. 比较

我们基于检测肺炎任务的测试集,以评估放射线研究者的专业水平。回想测试集每张图片都有来自不同临床放射研究者最真实的判断标签。我们通过使用其他三名放射科医生的多数票座位基础事实来评估一名放射科医师的表现。同样,我们使用四名放射科医师中的三名的多数票评估CheXNet ,重复四次以覆盖三组。

我们将CheXNet与放射科医师的ROC曲线进行比较,该曲线将模型灵敏度与1-特异性进行比较。图二显示了ROC曲线模型与四名放射科医师的平均操作点,每个放射研究者用橙色标记,四个放射研究者的平均水平用绿色标记。CheXNet输出胸部x射线检测肺炎的概率。ROC曲线是通过改变分类边界的阈值绘制的。CheXNet在测试集的AUROC为0.828。每个放射科医师的灵敏度-特异性点和平均值都低于ROC曲线,意味着CheXNet检测肺炎的能力是匹配甚至超越放射科医师。

4.2.局限性

我们从对比中确定了三种局限性。第一,模型和放射科医师都不允许去使用先前的检查或患病历史,这已被证明会使放射科医师的诊断准确度下降(Berbaum et al., 1985; Potchen et al., 1979)。第二,在诊断时只向放射科医师和模型提供正面x光图,但是实验证明,高达15%的准确诊断需要横向观察(Raoof et al., 2012),因此我们认为这样的设置只能提供一个保守的专业水平估计。第三,由于模型与放射科医师都不允许使用病史,这已被证明可以减少放射科医师在解释胸片方面的诊断能力(比如,如果一个肺部异常,有发烧和咳嗽史,这时候诊断为肺炎是合适的,而不是诊断为一些专有名词如浸润性肺炎)(Potchen et al., 1979).

表1.ChexNet 胜过了ChestX-ray14数据集中所有14种病变的最佳发表结果。在检测肿块,肺结核,肺炎和气肿时,ChexNet 与先前的技术水平相比具有>0.05的AUROC余量。

5 ChexNet VS. 以往技术——基于ChestX-ray14数据集

我们通过三个变化来扩展算法以分类多重胸部病变。首先,ChexNet不是仅输出一个二进制标签,而是输出包含多个二进制标签的向量t,用以显示以下14个病理种类是否存在:肺扩张不全,心脏肿大,肺积液,浸润性肺炎,肿块,肺结核,肺炎,气胸,巩固性肺炎,浮肿,肺气肿,纤维化,胸膜增厚,疝气。其次,我们用一个完全连接层来代替ChexNet中的最终完全连接层,产生一个14维的输出,之后我们使用非线性神经元S型函数。最终输出是每种病理存在的预测概率。第三,我们修改损失函数以优化未加权的二进制交叉熵损失的总和。

其中是图像包含病理c的预测概率,是图像不包含病理c的预测概率。

我们随后将ChestX-ray14(Wang et al.,2017; Yao et al.,2017)的工作随机分为训练集(70%),验证集(10%)和测试集(20%)。我们确保分组之间没有病人重叠。我们将模型每组的AUROC与 先前来自Yao et al. (2017)的13组,以及Wang et al. (2017)的1组的工作做了比较。

我们发现ChexNet在所有14个病理学类别上都表现出了最佳效果。表1说明了测试集中每组AUROC的比较。关于肿块,肺结核,肺炎和肺气肿,我们大大超过了先前的技术水平(>0.05的AUROC增量)

6 模型解释

为了解释神经网络的预测,我们还使用类激活映射(CAMs)((Zhou et al., 2016).)生成热图从而可视化图像的最具执行性区域。为了生成CAMs,我们将图像馈送到完全训练的网络中,并提取由最终卷积层输出的特征图。令f_k为第k个特征图,令w_(c,k)为特征图k指向病理c的最终分类层权重。通过使用关联权重特征图的加权和,我们获得了用于分类病理c的最显着的特征图M_c。

形式上,通过放大M_c至图片尺寸并覆盖图像,我们确定了模型预测病理时最重要的特征。

图3显示了基于肺炎检测任务和14组病理学分类任务的几个CAMs的示例。

(a)社区获得性肺炎患者。该模型能够正确检测左下和右上方的气道疾病,以达到肺炎的诊断。

(b)左肺结节患者。该模型识别左下肺结节并正确分类病理。

(c)原发性肺恶性肿瘤和两大肿块患者。一个在左侧下叶,另一个在右侧上叶毗邻纵隔。该模型正确识别X射线中的两个肿块。

(d)右侧气胸和胸管患者。该模型检测出了肺部异常从而正确预测气胸(胸塌陷)的存在。

(e)右胸大量积液患者(胸腔积液)。该模型正确标记积液,并集中在右下胸部。

(f)充血性心力衰竭和心脏肥大(心脏扩大)患者。模型正确识别了放大的心脏轮廓。

图3.ChexNet使用“类激活图”来定位它所识别的病症,这些图激活了X射线对于作出特定病理分类最重要的区域。图片说明来自一名执业放射科医师。

7 相关研究

最近,在深度学习和大型数据库方面的进步使得算法能够在各种医学成像任务中超越医学专业人员的性能,包括糖尿病性视网膜病变检测((Gulshan et al., 2016)),皮肤癌分类(Esteva et al.,2017),心律失常检测(Rajpurkar et al., 2017)和出血鉴定(Grewal et al., 2017)。

胸部X光的自动诊断越来越受到肺结核分类(Lakhani & Sundaram,2017)和肺结节检测(Huang etal.,2017)算法的关注。Islam et al. (2017)使用了公开OpenI数据集(Demner-Fushman et al., 2015)研究了各种卷积架构在不同异常情况下的性能。Wang et al. (2017)发布了ChestX-ray-14,比之前的同类数据集大一个数量级,并且还对在ImageNet上预先训练的不同卷积神经网络架构进行了基准测试。最近Yao et al.(2017)利用标签之间的统计依赖关系来进行更准确的预测,胜过Wang et al. (2017) 14个分组中的13个。

8 结论

肺炎在患者发病率和死亡率中占很大比例(Gon_calves-Pereira et al., 2013) 。肺炎的早期诊断和治疗对于预防并发症甚至死亡至关重要(Aydogdu et al., 2010)。每年约有20亿次手术,而胸部X光检查是实际中最常用的影像检查工具,特别对包含肺炎在内的各类疾病的筛查,诊断和管理至关重要(Raoof et al.,2012)。然而,根据世界卫生组织(Mollura etal., 2010)的估计,全球三分之二的人无法获得放射检查。即使有充足的成像设备,可以解释X射线的专家也是短缺的,导致可治疗疾病死亡率增加(Kesselman et al., 2016)。

我们开发了一种表现超过放射科医师从正面胸部X射线图像中检测肺炎的算法。我们还展示了,我们检测多种疾病算法的简单拓展比目前最大的公开可用胸部X射线数据集ChestX-ray14先前的技术状态更胜一筹。借助专家级别的自动化,我们希望这项技术能够提高医疗服务质量,并且为那些有限接触熟练放射科医师的地区带来更多获得医成像专业知识的机会。

9 致谢

我们要感谢斯坦福人工智能中心在临床数据集的医学和成像方面的基础设施支持(AIMI.stanford.edu)

参考文献

[1]. Aydogdu,M, Ozyilmaz, E, Aksoy, Handan, Gursel,G, and Ekim, Numan. Mortality predictionin community-acquired pneumonia requiring mechanical ventilation; values ofpneumonia and intensive care unit severity scores. Tuberk Toraks, 58(1):25-34,2010.

[2]. Berbaum,K, Franken Jr, EA, and Smith, WL. The effect of comparison films upon residentinterpretation of pediatric chest radiographs. Investigative radiology,20(2):124-128, 1985.

[3]. CDC,2017. URLhttps://www.cdc.gov/features/pneumonia/index.html.

[4]. Cherian,Thomas, Mulholland, E Kim, Carlin, John B, Ostensen, Harald, Amin, Ruhul,Campo, Margaretde, Greenberg, David, Lagos, Rosanna, Lucero, Marilla, Madhi, ShabirA, et al. Standardized interpretation of paediatric chest radiographs for thediagnosis of pneumonia in epidemiological studies. Bulletin of the World HealthOrganization, 83(5):353{359, 2005.

[5]. Davies,H Dele, Wang, Elaine E-l, Manson, David, Babyn, Paul, and Shuckett, Bruce.Reliability of the chest radiograph in the diagnosis of lower respiratory infectionsin young children. The Pediatric infectious disease journal, 15(7):600{604,1996.

[6]. Demner-Fushman,Dina, Kohli, Marc D, Rosenman, Marc B, Shooshan, Sonya E, Rodriguez, Laritza, Antani,Sameer, Thoma, George R, and McDonald, Clement J. Preparing a collection ofradiology examinations for distribution and retrieval. Journal of the AmericanMedical Informatics Association, 23(2):304-310, 2015.

[7]. Deng,Jia, Dong, Wei, Socher, Richard, Li, Li-Jia, Li, Kai, and Fei-Fei, Li.Imagenet: A large-scale hierarchical image database. In Computer Vision and PatternRecognition, 2009. CVPR 2009. IEEE Conference on, pp. 248-255. IEEE, 2009.

[8]. Esteva,Andre, Kuprel, Brett, Novoa, Roberto A, Ko, Justin, Swetter, Susan M, Blau,Helen M, and Thrun, Sebastian. Dermatologist-level classi_cation of skin cancerwith deep neural networks. Nature, 542(7639):115-118, 2017.

[9]. Franquet,T. Imaging of pneumonia: trends and algorithms. European Respiratory Journal,18(1):196-208, 2001.

[10]. Gon_calves-Pereira, Jo~ao, Concei_c~ao,Catarina, and P_ovoa, Pedro. Community-acquired pneumonia: identification andevaluation of nonresponders. Therapeutic advances in infectious disease, 1(1):5-17,2013.

[11]. Grewal, Monika, Srivastava, Muktabh Mayank,Kumar,Pulkit, and Varadarajan, Srikrishna. Radnet: Radiologist level accuracyusing deep learning for hemorrhage detection in ct scans. arXiv preprintarXiv:1710.04934,2017.

[12].Gulshan, Varun, Peng, Lily, Coram, Marc,Stumpe, Martin C, Wu, Derek, Narayanaswamy, Arunachalam,Venugopalan,Subhashini, Widner, Kasumi, Madams, Tom, Cuadros, Jorge, et al. Development andvalidation of a deep learning algorithm for detection of diabetic retinopathyin retinal fundus photographs. Jama, 316(22):2402{2410, 2016.

[13]. Hopstaken, RM, Witbraad, T, Van Engelshoven,JMA, and Dinant, GJ. Inter-observer variation in the interpretation of chestradiographs for pneumonia in community-acquired lower respiratory tract infections.Clinical radiology, 59(8):743-752, 2004.

[14]. Huang, Gao, Liu, Zhuang, Weinberger, KilianQ, and van der Maaten, Laurens. Densely connected convolutional networks. arXivpreprint arXiv:1608.06993, 2016.

[15]. Huang, Peng, Park, Seyoun, Yan, Rongkai,Lee, Junghoon, Chu, Linda C, Lin, Cheng T, Hussien, Amira, Rathmell, Joshua,Thomas, Brett, Chen, Chen, et al. Added value of computer-aided ct image featuresfor early lung cancer diagnosis with small pulmonary nodules: A matchedcase-control study. Radiology, pp. 162725, 2017.

[16]. Ioffe, Sergey and Szegedy, Christian. Batchnormalization: Accelerating deep network training by reducing internalcovariate shift. In International Conference on Machine Learning, pp. 448{456,2015.

[17]. Islam, Mohammad Tariqul, Aowal, Md Abdul, Minhaz,AhmedTahseen, and Ashraf, Khalid. Abnormalitydetection and localization in chestx-rays using deep convolutional neural networks. arXiv preprintarXiv:1705.09850, 2017.

[18]. Kesselman, Andrew, Soroosh, Garshasb,Mollura, Daniel J, and Group, RAD-AID Conference Writing.

[19]. 2015 rad-aid conference on internationalradiology for developing countries: The evolving global radiology landscape.Journal of the American College of Radiology, 13(9):1139-1144, 2016.

[20]. Kingma, Diederik and Ba, Jimmy. Adam: A methodfor stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.

[21]. Lakhani, Paras and Sundaram, Baskaran. Deeplearning at chest radiography: Automated classi_cation of pulmonarytuberculosis by using convolutional neural networks. Radiology, pp. 162326,2017.

[22]. Mollura, Daniel J, Azene, Ezana M,Starikovsky, Anna, Thelwell, Aduke, Iosifescu, Sarah, Kimble,Cary, Polin, Ann,Garra, Brian S, DeStigter, Kristen K, Short, Brad, et al. White paper report ofthe rad-aid conference on international radiology for developing countries:identifying challenges, opportunities, and strategies for imaging services inthe developing world. Journal of the American College of Radiology, 7(7):495-500,2010.

[23]. Neuman, Mark I, Lee, Edward Y, Bixby, Sarah,Diperna, Stephanie, Hellinger, Je_rey, Markowitz, Richard, Servaes, Sabah,Monuteaux, Michael C, and Shah, Samir S. Variability in the interpretation ofchest radiographs for the diagnosis of pneumonia in children. Journal ofhospital medicine, 7(4):294-298, 2012.

[24]. Potchen, EJ, Gard, JW, Lazar, P, Lahaie, P,and Andary, M. E_ect of clinical history data on chest filminterpretation-direction or distraction. In Investigative Radiology, volume 14,pp. 404-404, 1979.

[25]. Rajpurkar, Pranav, Hannun, Awni Y,Haghpanahi, Masoumeh, Bourn, Codie, and Ng, Andrew Y. Cardiologist-levelarrhythmia detection with convolutional neural networks. arXiv preprint arXiv:1707.01836,2017.

[26]. Raoof, Suhail, Feigin, David, Sung, Arthur, Raoof,Sabiha, Irugulpati, Lavanya, and Rosenow, Edward C. Interpretation of plainchest roentgenogram. CHEST Journal, 141(2):545-558, 2012.

[27]. Wang, Xiaosong, Peng, Yifan, Lu, Le, Lu,Zhiyong, Bagheri, Mohammadhadi, and Summers, Ronald M. Chestx-ray8:Hospital-scale chest x-ray database and benchmarks on weakly-supervisedclassi_cation and localization of common thorax diseases. arXiv preprintarXiv:1705.02315, 2017.

[28]. WHO. Standardization of interpretation ofchest radiographs for the diagnosis of pneumonia in children. 2001.

[29]. Yao, Li, Poblenz, Eric, Dagunts, Dmitry, Covington,Ben, Bernard, Devon, and Lyman, Kevin. Learning to diagnose from scratch byexploiting dependencies among labels. arXiv preprint arXiv:1710.10501, 2017.

[30]. Zhou, Bolei, Khosla, Aditya, Lapedriza,Agata, Oliva, Aude, and Torralba, Antonio. Learning deep features fordiscriminative localization. In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition, pp. 2921-2929, 2016.

从2018年1月1日开始,调价至498

欢迎加入终身学习数据分析圈子,一次缴费,永久免费学

加入方式:

转账398,先拉微信群,再邀请进小密圈

(数据君亲自为你做客服)

2:扫码加入

犹豫的、不懂的、咨询的不要加,加了也是僵尸,时间宝贵,你我都珍惜

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171228B0MZR100?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区