肺癌自动诊断的深度学习框架构建

文章题目:ADeep Learning Framework for Automatic Diagnosis in Lung Cancer

研究人员:瑞典乌普萨拉大学研究团队

发表时间:2018

期刊名称:1st Conference on Medical Imaging with Deep Learning

研究亮点

研究者基于患者的组织样本开发了一种自动识别肺癌区域的深度学习框架。组织样本来自于在乌普萨拉大学医院进行手术的肺癌患者,经过肺癌病理学医生审查后将其制成组织芯片(TMA)。712个经过扫描和人工注释病人的苏木精-伊红染色切片用于框架模型的训练,然后用经过注释的178个病人的TMA数据评估模型性能,最后运用斯坦福公开的TMA芯数据验证所构建框架优异的评估性能。

研究背景

癌症尤其是肺癌的微观评估在临床诊断上尤为重要,其评估高度依赖于病理学家的诊断经验。组织样本的数字化有助于训练模型的自动诊断,然而将整个TMA图像整合到GPU的VRAM中是不可能的,因此图像被分割后才能进行训练模型。而后,这些分割的图像被缝合在一起形成完整的TMA进行预测,研究者基于此开发了一个深度学习框架对这些分割后的图像数据进行学习。

研究方法

1 深度学习框架构建

用(xi, yi) ⊆ X × Y表示图像分割后的小块也就是一个给定的数据集,i ∈ N。其形状分别表示为h × w × 3 和 h × w × 1。 研究者将其简化为一个深度网络函数f(x; θ),θ是所有图层参数的集合。学习的任务就是寻找最优参数使损失函数L(y, f(x; θ))最小。二元分类(良性和恶性)常用的是sigmoid损失函数。首先函数f的输出运用sigmoid函数转化为[0,1]的概率值,sigmoid函数如下:

σ(z) = 1/( 1 + exp(−z))

然后损失函数可以表示为:

L(y, f(x; θ)) = −y log(σ(f(x; θ)) − (1 − y) log(1 − σ(f(x; θ)))

寻找最优参数就是机器学习中的优化过程。常用的优化方法有Popularoptimizers include Stochastic Gradient Descent (SGD), Adaptive Gradient (AdaGrad), and Root Mean Square Propagation (RMSProp)。本研究采用的是一个用于优化深度网络非常流行的方法:AdaptiveMoment Estimation (Adam)。

2 语义网络划分

语义划分网络为每一个小块预测一个分类标签,研究者选用了其中最为常用的网络划分方法:123S、dilatednet、drn-C26、drn-C42、unet、densenet-D56和densenet-D103。

123S网络是基于经典的FCN-8S,网络相对紧凑不易发生过拟合。Dilatedne起源于FCN-32S网络,转置网络层由带有过滤器的卷积层替代。drn-C26/C42结合了卷积扩张和残余网络,使用残余单元构建深度网络进行图像分类。Unet具有向上和向下采样的解码器,连接之后形成U型因此得名。该网络具有高容量特征,可以针对数据进行多尺度的学习和聚合,成为了生物医学影像中最流行的网络语义划分的方法。最后,DenseNet是一种非常深度的网络架构,它采用密集块的形式与其他层以前馈方式连接。DenseNet将所有连接层替换为卷积层,densenet-D56和densenet-D103分别有56层和103层。

研究成果

深度学习框架的训练集由712个肺癌患者的数据组成,其中223个鳞状细胞肺癌,398个肺腺癌,74例大细胞肺癌和17种其他类型肺癌。所有样本的TMAs和H&E染色组织芯经过高分辨率0.5/pixel扫描,得到了每个组织芯对应的大约900万个RGB像素图像。然后对图像进行注释(如Fig.1):癌症(红色)、基质(蓝色)、坏死(黑色)、正常肺组织区域(绿色)、排除训练集中的区域(黄色)。注释部分由包含两位专科病理学家在内的七位专家完成。

707个组织芯中有训练集354个、验证集175个和178个测试集。这三个数据集都经过癌症、基质、坏死、正常组织的注释,总共训练了7个深度学习模型。首先这些模型经过病理学家的定性评估,预测结果在像素级别上具有惊人的准确性(Fig.1a)。然后使用123S训练模型计算所得精确性、召回率和F1-score指标,unet要优于其他网络(Table 1)。为了评估,选择最佳预测阈值以便权衡精确度和召回率。本研究中预测了斯坦福TMA组织芯的癌症热图,病理学家对预测结果进行定性检查,并表示所得训练模型在高像素水平下准确预测的潜力。

文章总结

本研究介绍了一种新的深度学习框架,用于精准分割肺组织中的癌变区,并且在斯坦福的TMA数据上进行了测试。最后经过训练有素的病理学家对框架所得训练结果进行定性检查,结果证明经过训练的模型在识别TMA核心癌症区域具有很高的准确性。研究者希望将该训练模型应用到不同肺组织的预测上,通过更详尽的注释对模型进行定量评估,并将其运用到更多的临床环境活检和图像的数据上。

小编评论

随着图像的数据化,图像所蕴含信息的挖掘是进行临床诊断的一个重要步骤。如果将样本图像信息结合临床信息进行模型的训练,也许对模型预测性能的提高具有重要参考意义。

参考文献

[1]Burlutskiy N, Backman M, Gu F,et al.A Deep Learning Framework for Automatic Diagnosis in Lung Cancer[J]. 2018.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180801B1FV2I00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券