2.5D U-Net（MICCAI 2019）

Minerva

发布于 2020-07-22 14:42:39

4.5K0

发布于 2020-07-22 14:42:39

今天分享一篇发表在MICCAI 2019上的论文：Automatic Segmentation of Vestibular Schwannoma from T2-Weighted MRI by Deep Spatial Attention with Hardness-Weighted Loss (原文链接：[1])。

1 研究背景

在核磁共振图像中 (MRI)自动分割前庭神经鞘瘤 (vestibular schwannoma, VS)有助于有效和准确地测量肿瘤的体积，从而能够作为一个辅助指导以提高临床治疗的质量。然而，如上图（Fig.1）所示，该任务存在图像对比度低、分割目标区域小、图像分辨率低等显著挑战，这篇文章正是对于该任务提出了一个有效的模型。

2 方法

2.1 整体流程

采用2.5D的卷积神经网络来有效地提取图像的特征，此外使用了注意力模块来确保模型能够把注意力聚焦到分割小目标区域上，在训练过程中，通过修改版的Dice loss (hardness- weighted Dice loss)对困难的体素进行挖掘，从而提高模型的性能。

2.2 2.5D卷积神经网络

在核磁共振图像中，如果一层一层的分别采用2D CNN进行预测后把结果堆叠起来将忽视了层与层之间的联系。而如果要采用3D CNN，则需要将数据进行预处理使得其满足各向同性（层面内的分辨率与层面间相同），这将导致很多额外的计算成本。文中提出了一种折中的2.5D CNN模型，既高效又可以充分利用数据中的空间信息。

如上图（Fig.2）所示，2.5D CNN同时包含了2D和3D的卷积，其主体架构是U-Net中经典的encoder-decoder结构。Encoder中包含了五个层次的卷积，最开始的两个层次 (L1-L2)使用的是2D卷积，后面的三个层次 (L3-L5)使用的是3D卷积。这样做的原因在于，该任务的层面内分辨率大概是层面间分辨率的4倍，经过两个层次的2D卷积之后，层面内和层面间的分辨率就一致了，因此在之后就可以使用3D CNN进行处理。

上述的过程其实可以举个例子理解：假设现在的输入是一个MRI图像，zyx三个轴上的spacing为(4,1,1)，spacing可以理解为上述的分辨率。在2.5D CNN中，遍历z轴，可以得到一层一层的2D图像，这些2D图像经过两个阶段的最大池化之后，yx两轴上的分辨率就和z上的分辨率一致了，因此后续就可以采用3D CNN进行处理。

此外，图（Fig.2）中还有一个注意力模块，将在下一小节中进行介绍。