首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

​UNet-系列论文一--医学图像分割

UNet-系列论文一

AgileFormer: Spatially Agile Transformer UNet for Medical Image Segmentation

动动您的小手指,关注一下吧!

01 摘要

在过去的几十年里,深度神经网络,特别是卷积神经网络,已经在各种医学图像分割任务中取得了最先进的性能。近年来,视觉变压器(vision transformer, ViT)的引入极大地改变了深度分割模型的格局。由于其出色的性能和可扩展性,vit受到了越来越多的关注。然而,我们认为目前基于视觉变换的U-Net (ViT-UNet)分割模型的设计可能无法有效处理医学图像分割任务中感兴趣对象的异构外观(例如,不同形状和大小)。为了应对这一挑战,作者提出了一种结构化的方法来将空间动态组件引入ViT-UNet。这种自适应使模型能够有效地捕获具有不同外观的目标物体的特征。这是通过三个主要组成部分实现的:(i)可变形patch嵌入;(ii)空间动态多头注意;(iii)可变形的位置编码。这些组件被集成到一个新的体系结构中,称为AgileFormer。AgileFormer是为医学图像分割而设计的空间敏捷ViT-UNet。利用公开数据集对三个分割任务进行了实验,验证了该方法的有效性。

图1 AgileFormer的结构。

02 拟解决的问题

1. 异构目标对象的处理:医学图像分割任务中的目标对象(如不同的器官)可能在形状和大小上存在显著差异,传统的ViT-UNet模型可能无法有效捕捉这些变化。

2. 模型的可扩展性:现有模型可能在扩大模型规模时性能提升不明显,这限制了它们在更复杂或更高分辨率图像上的应用。

3. 计算复杂性:一些ViT-UNet模型由于参数众多和计算复杂,导致计算资源消耗大,不利于实时或资源受限环境中的应用。

图2 Synapse数据集中模型可扩展性的比较。基本模型几乎是微型模型的四倍大。(b)从SwinUNet到拟议的AgileFormer的路线图:从上到下,每一行代表一个模型设计变体。前景条形图是不同设计变体的FLOP模式下的DSC;一条线表示修改导致性能下降。

03 本文的创新之处

1. 空间动态组件的引入:AgileFormer通过三个主要组件引入空间动态性:(i) 可变形补丁嵌入(deformable patch embedding);(ii) 空间动态多头注意力(spatially dynamic multi-head attention);(iii) 可变形位置编码(deformable positional encoding)。

2. 可变形补丁嵌入:替代了ViT-UNet中的标准刚性正方形补丁嵌入,利用可变形卷积来提取更好的局部表示,以补偿自注意力机制中缺乏的局部性。

3. 空间动态自注意力:提出了一种空间动态自注意力模块,该模块通过交替使用可变形多头注意力(DMSA)和邻域多头注意力(NMSA)来捕获空间变化的特征。

4. 多尺度可变形位置编码:提出了一种新颖的多尺度可变形位置编码,用于模拟自注意力中不规则采样的网格,以适应DMSA引入的不规则网格。

图3 可变形多头自关注中不规则采样网格的多尺度可变形位置编码。

5. 模型结构的创新:AgileFormer将这些动态组件整合到一个新颖的ViT-UNet架构中,使其能够更好地适应医学图像分割任务中的多样化目标。

04 方法流程

1. 方法概述

提出了AgileFormer,这是一个空间敏捷的ViT-UNet,通过三个主要创新组件来增强模型对目标对象多样性的捕捉能力。

2. AgileFormer的关键组件

可变形补丁嵌入(Deformable Patch Embedding):使用可变形卷积替代传统的刚性补丁嵌入,以提供更精确的像素级定位并适应不同形状和大小的目标对象。

空间动态多头自注意力(Spatially Dynamic Multi-Head Self-Attention):采用可变形多头自注意力(DMSA)和邻域多头自注意力(NMSA),以捕获空间变化的特征并增强局部信息的保持。

多尺度可变形位置编码(Multi-Scale Deformable Positional Encoding):提出了一种新的不规则采样网格的多尺度可变形位置编码,以适应DMSA引入的不规则网格。

3. 模型构建

开发了两种变体的AgileFormer,调整了嵌入维度和头数,但保持了主要结构不变。

引入了深度监督(Deep Supervision, DS)来进一步提升模型性能。

05 实验结果

图4 通过Synapse、ACDC和Decathlon数据集对(a)多器官、(b)心脏和(c)脑肿瘤分割进行视觉比较。AgileFormer在所有三个数据集上显示了最好的定性分割质量。

图5 (a) CoTr是一个混合模型,其中Deformable DETER[37]应用于瓶颈。(b) SDAUT是最初提出的用于医学图像恢复的ViT-UNet。SDAUT的编码器/解码器采用窗口注意(window attention, WMSA);而DMSA应用于瓶颈。(c) MERIT使用多分辨率和多阶段方法捕获动态特征表示,以MaxViT[38]为构建块。(d) AgileFormer将NMSA和DMSA交替作为构建块,增加了新颖的可变形补丁嵌入和多尺度可变形位置编码。

表1 使用Synapse数据集与2D方法在多器官分割中的性能比较。

表2 使用ACDC数据集与2D方法在MRI分割中的性能比较。

版权说明

本文中的内容全部来自论文《AgileFormer: Spatially Agile Transformer UNet for Medical Image Segmentation》,分享文章的目的是为了让更多刚入门的同学能够快速了解最前沿的科研动态,进而快速筛选出对自己有帮助的文献,助力科研。如有侵权,请联系本公众号立即删除。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O-WKwWpFIKsknDkCmlXkr5cg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券