前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >医图论文 ACM MM'24 | PASSION:用于不均衡缺失率下有效不完全多模态医学图像分割的方法

医图论文 ACM MM'24 | PASSION:用于不均衡缺失率下有效不完全多模态医学图像分割的方法

作者头像
小白学视觉
发布于 2025-03-28 07:09:30
发布于 2025-03-28 07:09:30
1310
举报

论文信息

题目:PASSION: Towards Effective Incomplete Multi-Modal Medical Image Segmentation with Imbalanced Missing Rates
PASSION:用于不均衡缺失率下有效不完全多模态医学图像分割的方法
作者:Junjie Shi, Caozhi Shang, Zhaobin Sun, Li Yu, Xin Yang, Zengqiang Yan
源码:https://github.com/Jun-Jie-Shi/PASSION

论文创新点

  1. 提出新任务:首次提出并阐述了具有不均衡缺失率的不完全多模态医学图像分割这一更现实、更具挑战性的任务,打破以往研究中假设模态缺失率相同的局限,关注临床实际场景中模态缺失率的不均衡问题。
  2. 设计新方法:提出偏好感知自蒸馏(PASSION)方法,通过构建像素级和语义级自蒸馏,在统一框架中平衡各模态的优化目标;定义相对偏好评估模态主导地位,设计任务级和梯度级正则化,平衡不同模态的收敛速度。
  3. 性能更优越:在BraTS2020和MyoPS2020两个公开多模态数据集上进行实验,结果表明PASSION在模态平衡方面优于现有方法,能有效减少分割时的误报,在不同模态组合下性能更稳定。
  4. 即插即用特性:PASSION可作为即插即用模块集成到不同骨干网络中。实验验证,在多种骨干网络上引入PASSION后,在各种模态缺失率下均能实现性能提升,甚至在部分任务上超过完美数据训练(PDT)的效果,证明其具有良好的鲁棒性和灵活性 。

摘要

不完全多模态图像分割是医学成像中的一项基础任务,旨在仅部分模态可用时提高部署效率。然而,模型训练期间能获取完整模态数据这一常见做法与现实相差甚远,因为在临床场景中,各模态的缺失率可能不均衡。在本文中,作者首次阐述了这一具有挑战性的场景,并提出了偏好感知自蒸馏(PASSION)方法,用于在不均衡缺失率下进行不完全多模态医学图像分割。具体而言,作者首先构建了像素级和语义级自蒸馏,以平衡各模态的优化目标。然后,定义相对偏好来评估训练过程中各模态的主导地位,并据此设计任务级和梯度级正则化,以平衡不同模态的收敛速度。在两个公开的多模态数据集上的实验结果表明,PASSION在模态平衡方面优于现有方法。更重要的是,PASSION被验证可作为即插即用模块,在不同骨干网络上持续提升性能。

3. 方法

3.1 问题定义

3.2 多-单自蒸馏

受知识蒸馏(KD)的启发,其旨在通过软标签将教师的 “暗知识” 转移给学生,作者将多模态知识视为每个可用单模态的共同目标,以平衡模态间的学习。由于多模态知识是通过所有模态学习得到的,它可能会被某些缺失率较低的模态主导。通过KD进行惩罚时,这些模态会因为更接近多模态知识(即软标签)而被较少强调。这样,就有望在IDT中重新平衡模态。与以往基于KD的工作不同,那些工作依赖于基于PDT的单独完整多模态教师模型,作者更倾向于使用统一网络将多模态知识转移到单模态,称为多-单自蒸馏。一方面,这降低了在IDT下训练一个足够强大的教师模型的难度;另一方面,在统一框架中,多模态知识对于单模态来说是固有的,但尚未得到充分利用。具体来说,多-单自蒸馏由以下描述的像素级和语义级自蒸馏组成。

像素级自蒸馏。由于分割可以被表述为一个像素级分类任务,作者提出对齐多模态和单模态之间每个像素的预测。通过实验验证发现,特征级对齐通常会导致多模态性能下降,而在深度监督中进行logit对齐对于不均衡学习是一个更稳健的选择。因此,每个单模态的像素级多-单自蒸馏公式为:

其中表示Kullback-Leibler散度,是温度超参数,是softmax函数,和分别表示样本第层的多模态和模态的特征。

语义级自蒸馏。通过从不同模态学习更多信息,多模态教师模型能够捕捉到更稳健的类内和类间表示。因此,不仅要将局部像素级知识,还要将全局类级知识转移到单模态。通过使用原型来表示一个类的通用特征,作者希望构建多模态和单模态原型,以实现全局知识转移。这里,每个样本的原型是单独计算的,因为在分割中每个样本包含足够的像素。

3.3 偏好感知正则化

如前所述,多-单自蒸馏将知识平等地转移到可用的单模态,以平衡模态间的学习。然而,这可能仍然会使那些缺失率较高的模态难以跟上其他模态。这是因为出现频率较高的单模态在优化过程中往往比其他模态更具优势。因此,在IDT中动态评估每个单模态相对于其他模态的强弱,并平衡它们的学习速度至关重要。

4. 实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小白学视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
前瞻 | 用于医学图像解释的多模态生成式人工智能 | Nature
◉ 左上角,基于人工智能的医学图像解释模型传统上依赖于单模态输入来输出静态文本报告或其他疾病预测。◉ 右下角,GenMI 的出现为更动态的图像解释打开了大门。◉ 新技术将能够考虑全面的多模态上下文,包括患者病史和先前的图表,并生成注释和标签以提高报告的质量。◉ 它们还允许与患者和临床医生进行实时互动和后续跟进,从而提高对人工智能生成输出的可解释性。
生信菜鸟团
2025/04/04
790
前瞻 | 用于医学图像解释的多模态生成式人工智能 | Nature
医图论文 ACM MM'24 | BSBP-RWKV:用于高效医学图像分割的背景抑制与边界保留方法
医学图像分割对于疾病诊断和治疗规划具有重要意义。尽管取得了多项进展,但目前大多数方法存在两个问题:一是对抑制影响分割精度的背景噪声干扰重视不足;二是效率不够高,尤其是在处理高分辨率图像时。为应对这两个挑战,作者借助一种传统去噪方法和一种新型高效网络结构,提出了BSBP - RWKV模型,用于实现精确且高效的医学图像分割。具体而言,作者结合了Perona - Malik扩散(PMD)在抑制噪声的同时保留边界细节的优势,以及RWKV高效的结构特点,在编码器的一个分支中设计了DWT - PMD RWKV模块。该模块能够在抑制背景噪声干扰的同时,保留病变区域的边界细节。然后,作者将去噪后的病变边界线索输入到所提出的多步龙格 - 库塔卷积模块中,以补充更多局部细节。此外,作者还提出了一种新颖的形状优化损失函数,该函数可以在空间域和频率域中,使预测的病变区域形状与真实标签掩码对齐。在ISIC 2016和Kvasir - SEG数据集上的实验表明,BSBP - RWKV模型在精度和效率方面表现卓越。具体来说,与当前最优方法相比,BSBP - RWKV模型的复杂度降低了5.8倍,并且在推理过程中,对于每一幅1024×1024的图像,GPU内存使用量减少了62.7%以上。
小白学视觉
2025/03/24
1490
医图论文 ACM MM'24 | BSBP-RWKV:用于高效医学图像分割的背景抑制与边界保留方法
AAAI 2024 | 腾讯优图实验室27篇论文入选,含表格结构识别、异常图像生成、医学图像分割等研究方向
AAAI 2024 (AAAI Conference on Artificial Intelligence) 人工智能国际会议于近日公布论文录用结果,本届会议共收到9862篇份论文投稿,最终录用2342篇论文,录用率23.75%。
小腾资讯君
2024/01/17
1.7K0
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路!
医学图像分割的目标是从医学图像(如器官和病变)中识别特定的解剖结构,这是为提供可靠的体积和形状信息并协助许多临床应用(如疾病诊断和定量分析)提供基础和重要的一步。尽管基于深度学习的方法在医学图像分割任务上表现出色,但大多数这些方法都需要相对大量的优质标注数据进行训练,而获取大规模的仔细 Token 数据集是不切实际的,尤其是在医学成像领域,只有专家能够提供可靠和准确的分割标注。此外,常用的医学成像模式如CT和MRI是3D体积图像,这进一步增加了手动标注的工作量,与2D图像相比,专家需要逐层从体积切片进行分割。
集智书童公众号
2024/01/03
1.9K0
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路!
基于MRI医学图像的脑肿瘤分级
本文对近年来脑磁共振(MR)图像分割和肿瘤分级分类技术进行概述。文章强调了早期发现脑肿瘤及其分级的必要性。在磁共振成像(MRI)中,肿瘤可能看起来很清楚,但医生需要对肿瘤区域进行量化,以便进一步治疗。数字图像处理方法和机器学习有助于医生进一步诊断、治疗、手术前后的决策,从而发挥放射科医生和计算机数据处理之间的协同作用。本文旨在回顾以胶质瘤(包括星形细胞瘤)为靶点的肿瘤患者的脑部MR图像分割和分类的最新进展。阐述了用于肿瘤特征提取和分级的方法,这些方法可以整合到标准临床成像协议中。最后,对该技术的现状、未来发展和趋势进行了评估。本文发表在Biomedical Signal Processing and Control杂志。
用户1279583
2022/02/28
3K0
基于MRI医学图像的脑肿瘤分级
双边监督网络在半监督医学图像分割中的应用
Along He, Tao Li, Juncheng Yan, Kai Wang, Huazhu Fu
小白学视觉
2024/07/16
2770
双边监督网络在半监督医学图像分割中的应用
CVPR 2023 中的领域适应:用于切片方向连续的无监督跨模态医学图像分割
在这篇文章中,提出了 SDC-UDA,一种简单而有效的用于连续切片方向的跨模态医学图像分割的体积型 UDA 框架,它结合了切片内和切片间自注意力图像转换、不确定性约束的伪标签优化和体积型自训练。与以前的医学图像分割 UDA 方法不同之处在于它可以获得切片方向上的连续分割(这一点有点重要,因为往往临床上都是一个 3D 数据,而直接处理 3D 数据又需要很大的计算资源),从而确保更高的准确性和临床实践中的潜力。
BBuf
2023/08/22
1.3K1
CVPR 2023 中的领域适应:用于切片方向连续的无监督跨模态医学图像分割
CVPR 2017精彩论文解读:综合使用多形态核磁共振数据的3D生物医学图像分割方法 | 分享总结
论文的故事还在继续 相对于 CVPR 2017收录的共783篇论文,即便雷锋网(公众号:雷锋网) AI 科技评论近期挑选报道的获奖论文、业界大公司论文等等是具有一定特色和代表性的,也仍然只是沧海一粟,其余的收录论文中仍有很大的价值等待我们去挖掘,生物医学图像、3D视觉、运动追踪、场景理解、视频分析等方面都有许多新颖的研究成果。 所以我们继续邀请了宜远智能的刘凯博士对生物医学图像方面的多篇论文进行解读,延续之前最佳论文直播讲解活动,此次是第2篇。 刘凯博士是宜远智能的总裁兼联合创始人,有着香港浸会大学的博
AI研习社
2018/03/19
1.1K0
CVPR 2017精彩论文解读:综合使用多形态核磁共振数据的3D生物医学图像分割方法 | 分享总结
超越UNet:TP-UNet引入时间Prompt实现高级医学图像分割 !
医学图像分割在现代医学领域占有重要地位,在疾病诊断、手术计划和治疗监测等方面发挥基础作用 [1]。该任务的主要目标是准确地分离和 Token 医学图像中呈现的特定结构或组织,以便医疗专业行人能够进行细致分析并实现精确诊断。值得注意的是,随着深度学习技术的进步,一些基于UNet及其变体的网络已经展示了通过提取医学图像中的语义信息来实现令人称赞的分割准确性 [2]。
未来先知
2024/12/19
2720
超越UNet:TP-UNet引入时间Prompt实现高级医学图像分割 !
每日学术速递2.19
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2025/02/19
800
每日学术速递2.19
BiomedGPT:一个用于多种生物医学任务的通用视觉-语言基础模型
生信菜鸟团
2024/12/05
4030
BiomedGPT:一个用于多种生物医学任务的通用视觉-语言基础模型
深度学习时代下的RGB-D显著性目标检测研究进展
摘要:受人类的视觉注意力机制启发,显著性目标检测任务旨在定位给定场景中最吸引人注意的目标或区域。近年来, 随着深度相机的发展和普及, 深度图像已经被成功应用于各类计算机视觉任务, 这也为显著性目标检测技术提供了新思路。通过引入深度图像, 不仅能使计算机更加全面地模拟人类视觉系统, 而且深度图像所提供的结构、位置等补充信息也可以为低对比度、复杂背景等困难场景的检测提供新的解决方案。鉴于深度学习时代下RGB-D显著目标检测任务发展迅速,旨在从该任务关键问题的解决方案出发,对现有相关研究成果进行归纳、总结和梳理,并在常用RGB-D SOD数据集上进行不同方法的定量分析和定性比较。最后, 对该领域面临的挑战及未来的发展趋势进行总结与展望。
一点人工一点智能
2023/04/13
2K0
深度学习时代下的RGB-D显著性目标检测研究进展
计算视觉 | Nat.Methods | 一个用于跨九种模态的生物医学对象联合分割、检测和识别的基础模型
错误!!! - 待补充 [ul]- In each iteration i, we aggregate a batch from K mini-batches ({b}{1}^{i},\cdots ,,{b}{K}^{i}). For each mini-batch ({b}{k}^{i}), we randomly select dataset ({{\mathcal{D}}}{m}) for m = 1, ⋯, M with probability pm and sample the mini-batch without replacement. - Concatenate all mini-batches ({B}^{i}=[{b}{1}^{i},\cdots ,,{b}{K}^{i}]). - Perform training step with batch Bi.
生信菜鸟团
2025/02/06
1010
计算视觉 | Nat.Methods | 一个用于跨九种模态的生物医学对象联合分割、检测和识别的基础模型
Swin-LiteMedSAM:基于盒的轻量级片段任意模型,用于大规模医学图像数据集 !
医学影像诊断对评估疾病至关重要,医学影像分割,即从医学影像中提取特定结构(如肿瘤和器官)也一直受到广泛关注。深度学习方法在该领域取得了显著的进步,催生了大量针对特定场景的模型。然而,每个场景通常都需要训练一个专门的分割模型,这需要大量的工作。近年来,在自然语言处理(NLP)领域的巨模型(LLMs)迅速发展的启发下,研究行人开始探索将巨模型应用于计算机视觉。Segment Anything Model(SAM)就是其中之一,它通过与大量数据进行训练,试图将一般的图像分割任务统一。然而,尽管SAM在医疗影像分割任务上取得了高绩效,但其在大规模参数量和医疗图像的高空间分辨率下的计算和处理时间需求巨大。这使得SAM模型在实际部署中面临挑战,甚至对于没有GPU依赖的笔记本电脑或边缘设备上的非工业学术团体 Conducting research on them。因此,作为解决这一问题的SAM模型越来越受到关注。
未来先知
2024/09/24
3130
Swin-LiteMedSAM:基于盒的轻量级片段任意模型,用于大规模医学图像数据集 !
计算机视觉学术速递[7.12]
【1】 ViTGAN: Training GANs with Vision Transformers 标题:ViTGAN:用视觉Transformer训练Gan
公众号-arXiv每日学术速递
2021/07/27
1.5K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。
公众号机器学习与AI生成创作
2024/04/18
6.6K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
最近,扩散模型在图像生成方面取得了巨大的成功。然而,当涉及到布局生成时,由于图像通常包含多个物体的复杂场景,如何对全局布局图和每个详细对象进行强大的控制仍然是一个具有挑战性的任务。
公众号机器学习与AI生成创作
2023/08/22
4.4K1
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
计算机视觉与模式识别学术速递[12.22]
【1】 iSegFormer: Interactive Image Segmentation with Transformers 标题:iSegFormer:基于Transformers的交互式图像分割 链接:https://arxiv.org/abs/2112.11325
公众号-arXiv每日学术速递
2021/12/24
1.5K0
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
内容和风格(Content and style disentanglement,C-S)解耦是风格迁移的一个基本问题和关键挑战。基于显式定义(例如Gram矩阵)或隐式学习(例如GANs)的现有方法既不易解释也不易控制,导致表示交织在一起并且结果不尽如人意。
公众号机器学习与AI生成创作
2024/02/29
3.5K0
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
计算机视觉学术速递[7.8]
【1】 Long Short-Term Transformer for Online Action Detection 标题:用于在线动作检测的长短期Transformer
公众号-arXiv每日学术速递
2021/07/27
1.2K0
推荐阅读
前瞻 | 用于医学图像解释的多模态生成式人工智能 | Nature
790
医图论文 ACM MM'24 | BSBP-RWKV:用于高效医学图像分割的背景抑制与边界保留方法
1490
AAAI 2024 | 腾讯优图实验室27篇论文入选,含表格结构识别、异常图像生成、医学图像分割等研究方向
1.7K0
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路!
1.9K0
基于MRI医学图像的脑肿瘤分级
3K0
双边监督网络在半监督医学图像分割中的应用
2770
CVPR 2023 中的领域适应:用于切片方向连续的无监督跨模态医学图像分割
1.3K1
CVPR 2017精彩论文解读:综合使用多形态核磁共振数据的3D生物医学图像分割方法 | 分享总结
1.1K0
超越UNet:TP-UNet引入时间Prompt实现高级医学图像分割 !
2720
每日学术速递2.19
800
BiomedGPT:一个用于多种生物医学任务的通用视觉-语言基础模型
4030
深度学习时代下的RGB-D显著性目标检测研究进展
2K0
计算视觉 | Nat.Methods | 一个用于跨九种模态的生物医学对象联合分割、检测和识别的基础模型
1010
Swin-LiteMedSAM:基于盒的轻量级片段任意模型,用于大规模医学图像数据集 !
3130
计算机视觉学术速递[7.12]
1.5K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
6.6K0
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
4.4K1
计算机视觉与模式识别学术速递[12.22]
1.5K0
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
3.5K0
计算机视觉学术速递[7.8]
1.2K0
相关推荐
前瞻 | 用于医学图像解释的多模态生成式人工智能 | Nature
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档