前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[IEEE Trans. Med. Imaging] VQAMix:基于带条件三元组混合的医学图像问答

[IEEE Trans. Med. Imaging] VQAMix:基于带条件三元组混合的医学图像问答

作者头像
智能生信
发布2022-12-29 17:26:50
9860
发布2022-12-29 17:26:50
举报
文章被收录于专栏:智能生信智能生信

作者 | 万博尧 编辑 | 乔剑博、李仲深

医学视觉问题回答(VQA)旨在正确的回答与给定医学图像相关的临床问题。然而,由于医疗数据的人工注释费用昂贵,缺乏海量带标签的数据限制了医学VQA的发展。在本文中,作者提出了一种简单而有效的数据增强方法VQAMix,以缓解数据缺少的问题。具体来说,VQAMix通过线性组合一系列VQA样本来产生更多的标记训练样本,这可以很容易地嵌入到任何视觉语言模型中以提高性能。然而,混合两个VQA样本会在不同样本的图像和问题之间构建新的联系,这将导致这些编造的图像-问题对的答案缺失或毫无意义。为了解决答案缺失的问题,作者首先开发了带缺失标签的学习(LML)策略,它大致上排除了缺失的答案。为了缓解无意义的答案问题,作者设计了带条件混合标签的学习(LCL)策略,该策略进一步利用语言类型的先决条件,迫使新混合的样本对拥有属于同一类别的合理答案。在VQA-RAD和PathVQA基准山的实验结果表明,作者提出的方法明显提高了基线的性能,在两个骨干的平均结果上跟别提高7%和5%,更重要的是,VQAMix可以提高置信度和模型的可解释性,这对医学VQA模型的实际应用意义重大。

MixUp与VQAMix对比示意图。在MixUp中,按随机权重缩放的两幅图像被线性组合,它们对应的标签用相同的权重进行融合。在VQAMix中,两个图像-问题对进行线性组合。

一、研究方法

1. 三元组混合

2. 带条件的三元组混合

2.1学习缺失标签

为了处理标签缺失问题,本文提出了一种简单直接的策略Learning with missing Labels (LML),直接丢弃这些标签,表示为:

使用这种策略,作者计算预测得分S'(在sigmoid函数之后)和噪声标签Y'之间的二元交叉熵损失来训练VQA模型:

其中C是候选答案集中答案的个数。

2.2基于条件混合标签的学习

在LML策略中,标签Y'中存在噪声成分,可能会对深度神经网络的性能产生负面影响。为了解决这个问题,本文提出了另一种使混合标记有意义的策略,称为Learning with Conditional-mixed labels (LCL)。

考虑到标签缺失本质上是由于混合了不同领域的答案造成的,本文提出条件混合,使模型在条件混合标签下进行学习。具体来说,有三种方法可以实现条件混合:(1)只混合具有相同成像模型的(v, q, a)元组;(2)只混淆相同问题类别的(v, q, a)元组;(3)将(v, q, a)元组与相同的图像模型和问题类别混合。

然而,作者应该使用哪种策略来进行有意义的数据增强?本文提出将(v, q, a)元组与同一类别的问题进行混合,基于以下考虑:(1)与问题和答案相比,问题和答案在隐空间中更接近,问题的类型可以直接反映答案的类型,从而使混合标签具有意义;(2)不同模态的图像易于区分,且在医学VQA任务中图像的局限性比问题对要大得多,因此不同模态的mixup图像可以提高图像的多样性;(3)由于有些问题是关于图像的模型和器官的,约束来自同一模型和器官的图像可以减少训练过程中的不确定性,从而使模型在这些样本上过拟合。例如,假设有两个混合对(q1:成像的模态是什么;v1: CT成像;(q2:这个图形可能属于什么形态;v2:核磁共振成像;a2: MRI)。如果作者混合这些对,模型可以更好地从不同模态的图像中学习特征表示。因此,作者提出了条件问题约束,即特定类别问题集Q,可以表示为:

其中问题的类别是通过相应数据集中的“问题类型”获得的。

基于将(v, q, a)元组与问题q混合在同一个mathbb{q}_c中,混合类别的答案可能是有意义的,作者将有意义的答案的标签定义为Y" 。使用Y" ,作者可以计算忽略存在未知答案的损失,以减少噪声的影响:

其中C是候选答案集中答案的个数。因此,设B为批次大小,训练批次的最终损失为:

本文所提出的通过缺失标签学习(LML)和条件混合标签学习(LCL)策略增强的VQAMix概述。两个VQA样本在训练阶段线性组合。为了保证混合标签能够用于监督VQA模型的学习,在缺少标签下的学习(LML)和在条件混合标签的学习(LCL)方案都将这两种未指定的标签进行丢弃,以解决标签缺失问题。此外,为了避免无意义的答案,LCL方案进一步利用问题的类别来避免模型遭受无意义的混合标签影响。

二、实验

在VQA-RAD测试集和PathVQA测试集上与最新方法进行对比实验。^star表示在作者的设备上使用5个不同的种子重新实现的结果。最好的结果显示在粗体中。

三、总结

本文提出一种新的数据增强方法VQAMix,以缓解医疗VQA中的数据限制。从技术上讲,VQAMix将两个训练样本与一个随机系数相结合,以提高训练数据的多样性,而不依赖于外部数据。为了缓解(v, q, a)元组组合带来的固有答案缺失问题和无意义答案问题,首先采用缺失标签策略进行学习,粗略地丢弃缺失答案;在此基础上,利用语言类别的先验知识加入条件混合约束,进一步建立了条件-混合标签的学习方法,使标记具有意义。在VQA-RAD和PathVQA基准上的广泛实验结果表明,所提出的方法为不同的模型带来了显著的增益。此外,VQAMix可以改进置信度校准,使预测得分更好地反映准确性,并提供更合理的类激活图,这对医学VQA模型在实际应用中具有意义。作为一种通用的解决方案,VQAMix可以进一步运用于各类多模态数据的增强与正则化(例如:分子/蛋白质数据,病理图像/基因组数据),具有很高的现实意义。


全文链接

https://ieeexplore.ieee.org/document/9802503

数据与代码

https://github.com/haifangong/VQAMix

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-11-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档