作者 | 万博尧 编辑 | 乔剑博、李仲深
医学视觉问题回答(VQA)旨在正确的回答与给定医学图像相关的临床问题。然而,由于医疗数据的人工注释费用昂贵,缺乏海量带标签的数据限制了医学VQA的发展。在本文中,作者提出了一种简单而有效的数据增强方法VQAMix,以缓解数据缺少的问题。具体来说,VQAMix通过线性组合一系列VQA样本来产生更多的标记训练样本,这可以很容易地嵌入到任何视觉语言模型中以提高性能。然而,混合两个VQA样本会在不同样本的图像和问题之间构建新的联系,这将导致这些编造的图像-问题对的答案缺失或毫无意义。为了解决答案缺失的问题,作者首先开发了带缺失标签的学习(LML)策略,它大致上排除了缺失的答案。为了缓解无意义的答案问题,作者设计了带条件混合标签的学习(LCL)策略,该策略进一步利用语言类型的先决条件,迫使新混合的样本对拥有属于同一类别的合理答案。在VQA-RAD和PathVQA基准山的实验结果表明,作者提出的方法明显提高了基线的性能,在两个骨干的平均结果上跟别提高7%和5%,更重要的是,VQAMix可以提高置信度和模型的可解释性,这对医学VQA模型的实际应用意义重大。
MixUp与VQAMix对比示意图。在MixUp中,按随机权重缩放的两幅图像被线性组合,它们对应的标签用相同的权重进行融合。在VQAMix中,两个图像-问题对进行线性组合。
一、研究方法
1. 三元组混合
2. 带条件的三元组混合
2.1学习缺失标签
为了处理标签缺失问题,本文提出了一种简单直接的策略Learning with missing Labels (LML),直接丢弃这些标签,表示为:
使用这种策略,作者计算预测得分S'(在sigmoid函数之后)和噪声标签Y'之间的二元交叉熵损失来训练VQA模型:
其中C是候选答案集中答案的个数。
2.2基于条件混合标签的学习
在LML策略中,标签Y'中存在噪声成分,可能会对深度神经网络的性能产生负面影响。为了解决这个问题,本文提出了另一种使混合标记有意义的策略,称为Learning with Conditional-mixed labels (LCL)。
考虑到标签缺失本质上是由于混合了不同领域的答案造成的,本文提出条件混合,使模型在条件混合标签下进行学习。具体来说,有三种方法可以实现条件混合:(1)只混合具有相同成像模型的(v, q, a)元组;(2)只混淆相同问题类别的(v, q, a)元组;(3)将(v, q, a)元组与相同的图像模型和问题类别混合。
然而,作者应该使用哪种策略来进行有意义的数据增强?本文提出将(v, q, a)元组与同一类别的问题进行混合,基于以下考虑:(1)与问题和答案相比,问题和答案在隐空间中更接近,问题的类型可以直接反映答案的类型,从而使混合标签具有意义;(2)不同模态的图像易于区分,且在医学VQA任务中图像的局限性比问题对要大得多,因此不同模态的mixup图像可以提高图像的多样性;(3)由于有些问题是关于图像的模型和器官的,约束来自同一模型和器官的图像可以减少训练过程中的不确定性,从而使模型在这些样本上过拟合。例如,假设有两个混合对(q1:成像的模态是什么;v1: CT成像;(q2:这个图形可能属于什么形态;v2:核磁共振成像;a2: MRI)。如果作者混合这些对,模型可以更好地从不同模态的图像中学习特征表示。因此,作者提出了条件问题约束,即特定类别问题集Q,可以表示为:
其中问题的类别是通过相应数据集中的“问题类型”获得的。
基于将(v, q, a)元组与问题q混合在同一个mathbb{q}_c中,混合类别的答案可能是有意义的,作者将有意义的答案的标签定义为Y" 。使用Y" ,作者可以计算忽略存在未知答案的损失,以减少噪声的影响:
其中C是候选答案集中答案的个数。因此,设B为批次大小,训练批次的最终损失为:
本文所提出的通过缺失标签学习(LML)和条件混合标签学习(LCL)策略增强的VQAMix概述。两个VQA样本在训练阶段线性组合。为了保证混合标签能够用于监督VQA模型的学习,在缺少标签下的学习(LML)和在条件混合标签的学习(LCL)方案都将这两种未指定的标签进行丢弃,以解决标签缺失问题。此外,为了避免无意义的答案,LCL方案进一步利用问题的类别来避免模型遭受无意义的混合标签影响。
二、实验
在VQA-RAD测试集和PathVQA测试集上与最新方法进行对比实验。^star表示在作者的设备上使用5个不同的种子重新实现的结果。最好的结果显示在粗体中。
三、总结
本文提出一种新的数据增强方法VQAMix,以缓解医疗VQA中的数据限制。从技术上讲,VQAMix将两个训练样本与一个随机系数相结合,以提高训练数据的多样性,而不依赖于外部数据。为了缓解(v, q, a)元组组合带来的固有答案缺失问题和无意义答案问题,首先采用缺失标签策略进行学习,粗略地丢弃缺失答案;在此基础上,利用语言类别的先验知识加入条件混合约束,进一步建立了条件-混合标签的学习方法,使标记具有意义。在VQA-RAD和PathVQA基准上的广泛实验结果表明,所提出的方法为不同的模型带来了显著的增益。此外,VQAMix可以改进置信度校准,使预测得分更好地反映准确性,并提供更合理的类激活图,这对医学VQA模型在实际应用中具有意义。作为一种通用的解决方案,VQAMix可以进一步运用于各类多模态数据的增强与正则化(例如:分子/蛋白质数据,病理图像/基因组数据),具有很高的现实意义。
全文链接
https://ieeexplore.ieee.org/document/9802503
数据与代码
https://github.com/haifangong/VQAMix