首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

[IEEE Trans. Med. Imaging] VQAMix:基于带条件三元组混合的医学图像问答

医学视觉问题回答(VQA)旨在正确的回答与给定医学图像相关的临床问题。然而,由于医疗数据的人工注释费用昂贵,缺乏海量带标签的数据限制了医学VQA的发展。在本文中,作者提出了一种简单而有效的数据增强方法VQAMix,以缓解数据缺少的问题。具体来说,VQAMix通过线性组合一系列VQA样本来产生更多的标记训练样本,这可以很容易地嵌入到任何视觉语言模型中以提高性能。然而,混合两个VQA样本会在不同样本的图像和问题之间构建新的联系,这将导致这些编造的图像-问题对的答案缺失或毫无意义。为了解决答案缺失的问题,作者首先开发了带缺失标签的学习(LML)策略,它大致上排除了缺失的答案。为了缓解无意义的答案问题,作者设计了带条件混合标签的学习(LCL)策略,该策略进一步利用语言类型的先决条件,迫使新混合的样本对拥有属于同一类别的合理答案。在VQA-RAD和PathVQA基准山的实验结果表明,作者提出的方法明显提高了基线的性能,在两个骨干的平均结果上跟别提高7%和5%,更重要的是,VQAMix可以提高置信度和模型的可解释性,这对医学VQA模型的实际应用意义重大。

00
领券