以往成功的缺失模态补全方法依赖精心设计的融合技术以及在完整数据上的大量预训练,这限制了它们在域外(OOD)场景中的泛化能力。在本研究中,作者提出了一个新挑战:能否开发出一种既节省资源又对OOD泛化具有鲁棒性的缺失模态补全模型?为解决此问题,作者提出了一种基于大型多模态模型(LMM)的免训练缺失模态补全框架。作者的方法被称为“知识桥接器(Knowledge Bridger)”,它与模态无关,集成了缺失模态的生成和排序功能。通过定义特定领域的先验知识,该方法自动从可用模态中提取结构化信息以构建知识图谱。这些提取的图谱通过LMM将缺失模态生成模块和排序模块连接起来,从而实现对缺失模态的高质量补全。在通用领域和医学领域的实验结果表明,作者的方法始终优于竞争方法,在OOD泛化方面表现出色。此外,作者基于知识驱动的生成和排序技术相较于直接使用LMM进行生成和排序的变体,展现出优越性,这为其他领域的应用提供了有价值的见解。
作者的目标是借助预训练的LMM构建一个免训练的MMC流程。该流程从可用模态中提取知识并进行建模,随后利用这些知识生成缺失模态数据,并从生成的候选结果中选择最合适的补全。该流程如图1所示,包含三个步骤:
作者的目的是从可用模态中自动提取知识,以支持对任何缺失模态的生成和排序。在这里,“知识”指的是封装现有模态特征的信息,使生成和排序模块能够创建语义一致的缺失数据。然而,从未知领域提取相关知识颇具挑战。从知识图谱的角度来看,构建一个有意义的、特定于模态的图谱需要预定义节点和关系。在免训练的背景下,预定义这些元素尤为困难。
为克服这一问题,作者开发了一种使用LMM的自动实体和关系挖掘策略。该策略利用LMM丰富的先验知识和OOD能力,即便没有预定义元素,也能识别各种模态中的实体和关系。近期研究强调了LMM在零样本学习和推理方面的潜力。
基于上述分析,LMM可通过提示从可用模态中提取元素。为提高可扩展性,作者提出以下提取规则:{实体:推理提示}。例如,为识别潜在对象,可使用:{“对象”:“识别[模态类型]中的主要对象”}。该规则能让作者纳入对象关系和交互数据。为增强跨领域的适应性,还可纳入特定领域的先验知识,如医学图像分析中的组织学和临床诊断信息。这种方法有两个主要优点:一是减少LMM在新领域中运行时产生的误解;二是提升其对新实体的推理能力。
LMM可进一步将提取的信息整合为特定于模态的知识图谱。一种简单的方法是引导LMM从收集的数据中提取潜在的实体 - 关系对。但这种方法受上下文窗口长度的限制,过多的提取规则可能导致遗漏实体 - 关系对。为缓解这些限制,作者采用思维链(CoT)方法。具体而言,首先引导LMM针对每个规则生成简洁的回答,然后从这些回答中提取唯一的实体 - 关系对。这种逐步分解的方式提高了每个规则回答的准确性和信息的合成效果。重要的是,作者仅从当前模态中提取和保留数据,以避免无关信息的干扰,从而提高LMM的推理效率。
缺失多模态生成的目标是理解可用模态中的内容,并生成在语义上与之匹配的缺失模态。影响生成的缺失模态质量的两个关键因素是理解多模态内容和保持一致性。此前作者讨论了使用LMM进行内容理解和知识图谱提取,这里作者探索使用LMM确保一致性并指导生成。为方便起见,作者以图像 - 文本对作为研究对象。例如,当有图像可用时,作者旨在生成与真实数据紧密匹配的文本。一种基本方法是直接使用LMM描述图像,但这种方法存在很大的随机性。首先,缺失文本的形式未知,可能是标题、摘要或描述;其次,无法精确指定缺失文本的主题。
为解决这些问题,作者提出一种知识驱动的实体交替策略。利用领域知识和提取的知识图谱,作者选择相关实体。例如,如果缺失数据聚焦于“物体”这样的实体,作者会遍历知识图谱中与“物体”相关的元素。然后,作者采用多视角生成方式,让LMM以每个元素为主题生成缺失信息,同时涵盖知识图谱中的所有节点和属性。这些输出被存储为标准化的文本描述,减少了随机性,增强了结果的可检索性,并且提供了更好的可控性和可解释性。有了这些描述,模态生成器就可以创建缺失数据。对于缺失图像,基于实体的描述符可指导条件扩散方法;对于缺失文本,LMM处理这些描述以生成输出。这种方法适用于多个领域,借助成熟的生成模型和领域知识创建所需数据,无需额外训练。不过,仅依靠这种方法可能无法保证完全准确,这一点将在下一节讨论。
为基于给定知识对生成的缺失数据进行自动排序,作者引入了图谱相似度和表征相似度。图谱相似度通过计算两个图谱邻接矩阵的平均余弦相似度得分来衡量,公式如下:
其中,和分别表示邻接矩阵和的第行向量,指第行的欧几里得范数:,和分别表示邻接矩阵的行数和列数。该指标反映了两个图谱之间的相似程度,其值在0到100之间归一化。另一方面,作者计算生成模态和可用模态之间的表征相似度,以反映语义一致性。为衡量一致性,同样采用余弦相似度计算两个表征之间的相似度,表达式为,其中和是两个模态的向量。受相关研究启发,作者直接利用CLIP和BLIP获取每个模态的语义嵌入。最后,作者推导出以下公式来计算任意一对可用模态和缺失模态之间的生成质量分数:
其中,和分别表示可用模态和缺失模态,函数、和分别用于获取给定模态的邻接矩阵、CLIP嵌入和BLIP嵌入。作者认为可以综合评估两个关键因素:知识结构相似度和语义一致性。分数越高,表明生成的缺失模态质量越高。作者的方法最终输出得分最高的生成缺失模态。
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有