Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >CVPR 2025 | 知识桥接器:迈向免训练的缺失模态补全

CVPR 2025 | 知识桥接器:迈向免训练的缺失模态补全

作者头像
小白学视觉
发布于 2025-03-29 06:41:26
发布于 2025-03-29 06:41:26
1610
举报

论文信息

题目:Knowledge Bridger: Towards Training-Free Missing Modality Completion
知识桥接器:迈向免训练的缺失模态补全
作者:Guanzhou Ke, Shengfeng He, Xiaoli Wang, Bo Wang, Guoqing Chao, Yuanyang Zhang, Yi Xie, Hexing Su

论文创新点

  1. 提出免训练的缺失模态补全框架:论文提出了名为“知识桥接器(Knowledge Bridger)”的免训练框架,该框架借助大型多模态模型(LMM),自动从可用模态中提取多模态知识,进而实现缺失模态的生成和补全结果的排序。
  2. 采用模态无关的统一策略:作者深入研究并采用了一种与模态无关的统一策略来进行缺失模态补全和排序。该策略重点在于定义特定领域的知识,摒弃了复杂的融合方法和专门的训练流程,使得模型可以更专注于知识的挖掘与利用,提高了模型的通用性和适应性。
  3. 增强领域迁移能力:通过大量实验,证明了该方法在通用场景和域外(OOD)场景下均优于其他MMC方法,展现出强大的领域迁移能力。

摘要

以往成功的缺失模态补全方法依赖精心设计的融合技术以及在完整数据上的大量预训练,这限制了它们在域外(OOD)场景中的泛化能力。在本研究中,作者提出了一个新挑战:能否开发出一种既节省资源又对OOD泛化具有鲁棒性的缺失模态补全模型?为解决此问题,作者提出了一种基于大型多模态模型(LMM)的免训练缺失模态补全框架。作者的方法被称为“知识桥接器(Knowledge Bridger)”,它与模态无关,集成了缺失模态的生成和排序功能。通过定义特定领域的先验知识,该方法自动从可用模态中提取结构化信息以构建知识图谱。这些提取的图谱通过LMM将缺失模态生成模块和排序模块连接起来,从而实现对缺失模态的高质量补全。在通用领域和医学领域的实验结果表明,作者的方法始终优于竞争方法,在OOD泛化方面表现出色。此外,作者基于知识驱动的生成和排序技术相较于直接使用LMM进行生成和排序的变体,展现出优越性,这为其他领域的应用提供了有价值的见解。

2. 方法

2.1 概述

作者的目标是借助预训练的LMM构建一个免训练的MMC流程。该流程从可用模态中提取知识并进行建模,随后利用这些知识生成缺失模态数据,并从生成的候选结果中选择最合适的补全。该流程如图1所示,包含三个步骤:

  1. 从可用模态构建知识图谱。此步骤旨在利用预训练LMM的通用知识,理解各模态的内容及其相互关系。
  2. 知识驱动的生成。在此步骤中,LMM利用知识图谱提取关于缺失模态的具体细节,包括对象的数量和属性。然后,相应的模态生成器使用这些信息生成所需的缺失模态。
  3. 基于知识的排序。此步骤旨在通过评估缺失模态和可用模态之间的图谱相似度和语义相似度,为生成的缺失数据计算质量分数。

2.2 知识图谱建模

作者的目的是从可用模态中自动提取知识,以支持对任何缺失模态的生成和排序。在这里,“知识”指的是封装现有模态特征的信息,使生成和排序模块能够创建语义一致的缺失数据。然而,从未知领域提取相关知识颇具挑战。从知识图谱的角度来看,构建一个有意义的、特定于模态的图谱需要预定义节点和关系。在免训练的背景下,预定义这些元素尤为困难。

为克服这一问题,作者开发了一种使用LMM的自动实体和关系挖掘策略。该策略利用LMM丰富的先验知识和OOD能力,即便没有预定义元素,也能识别各种模态中的实体和关系。近期研究强调了LMM在零样本学习和推理方面的潜力。

基于上述分析,LMM可通过提示从可用模态中提取元素。为提高可扩展性,作者提出以下提取规则:{实体:推理提示}。例如,为识别潜在对象,可使用:{“对象”:“识别[模态类型]中的主要对象”}。该规则能让作者纳入对象关系和交互数据。为增强跨领域的适应性,还可纳入特定领域的先验知识,如医学图像分析中的组织学和临床诊断信息。这种方法有两个主要优点:一是减少LMM在新领域中运行时产生的误解;二是提升其对新实体的推理能力。

LMM可进一步将提取的信息整合为特定于模态的知识图谱。一种简单的方法是引导LMM从收集的数据中提取潜在的实体 - 关系对。但这种方法受上下文窗口长度的限制,过多的提取规则可能导致遗漏实体 - 关系对。为缓解这些限制,作者采用思维链(CoT)方法。具体而言,首先引导LMM针对每个规则生成简洁的回答,然后从这些回答中提取唯一的实体 - 关系对。这种逐步分解的方式提高了每个规则回答的准确性和信息的合成效果。重要的是,作者仅从当前模态中提取和保留数据,以避免无关信息的干扰,从而提高LMM的推理效率。

2.3 知识驱动的生成

缺失多模态生成的目标是理解可用模态中的内容,并生成在语义上与之匹配的缺失模态。影响生成的缺失模态质量的两个关键因素是理解多模态内容和保持一致性。此前作者讨论了使用LMM进行内容理解和知识图谱提取,这里作者探索使用LMM确保一致性并指导生成。为方便起见,作者以图像 - 文本对作为研究对象。例如,当有图像可用时,作者旨在生成与真实数据紧密匹配的文本。一种基本方法是直接使用LMM描述图像,但这种方法存在很大的随机性。首先,缺失文本的形式未知,可能是标题、摘要或描述;其次,无法精确指定缺失文本的主题。

为解决这些问题,作者提出一种知识驱动的实体交替策略。利用领域知识和提取的知识图谱,作者选择相关实体。例如,如果缺失数据聚焦于“物体”这样的实体,作者会遍历知识图谱中与“物体”相关的元素。然后,作者采用多视角生成方式,让LMM以每个元素为主题生成缺失信息,同时涵盖知识图谱中的所有节点和属性。这些输出被存储为标准化的文本描述,减少了随机性,增强了结果的可检索性,并且提供了更好的可控性和可解释性。有了这些描述,模态生成器就可以创建缺失数据。对于缺失图像,基于实体的描述符可指导条件扩散方法;对于缺失文本,LMM处理这些描述以生成输出。这种方法适用于多个领域,借助成熟的生成模型和领域知识创建所需数据,无需额外训练。不过,仅依靠这种方法可能无法保证完全准确,这一点将在下一节讨论。

2.4 基于知识的排序

为基于给定知识对生成的缺失数据进行自动排序,作者引入了图谱相似度和表征相似度。图谱相似度通过计算两个图谱邻接矩阵的平均余弦相似度得分来衡量,公式如下:

其中,和分别表示邻接矩阵和的第行向量,指第行的欧几里得范数:,和分别表示邻接矩阵的行数和列数。该指标反映了两个图谱之间的相似程度,其值在0到100之间归一化。另一方面,作者计算生成模态和可用模态之间的表征相似度,以反映语义一致性。为衡量一致性,同样采用余弦相似度计算两个表征之间的相似度,表达式为,其中和是两个模态的向量。受相关研究启发,作者直接利用CLIP和BLIP获取每个模态的语义嵌入。最后,作者推导出以下公式来计算任意一对可用模态和缺失模态之间的生成质量分数:

其中,和分别表示可用模态和缺失模态,函数、和分别用于获取给定模态的邻接矩阵、CLIP嵌入和BLIP嵌入。作者认为可以综合评估两个关键因素:知识结构相似度和语义一致性。分数越高,表明生成的缺失模态质量越高。作者的方法最终输出得分最高的生成缺失模态。

3. 实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小白学视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AAAI 2024| 知识图谱论文总结
最近,收集一下AAAI 2024关于知识图谱的论文,主要是以Knowledge graph为关键词进行总结,关于知识图谱中涉及到的实体识别、关系抽取等文章就不在本次的总结之列(如有遗漏,欢迎大家补充)。
时空探索之旅
2024/11/19
1.7K0
AAAI 2024| 知识图谱论文总结
最新《知识图谱:机遇与挑战》综述,详述知识图谱最新进展
随着人工智能和大数据的爆炸式增长,如何合理地组织和表示海量的知识变得至关重要。知识图谱作为图数据,可以用来积累和传递现实世界的知识。知识图谱可以有效地表示复杂信息,因此,近年来迅速受到学术界和工业界的关注。为了加深对知识图谱的理解,本文对该领域进行了系统综述。
一点人工一点智能
2023/03/29
4.7K0
最新《知识图谱:机遇与挑战》综述,详述知识图谱最新进展
DeepSeek:知识图谱与大模型参数化知识融合的创新架构
在目前大模型与知识图谱作为两个重要的研究方向,各自展现出了强大的能力与潜力。大模型,凭借其在海量数据上的深度训练,拥有强大的语言理解与生成能力,能够处理多种自然语言处理任务,如文本生成、问答系统、机器翻译等 ,像 GPT 系列模型,一经推出便在全球范围内引起了广泛关注,展示了大模型在语言处理方面的卓越能力。知识图谱则以结构化的方式组织知识,清晰地展现了实体之间的关系,为智能应用提供了丰富的背景知识,在智能搜索、推荐系统等领域发挥着关键作用,例如百度的知识图谱,为用户提供了更加智能、准确的搜索结果。
李游Leo
2025/02/07
1.2K0
DeepSeek:知识图谱与大模型参数化知识融合的创新架构
多模态知识图谱前沿进展
本节探讨多模态知识图谱的问题。前面曾多次提到,知识图谱的数据来源不仅仅是文本和结构化数据,也可以是图片、视频和音频等视觉或听觉形式的数据。多模态就是指视觉、听觉和语言等不同模态通道的融合。能够充分融合和利用语言、视觉和听觉等多种模态来源数据的知识图谱叫作多模态知识图谱。
一点人工一点智能
2022/12/27
1.2K0
多模态知识图谱前沿进展
美团基于知识图谱的剧本杀标准化建设与应用
2021年 第045篇剧本杀作为爆发式增长的新兴业务,在商家上单、用户选购、供需匹配等方面存在不足,供给标准化能为用户、商家、平台三方创造价值,助力业务增长。
美团技术团队
2021/11/05
5880
美团基于知识图谱的剧本杀标准化建设与应用
《迈向认知智能新高度:深度融合机器学习与知识图谱技术》
在人工智能的蓬勃发展进程中,机器学习与知识图谱技术正逐渐成为推动行业变革的关键力量。机器学习赋予机器从数据中学习并做出预测的能力,知识图谱则以结构化的方式描绘现实世界中实体与关系,为机器理解知识提供了语义框架。将二者深度融合,能突破传统人工智能的局限,开启认知智能的全新篇章。
程序员阿伟
2025/02/26
1480
知识图谱综述论文阅读
论文为A Survey on Knowledge Graphs: Representation, Acquisition and Applications,发表日期2020年,论文PDF,点击链接。
里克贝斯
2021/05/21
9060
知识图谱综述论文阅读
KG4Py:Python代码知识图谱和语义搜索的工具包
现在的项目程序中存在着大量重复的代码片段,尤其是在软件开发的时候。在本文中,我们提出了一个工具包(KG4Py),用于在GitHub存储库中生成Python文件的知识图谱,并使用知识图谱进行语义搜索。在KG4Py中,我们删除了31.7万个Python文件中的所有重复文件,并通过使用具体语法树(CST)构建Python函数的代码知识图谱来执行这些文件的静态代码分析。我们将预先训练的模型与无监督模型集成后生成新模型,并将该新模型与代码知识图谱相结合,方便搜索具有自然语言描述的代码片段。实验结果表明,KG4Py在代码知识图谱的构建和代码片段的语义搜索方面都取得了良好的性能。
一点人工一点智能
2022/12/24
2.3K0
KG4Py:Python代码知识图谱和语义搜索的工具包
MDNN: 一种用于药物-药物反应预测的多模态深度神经网络
今天介绍的是中南大学高建良团队和他人合作发表在IJCAI2021上的一篇文章“MDNN: A Multimodal Deep Neural Network for Predicting Drug-Drug Interaction Events”。本文指出许多基于人工智能的技术已经被提出并用于预测药物-药物反应(DDI),而现有的研究方法较少关注DDI与靶标、酶等多模态数据之间的潜在相关性。为了解决这一问题,作者提出了一个用于DDI预测的多模态深度神经网络(MDNN)。本文设计了一个基于药物知识图谱(DKG)的通道和基于异质特征(HF)的通道的双通道框架来获取药物的多模态表征。最后,通过一个多模态融合神经层来探索药物多模态表征之间的互补关系。作者在真实数据集上进行了广泛的实验。结果表明,MDNN能够准确预测DDI,并优于现有的模型。
DrugAI
2021/09/17
1.9K0
MDNN: 一种用于药物-药物反应预测的多模态深度神经网络
知识图谱与大模型双向驱动的关键问题和应用探索
知识图谱和大型语言模型都是用来表示和处理知识的手段。大模型补足了理解语言的能力,知识图谱则丰富了表示知识的方式,两者的深度结合必将为人工智能提供更为全面、可靠、可控的知识处理方法。在这一背景下,OpenKG组织新KG视点系列文章——“大模型专辑”,不定期邀请业内专家对知识图谱与大模型的融合之道展开深入探讨。本期邀请到蚂蚁集团知识引擎负责人梁磊分享“SPG与LLM双向驱动的关键问题和应用探索”,本文整理自梁磊老师在2023年10月26日沈阳举办的CNCC知识图谱论坛上的分享。
可信AI进展
2024/01/30
1.3K0
知识图谱与大模型双向驱动的关键问题和应用探索
OPPO 自研大规模知识图谱及其在数智工程中的应用
本文主要分享 OPPO 知识图谱建设过程中算法相关的技术挑战和对应的解决方案,主要包括实体分类、实体对齐、信息抽取、实体链接和图谱问答 query 解析等相关算法内容。
NebulaGraph
2022/07/26
8530
OPPO 自研大规模知识图谱及其在数智工程中的应用
浙大 & 蚂蚁 | 提出MyGO框架,旨在提升多模态知识图谱(MMKG)完整性!
如何有效融合图像、文本等多模态信息以提高多模态知识图谱(MMKG)完整性,一直是多模态知识图谱的研究热点。当前MMKG补全方法往往忽略了多模态数据中的细粒度语义细节,进而影响了模型性能。
ShuYini
2024/04/19
1.2K0
浙大 & 蚂蚁 | 提出MyGO框架,旨在提升多模态知识图谱(MMKG)完整性!
知识图谱嵌入的无监督学习方法详解
随着大数据时代的到来,如何从海量信息中获取有价值的知识成为重要课题。知识图谱作为一种将现实世界中各类实体及其相互关系用结构化的方式呈现的工具,在搜索引擎、推荐系统、问答系统等领域有广泛的应用。然而,知识图谱的复杂结构和不完备性导致传统基于有监督学习的嵌入方法难以充分利用全部数据。
数字扫地僧
2024/09/21
2040
知识图谱嵌入的无监督学习方法详解
告诉我们事实:用知识图谱增强大语言模型以实现事实感知的语言建模
论文标题:Give Us the Facts: Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling
叶庭云
2024/05/24
5070
港中文 和 上海 AI Lab提出 GTP-4o 异构图技术突破多模态学习难题 !
每种模态都有自己的视角来反映特定的数据特征。整合多模态数据使模型能够在宏观、微观和分子层面上获得关于受试者状况的各种洞察,从而实现准确全面的疾病诊断。例如,各种成像技术的多模态融合显著提高了在内镜场景中胃肠道病变的检测和表征。同样,将基因信息与病理图像结合可以提高癌症分级的预测准确性。相关任务,如生存预测(旨在预测重大事件如死亡或疾病复发的时间间隔),也可以从这种多模态融合中受益[7]。此外,由病理图像中的细胞核分割构建的细胞图显示提供了更细粒度的微观信息[70]。视觉语言模型在生物医学图像和文本学习方面的最新进展也激发了一系列工作[78],其中诊断文本通常包含抽象的语义信息[10]。这些进展为扩展生物医学多模态模型的容量边界至全模态表示,以处理更广泛的临床模态提供了潜力。
AIGC 先锋科技
2024/07/20
2300
港中文 和 上海 AI Lab提出 GTP-4o 异构图技术突破多模态学习难题 !
J. Med. Chem. | TarIKGC - 一种基于知识图谱补全与多模态特征融合的创新靶标识别计算工具
2024年1月2日,中山大学药学院与中南大学湘雅药学院等在《J Med Chem》期刊发表题“TarIKGC: A Target Identification Tool Using Semantics-Enhanced Knowledge Graph Completion with Application to CDK2 Inhibitor Discovery” 的研究论文。该研究提出了一种创新的靶标识别计算工具——TarIKGC。该工具融合了知识图谱补全技术与多模态特征融合策略,旨在深入挖掘生物医学知识图谱中潜在的分子相互作用。
DrugAI
2025/02/18
1030
J. Med. Chem. | TarIKGC - 一种基于知识图谱补全与多模态特征融合的创新靶标识别计算工具
技术知识介绍:工业级知识图谱方法与实践-解密知识谱的通用可迁移构建方法,以阿里巴巴大规模知识图谱核心技术为介绍
纯KG技术领域分享:解密知识谱的通用可迁移构建方法,以阿里巴巴大规模知识图谱核心技术为介绍。
汀丶人工智能
2022/12/21
7780
技术知识介绍:工业级知识图谱方法与实践-解密知识谱的通用可迁移构建方法,以阿里巴巴大规模知识图谱核心技术为介绍
扩散模型+知识图谱的前沿综述
知识图谱(图网络)在推荐系统中的重要性不言而喻,但并非所有关系都与目标推荐任务相关。为解决这一问题,本文介绍了名为DiffKG的新的知识图谱扩散模型,结合了生成扩散模型与数据增强范式,实现了鲁棒的知识图谱表示学习。
算法进阶
2024/03/18
7340
扩散模型+知识图谱的前沿综述
大模型时代,图表征学习在NLP领域的应用
句法树(Syntex Tree)是对一个句子中不同组成元素间结构、层次和功能关系的通用描述方式。由于树可以被视为一种特殊的图,因此许多方法基于句法树进行图表征学习以辅助文本分类。
博文视点Broadview
2023/10/09
8840
大模型时代,图表征学习在NLP领域的应用
2024 最新综述 | 当知识图谱遇上多模态学习
在该综述中,作者重点分析了近三年(2020-2023)超过300篇文章,聚焦于两个主要方向:一是知识图谱驱动的多模态学习(KG4MM),探讨知识图谱如何支持多模态任务;二是多模态知识图谱(MM4KG),研究如何将知识图谱扩展到多模态知识图谱领域。作者从定义KGs和MMKGs的基本概念入手,继而探讨它们的构建和演化,涵盖知识图谱感知的多模态学习任务(如图像分类、视觉问答)及固有的MMKG构建内部任务(如多模态知识图谱补全、实体对齐)。本文还强调了研究重点,提供了任务定义、评估基准,并概述了基本见解。通过讨论当前面临的挑战和评估新兴研究趋势,如大型语言模型和多模态预训练策略的进展,本调研旨在为KG与多模态学习领域的研究人员提供一个全面的参考框架,以及对该领域不断演进的洞察,从而支持未来的工作。
Houye
2024/02/27
1.6K0
2024 最新综述 | 当知识图谱遇上多模态学习
推荐阅读
相关推荐
AAAI 2024| 知识图谱论文总结
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档