前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >普林斯顿 & AWS & Apple 提出 RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !

普林斯顿 & AWS & Apple 提出 RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !

作者头像
AIGC 先锋科技
发布2024-07-08 14:22:44
1400
发布2024-07-08 14:22:44
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

大规模语言模型扩展以将世界上所有知识编码到模型参数中是不可持续的,这加剧了资源障碍。 检索增强生成(RAG)提出了一种潜在的解决方案,但其应用于视觉-语言模型(VLMs)的研究尚未深入。现有方法专注于为单一任务设计的模型。 此外,它们受到资源密集型预训练的需求、额外的参数要求、未解决的模态优先级问题以及相较于非检索 Baseline 缺乏明确优势的限制。 本文介绍了RAVEN,一个多任务检索增强的VLM框架,通过有效的、针对特定任务的微调来增强基础VLMs。通过在不需要额外检索特定参数的情况下整合检索增强的样本,作者展示了模型获得了在多个任务上有效的检索特性。 作者在图像字幕和VQA任务的检索模态上的广泛消融实验表明,与非检索 Baseline 相比,性能有显著提升——在MSCOCO上CIDEr提高+1,在NoCaps上CIDEr提高+4,特定VQA问题类型上的准确率几乎提高了+3%。 这强调了将RAG方法应用于VLMs的有效性,标志着向更高效和可访问的多模态学习迈出的一步。

1 Introduction

NLP模型规模快速增长,正如OpenAI的LLM发展所示,从GPT-2的15亿参数到GPT-3的1750亿(Brown et al., 2020),再到GPT-4的超一万亿,这引起了越来越多的关注。这一趋势需要更多的数据和计算能力,导致更高的碳排放,并为资源较少的研究行人带来重大障碍。作为回应,该领域正在转向如检索增强生成等方法,该方法将外部非参数的世界知识融入到预训练的语言模型中,无需将所有信息直接编码到模型的参数中。然而,这种策略在视觉-语言模型(VLMs)中尚未广泛应用,这些模型处理图像和文本数据,通常更加资源密集型。此外,VLMs通常依赖如LAION-5B 这样的大规模数据集,通过检索增强提供了显著提升性能的机会。

尽管对VLMs应用检索增强的研究前景看好,但之前的工作很少,且存在几个局限性。最重要的是,它们依赖于使用特定于检索的参数进行预训练;因此,无法确定与非检索 Baseline 相比性能的提升,也无法独立判断检索增强的好处。接下来,模型架构仅适用于单一任务,因此实验评估也仅在单一任务上进行,例如图像字幕生成;

而像VQA这样的其他图像到文本任务被忽略了。此外,在检索过程中优先考虑哪种模态(文本、视觉或两者的结合)尚未确定。一些研究检索并拼接图像和文本,而另一些研究只检索文本,尽管它们都在图像到文本任务上进行评估。最后,作者还观察到检索与预训练/微调数据集之间存在重叠;例如,Ramos et al.从MSCOCO进行预训练和检索。这可能混淆了归因于RAG方法的好处,强调了需要更大且不重叠的外部记忆。

在本文中,作者介绍了RAVEN(见图1),这是一个适用于任何多任务基础VLM的多任务检索增强框架。该框架不依赖于使用特定于检索的可训练参数进行预训练,且适用于各种任务。重要的是,RAVEN的设计允许全面调查与非检索 Baseline 相比的性能好处,以及检索和使用不同模态的含义。具体来说,作者的主要贡献如下:

  1. 作者首次设计了一个多任务检索增强VLM框架(RAVEN),它仅依赖于微调,没有特定于检索的可训练参数,且适用于任何多任务基础VLM。
  2. 作者的方法允许进行全面的消融研究,研究检索模态之间的权衡及其相对于非检索 Baseline 的优势,同时使用不重叠且更大的外部记忆。
  3. 作者通过定性和定量分析展示了作者方法在图像字幕生成和VQA上的好处和局限性。作者的结果显示,与未检索的 Baseline 相比,取得了新的最先进性能提升:在MSCOCO上+1 CIDEr,在NoCaps上+4 CIDEr(使用的参数数量远少于之前的工作),在特定VQA问题类型上几乎+3%的准确率。

总的来说,作者的工作扩展了对RAG技术的实证知识,并为专注于将它们应用于多任务VLM的迅速增长的研究领域做出了贡献。最终,这项工作确立了在VLM中检索增强的作用,为该领域更高效和可持续的方法铺平了道路。

2 Related Work

Vision Language Models

视觉语言模型是一种新兴的多模态人工智能系统,能够处理视觉和文本数据(Appalaraju等人,2024,2021)。它们建立在计算机视觉和自然语言处理领域的最新进展之上,以生成图像的文字描述,回答视觉问题,以及其他视觉与语言任务。这一方向早期的作品通过简单的序列到序列框架统一了多项任务,如图像字幕生成、图像分类等。一些值得注意的例子包括OFA、GIT(Wang等人,2022)、SimVLM(Wang等人,2021)。最近的视觉语言模型在预训练的大型语言模型中增加了视觉编码器。例如,Frozen(Tsimpoukelli等人,2021)、Flamingo(Alayrac等人,2022)、BLIP、InstructBLIP、LLaVA 、MiniGPT-4、Kosmos-1(Huang等人,2023)、Pali。在这项工作中,作者使用OFA(Wang等人,2022)作为 Baseline ,而不是使用增加了预训练大型语言模型的VLMs。这个选择使作者能够从检索增强的视觉语言建模带来的增强效果中移除预训练语言模型的上下文学习能力影响。

Retrieval Augmented Generation in NLP

检索增强已成为提高自然语言处理模型性能的重要技术。该领域的最初研究之一是Khandelwal等人提出的kNN-LM ,他们展示了如何从任何文本集合中的最近邻进行插值以改善泛化能力。这之后是RETRO (Borgeaud et al., 2021),它将检索语料库扩展到了数万亿个 Token 。另一项工作专注于将维基百科段落直接集成到模型中,例如REALM ,RAG 和FiD (Izacard and Grave, 2021)。通过检索并基于相关的维基百科段落进行条件处理,这些模型可以更好地执行知识密集型的下游任务,如问答。总体而言,检索增强已被证明是将知识注入语言模型以提升其能力的一种非常有效的方法。这些技术已经从简单的语料库检索发展到集成的、可扩展的架构,可以从像维基百科这样的大型知识库中进行检索。

Retrieval Augmented Generation in VLMs

近年来,在将检索增强生成扩展到视觉语言模型方面取得了显著进展。最早的工作之一是多模态检索增强Transformer(MuRAG),它利用非参数多模态记忆来改进语言生成Chen等人(2022)。在图像到文本生成中,Smallcap Ramos等人(2023)通过从目标领域数据中检索,在COCO和其他领域展示了具有竞争力的性能。Sarto等人Sarto等人(2022)使用kNN内存进行图像字幕生成,增强从外部语料库中检索知识的能力。Re-ViLM Yang等人(2023),基于Flamingo Alayrac等人(2022),并支持从外部数据库检索与零样本和上下文中的少样本图像到文本生成相关的知识。最近,Iscen等人Iscen等人(2023)提出在推理时用跨模态检索信息来细化对比视觉文本模型的嵌入,这大大提高了它们的零样本预测能力。Hu等人Hu等人(2023)提出了REVEAL,它学习将世界知识编码到大规模记忆中,并从中检索以回答知识密集型 Query ,并在视觉问答和图像字幕生成方面取得了最先进的结果。在文本到图像生成中,Chen等人Chen等人(2022)提出了Re-Imagen,它使用检索到的信息生成高保真且忠实的图像,即使是对于罕见或未见过的实体。RA-CM3是第一个能够检索和生成文本与图像混合的多模态模型,并展示了如知识密集型图像生成和多模态上下文学习等新能力Yasunaga等人(2023)。

作者的多任务框架RAVEN,在支持字幕生成和VQA方面扩展了RA-CM3,并且与REVEAL Hu等人(2023)的不同之处在于,它仅通过微调获得检索能力,无需预训练和额外的检索特定参数;并且可以适应任何基础视觉语言模型。

3 Proposed Approach

RAVEN Framework

作者的框架RAVEN在图1中有所展示。在高 Level 上,给定包含图像和文本的多模态输入,作者使用一个检索器从大型的外部记忆中检索相关的图像-文本对。随后,作者使用一个预训练的多任务编码器-解码器VLM(指的是视觉语言模型),它除了参考检索到的上下文和多媒体 Query 外,还能生成文本输出。重要的是,作者证明通过针对基本VLM的简短但有效的特定任务微调,用连接的检索增强样本,且无需额外的可训练的检索特定参数,该模型获得了检索属性,这种属性可以泛化到多个任务。现在作者详细描述这两个组件。

多模态检索器

作者的基于语义搜索的检索系统依赖于Facebook AI Similarity Search(FAISS)库[14]。FAISS支持在外部存储器中进行高维向量索引,并通过基于指定相似度度量的近似最近邻方法,例如点积相似度,实现高效搜索。作者使用的是公开可用的Laion-5B[13]基于图像的索引,该索引包含50亿张图像及其相应的替代文本。

为了详细描述检索步骤,作者首先使用基于CLIP的图像编码器[1]将 Query 图像编码为一个密集向量。接下来,作者按照Karpukhin等人(2020年)提出的Dense Retrieval方法,通过以下方式对 Query (图像)和存储器数据进行评分,以检索前 'k'(k可以由用户指定)个图像-文本对:

其中E是基于CLIP的图像编码器。最后,作者在存储器上执行最大内积搜索(MIPS),以获得按分数排序的前 'k' 个候选图像-文本对。

作者的检索方法确保了作为附加上下文提供给模型的检索样本以及 Query 图像是相关的、多样的,并且符合作者目标数据集的风格。通过基于顶部相似度分数的采样,可以轻松确保相关性。然而,仅基于相关性分数进行采样可能会导致精确或近乎重复的样本,从而影响性能。为了避免这种冗余并增强多样性,作者排除了近乎重复的图像。最后,为了使用COCO风格的标题而不是Laion-5B中的噪声图像替代文本,作者将从Laion-5B检索到的样本映射到Laion-COCO 600M 1子集,该子集的标题是使用在COCO风格标题上训练的BLIP模型合成的。由于与Laion-COCO 600M缺乏匹配以及Laion-COCO 600M原始图像下载失败,这可能导致一些数据丢失。作者的方法对这些丢失的样本是鲁棒的。### 基础视觉-语言模型(VLM)

RAVEN依赖于一个多任务、多模态的编码器-解码器基础VLM,它可以轻松利用外部记忆中的附加多模态上下文。

架构。 对于图像编码,作者使用ResNet,对于文本编码,作者使用字节对编码(BPE)将文本序列转换为子词序列,然后将它们嵌入到特征中。作者采用了一个统一的词汇表,包含语言和视觉 Token ,融合了子词、图像代码和位置 Token 。基础架构是 Transformer ;这作为编码器-解码器框架的 Backbone 。为了增强稳定性和加快收敛,模型在自注意力中使用头缩放,关注后层归一化(LN),以及在FFN的第一层后使用LN。对于位置信息,分别为文本和图像使用独立的绝对位置嵌入。值得注意的是,作者将位置相关性从 Token 嵌入和解码嵌入中解耦,同时为文本使用1D相对位置偏差,为图像使用2D相对位置偏差。

VL任务。 所有跨模态任务都被视为Seq2Seq生成。作者专注于2个流行的图像到文本任务,即图像字幕和视觉问题回答(VQA)。对于图像字幕,模型熟练地采用Seq2Seq格式,根据提供的图像和输入文本提示“图像描述了什么?”生成标题。对于VQA,模型接收图像和问题作为输入,学习生成准确的响应。

在VL任务中对检索的需求。 检索可以提升VL任务中的性能,因为上下文信息对于引导模型得到准确答案至关重要。此外,检索机制可以通过从多样化数据集中获取信息来减轻偏见,抵消偏斜训练数据的影响。特别是,在VQA中,图像内容(如目标属性)与问题及答案强烈相关,使得标题成为有价值的辅助信息,而相似/检索到的图像则信息量较少[15]。在字幕生成任务中,额外的文本上下文类似于少样本推理[26]。

选择OFA[22]作为VLM主干网络的原因。 作者列举了选择OFA而非其他替代方案(如Beit-3[27]和Open Flamingo[1])的4个原因:_首先_,OFA天然适合作者的方法,因为它将多个模态和任务统一到单一的Seq2Seq模型中;这种多任务主干网络是故意的设计选择,强调了作者方法的灵活性,并且是作者模型架构中至关重要的基础元素。_其次_,作者可以通过简短但有效的特定任务微调轻松赋予模型检索增强的能力,而无需额外的可训练参数。此外,作者故意避免了像LLaVa或Flamingo这样的近期MLLM模型,因为它们包含语言模型,作者不添加额外的可训练参数,移除了它们的上下文学习能力,并在编码器-解码器主干内孤立检索能力,这在领域中尚属首次。_第三_,代码库是开源的,模块化且易于扩展。_最后_,鉴于作者的计算和财务限制,基本的OFA模型并不庞大(1.82亿个参数),但足以证明作者框架的优势。

4 Experiments

在本节中,作者评估了在微调设置下,作者的方法在多种图像字幕生成和视觉问答基准上的性能。作者旨在通过从与微调数据集不重叠的大型外部数据库中检索相关知识,来展示检索增强对生成的字幕和答案的好处。作者的实验清楚地显示了与无检索 Baseline 相比,作者方法的优势。此外,其性能与同等大小的模型具有竞争力,甚至超过了现有广泛使用的、大小大几个数量级的字幕生成和视觉问答模型的性能。

Training Setup

4.1.1 Data

作者在实现中使用了外部记忆和特定任务的微调数据集。对于字幕生成,作者使用MSCOCO 2014 Karpathy分割进行微调,并使用NoCaps进行零样本评估。对于VQA,作者在微调期间使用了增加了VG-QA问题的VQA v2数据集。作者将Laion-5B索引作为外部记忆,并映射到Laion-COCO 600M子集以检索图像-字幕对。数据集在表1和表2中总结。值得注意的是,与之前的工作不同,作者确保微调数据集和外部记忆之间没有任何重叠,以在实际设置中实现检索增强的真实好处。

缺失样本:检索数据可能因两个原因缺失:(1) Laion-5B检索样本与Laion-COCO 600M子集的匹配缺失,以及(2) 原始图像下载失败。对于字幕生成,作者只处理同时具有检索到的字幕和图像的样本子集。作者验证了图像增强并无帮助,随后决定只使用检索到的字幕进行增强。对于VQA,作者保留了原始数据集,并将缺失的字幕处理为空字符串。这使作者能够在VQA评估服务器上评估作者的结果。重要的是,模型学会了对可能在推理时没有相应检索上下文的样本变得健壮;这是实践中常见的情景。

4.1.2 Implementation

作者的检索器使用现成的CLIP图像编码器[14]同时用于 Query 和记忆编码器。作者使用FAISS [17]索引外部的基于Laion-5B图像记忆,并执行基于MIPS的top-50检索。然后作者将索引映射到Laion-COCO 600M子集上,确保在选择时(如果存在)排除精确或近似的重复项,选择top-1的图像以及所有相关的元数据,包括顶部标题,所有标题和替代文本。检索到的样本与原始样本在TSV文件中连接,在微调过程中作为输入提供。

作者确保微调过程能够在资源受限的环境下运行。作者使用轻量级的OFA-base [19]模型预训练权重,包含182M个参数作为作者的多任务VLM。最大序列长度为1024。作者在4个V100 32GB GPU上微调模型8-12小时,最多10个epoch。作者的实现在PyTorch中。作者将最大源长度从80增加到600以适应检索到的样本。否则,作者依赖于OFA-base运行脚本中的特定任务默认超参数。

表2:VQA v2数据集摘要,该模型使用标准的交叉熵损失。给定一个输入图像i,一个提示t,以及一个输出y,作者最小化损失 L=-\sum_{j=i}^{|y|}\log P_{\theta}(y_{j}|y<j,i,t)\theta="" 指的是模型参数。对于推理,作者使用束搜索进行解码,以提高生成质量。对于vqa任务,作者采用基于trie的搜索,只在一个有限的词汇集合(top="" vqa="" v2答案)中进行搜索,以防止在推理时出现封闭标签集之外的标签。<="" p="">

遵循OFA实现,作者优化

###评估设置。

4.2.1 Baselines

作者建立了 Baseline 来衡量RAVEN与各种配置相比的性能:

图像标题生成。

(1) 仅检索:这个 Baseline 方法使用从记忆中检索到的顶级标题作为生成输出。它作为一个基准,用来评估通过微调OFA-base模型所获得的其他额外收益。

(2) 零样本上下文内检索:在推理过程中,这个 Baseline 直接将检索到的顶级标题和所有标题与提示拼接起来。目标是评估模型在没有预训练或微调的情况下利用检索到的上下文的能力。

(3) 无检索样本:在这种情况下,模型仅在目标数据集上进行微调,而不包含任何检索到的上下文。这个 Baseline 有助于建立一个性能参考点。

视觉问答。 无检索样本:与图像标题生成任务类似,这个 Baseline 方法是在不包含任何检索上下文的情况下,仅在目标数据集上对模型进行微调。

在所有情况下,作者报告与“无检索样本” Baseline 的性能提升,以突出作者提出方法的有效性。值得注意的是,大多数先前的工作没有报告这个 Baseline ,这使得评估检索增强的好处变得具有挑战性。

此外,作者还提供了对图像标题生成和视觉问答任务最近的 Baseline 方法和当前的最先进(SOTA)状态的比较分析。这种比较评估考虑了性能指标和参数数量,为当前研究领域的全面视角和作者的模型在现有最先进研究中的定位提供了参考。

4.2.2 Metrics

在评估RAVEN用于字幕生成的性能时,作者采用了两个关键指标:BLEU@4和CIDEr。BLEU@4通过评估生成字幕与参考字幕之间n-gram(在本例中为四元组)的重叠来衡量生成字幕的质量。同时,CIDEr指标通过考虑多个参考字幕之间的共识,来衡量生成字幕的多样性和独特性。

对于VQA任务,作者使用准确度作为评估指标。这个度量是通过Eval.ai服务器计算的。

4.2.3 Ablations

作者探讨了针对字幕和VQA的三组不同的消融研究:仅文本、仅图像以及图像和文本的组合。据作者所知,作者是首次全面区分在检索增强型VLMs中文本和图像模态的影响,为模型实践者提供了宝贵的见解。

字幕生成。 在仅文本的消融研究中,作者尝试了各种组合,将顶部字幕、所有字幕和图像替代文本中的一个或多个进行拼接。这有助于作者区分孤立文本信息的影响。在仅图像的消融研究中,作者改变了 Patch 大小,将其加倍,并采用水平拼接策略。如果检索到的图像存在,作者将其与 Query 图像拼接。在检索图像不存在的情况下,作者复制 Query 图像。这种分析提供了关于模型仅依赖视觉信息的宝贵见解。对于图像和文本组合的消融研究,作者在处理图像时采用了与仅图像情况类似的方法。同时,作者将顶部字幕和所有字幕拼接至文本提示。这种探索使作者能够了解两种模态的协同效应。

VQA。 基于从字幕任务中获得的经验,其中通过简单的图像拼接证明效果不佳(见表3),作者假设在图像到文本任务中,字幕作为辅助信息很有用,而相似/检索到的图像信息量较少,因为图像内容和包含的目标通常与问题和答案高度相关。因此,在VQA的消融研究中,作者仅考虑文本拼接的场景。这包括在可用时将顶部字幕、所有字幕和替代文本中的一个或多个进行组合。在检索样本缺失的情况下,作者与空字符串拼接。

5 Results

作者展示了作者的方法与目前最先进的方法在三个数据集上的比较结果:数据集A、数据集B和数据集C。作者使用的评估指标包括精确度、召回率、F1分数以及图像分类任务中常用的top-1准确率。

Quantitative Analysis

表4:在VQA v2基准测试上对非检索VQA Baseline 的细调评估结果进行比较。作者在VQA v2训练划分上使用OFA数据集的一个子集来细调作者的方法。作者从eval.ai服务器报告了不同方法的Test-Dev准确率%。

标题生成。 表3中呈现的图像标题生成结果揭示了一些值得注意的见解。与 Baseline 比较表明,仅检索和零样本上下文检索都未能达到无检索样本 Baseline 的水平,这强调了在目标数据集上细调的重要性。基于Transformer的编码器-解码器VLM架构中缺少语言模型,可能是导致零样本上下文检索能力缺失的原因。在仅文本的消融实验中,与顶部标题和/或所有标题拼接可以得到最优性能,在MSCOCO上实现了近1个CIDEr点的提升,在零样本NoCaps上甚至达到了4个CIDEr点。相对于非检索 Baseline 的提升与之前唯一报告这项工作的工作相当(+1.2 CIDEr分数),针对的是MSCOCO标题生成任务。这强调了检索到的标题所提供的宝贵上下文信息。然而,与替代文本拼接的效果较差,这是由于其固有的噪声。仅图像和图像与文本拼接的表现都低于非检索 Baseline ,这表明检索到的图像和简单的拼接引入了噪声,而不是相关上下文。在细调设置中,作者的模型与类似大小的模型(如BLIP)表现相当。值得注意的是,在NoCaps上的零样本设置中,作者的模型超过了SimVLM(1.4B与182M参数),实现了111.0的CIDEr分数,而SimVLM为110.3。

VQA。鉴于在标题生成中使用检索图像的效果有限(见表3),作者专门探索了VQA中的文本增强策略。表4中呈现的结果与标题生成结果一致,证实了仅文本增强的有效性。值得注意的是,在所有问题类别中,仅文本增强带来的准确率提升从0.42%到2.78%不等。相对于非检索 Baseline 的提升超过了之前唯一报告这项工作的研究(+0.36%准确率)针对的是VQA v2任务。通过将顶部标题和所有标题与问题拼接实现了最高性能,而添加替代文本引入了噪声,导致性能降低。作者的模型在VQA中的整体表现保持竞争力,并且与类似大小的模型相当,这强调了它在利用文本信息进行准确答题时的鲁棒性。

Qualitative Analysis

在本节中,作者展示了定性的例子,以阐明作者方法的效力和局限性。

检索器输出。图2展示了给定 Query 图像的检索器输出。检索到的图像与 Query 图像保持一致,强调相关性。然而,观察到Laion-5B的图像替代文本是嘈杂的,并且与所需的COCO风格标题不同。通过模仿COCO标题风格,将映射缩小到从LAION-COCO 600M子集中合成的BLIP标题,从而减轻了风格问题,并为模型提供了更有价值的信息。

融合世界知识。图3展示了利用世界知识的VQA输出。该模型熟练地使用检索器中的丰富实体标题来区分实体,如熊图像中的原木与岩石。此外,通过利用标题中的相关上下文,例如“蹲下”一词,模型准确地识别出细致的细节,如一个男孩在玩棒球时蹲下。

检索器失败案例。 尽管有成功,检索到的上下文并不总是对特定问题有帮助,特别是当询问的实体在图像中没有显著特征时。这个问题在VQA任务中比在标题生成中更为突出,在标题生成中,关于图像的一般知识通常足以生成高质量和多样化的标题。图4所示的VQA失败案例显示了相关但信息不足的标题。例如,关于大象图像的标题关注前景的大象,忽略了背景山脉和森林的细节。同样,关于蛋糕的标题缺少角落中蛋糕夹的信息。

多模态 Query 嵌入。 考虑到检索到的上下文可能缺乏特定性,作者建议在可用的情况下联合使用图像和文本模态作为检索器的输入。图5展示了一个例子,通过分别平均图像和文本嵌入来创建多模态 Query 嵌入,可以得到同时针对图像和问题的相关标题。对于具体实体属性缺乏相应标题的场景的全面探索,作者将其推迟到未来的工作中。

6 Conclusion and Future Work

为了应对不断增长的模型大小和计算需求,作者提出了一个检索增强框架,作为将大量世界知识存储在模型参数中的替代方法。作者的贡献是引入了一种多任务、多模态的检索增强型视觉-语言模型,通过计算效率高的特定任务微调,展示了在多个任务上的适应性。

利用来自外部不重叠记忆的拼接多模态检索增强样本,在没有额外可训练参数的情况下,作者的单一模型获得了强大的检索特性。

这在一个统一的方法中,在字幕生成和视觉问答任务上都展示了优势。值得注意的是,通过系统地与未检索的 Baseline 进行比较,在文本、图像和图像-文本模态上进行的大量消融研究提供了有价值的见解。

作者的研究强调,特别是在图像到文本任务中,检索增强尤其是文本的加入,可以最佳地提升性能,特别是在零样本设置中。

未来的研究方向包括改进采样策略以增强多样性,探索替代的图像融合方法,以及研究专家混合体以使模型在利用检索上下文时具有灵活性。此外,作者建议扩展检索范围至复合索引(图像+文本),以进一步优化性能。

参考

[1].RAVEN: Multitask Retrieval Augmented Vision-Language Learning.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • Vision Language Models
  • Retrieval Augmented Generation in NLP
  • Retrieval Augmented Generation in VLMs
  • 3 Proposed Approach
  • RAVEN Framework
    • 多模态检索器
    • 4 Experiments
    • Training Setup
    • 4.1.1 Data
    • 4.1.2 Implementation
    • 4.2.1 Baselines
    • 4.2.2 Metrics
    • 4.2.3 Ablations
    • 5 Results
    • Quantitative Analysis
    • Qualitative Analysis
    • 6 Conclusion and Future Work
    • 参考
    相关产品与服务
    NLP 服务
    NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档