前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >定制你的多模态模型:Yo’LLaVA 模型在视觉问题解答中的贡献 !

定制你的多模态模型:Yo’LLaVA 模型在视觉问题解答中的贡献 !

作者头像
AIGC 先锋科技
发布2024-07-09 13:59:19
760
发布2024-07-09 13:59:19
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

大型多模态模型(LMMs)在各种任务(例如,图像字幕生成、视觉问题解答)上展现出了卓越的能力。尽管其知识面广泛,但它们的知识仍然是通用的(例如,识别一只狗),并且无法处理个性化的主题(例如,识别用户的宠物狗)。 相比之下,人类的推理通常是在作者周围特定主题的背景下进行的。 例如,人们可能会问:“我应该为我的狗的生日买什么?”而不是关于“我应该为一只狗的生日买什么?”的通用性问题。同样,当看朋友的图片时,兴趣在于看到他们的活动(例如,“我的朋友抱着一只猫”),而不是仅仅观察通用的人类行为(例如,“一个男人_抱着一只猫”)。 在本文中,作者引入了个性化LMMs的新任务,以便它们可以就特定主题进行对话。作者提出了Yo'LLaVA,它通过给定一些主题的示例图像,学会将个性化的主题嵌入到一组潜在 Token 中。 作者的定性和定量分析表明,与强大的提示 Baseline (例如LLaVA)相比,Yo'LLaVA可以更高效地使用更少的 Token 学习概念,并且更有效地编码视觉属性。

1 Introduction

图1:仅给出一个新颖主题(例如,一只名叫的狗)的几张图片,Yo’LLaVA就能学会围绕该主题促进文本/视觉对话。

考虑以下问题:“这张照片中的在做什么?”或“我在考虑给买一个生日礼物,你有什么建议?”虽然简单,但现有的大型多模态模型(LMMs)[1; 2; 3; 4]并未设计用来回答此类_个性化_问题。例如,尽管这些模型可以利用它们的广泛知识对图像中的物体和人进行分类(例如,图1(右),“在这张照片中有两个人出现在家庭环境中...”),但它们无法将这些物体识别为用户已知的具体主题,也无法提供任何个性化细节(例如,“照片中的男人是你的朋友,他抱着一只猫。”),除非有额外的上下文信息。

个性化的AI助手在健康和福祉、教育学习、娱乐等方面都有广泛的应用。特别是,个人与现代化AI系统的互动方式可能会有很大差异,这强调了这类系统根据用户特定概念和上下文进行适应的必要性[5, 6]。由于默认情况下LMM缺乏个性化,这主要是由于它们训练数据的性质(例如[7, 8, 9]),这些数据主要由常见和通用概念(例如人、狗、自行车)组成,而不是个性化概念(例如一个名叫的人)。

不幸的是,由于隐私问题和个性化图像数量的限制(例如,一个用户可能只愿意分享4-5张关于名为的个性化概念的图片),收集用于个性化LMM训练的数据集可能会很困难。

在本文中,作者介绍了Yo'LLaVA,一个基于最先进的LLaVA框架[2, 10]构建的个性化LMM。只需少量个性化概念的图片(例如,一个黄色和白色的毛绒玩具狗),Yo'LLaVA就能学会将这一概念嵌入到一个特殊标记(例如)中,并在提示时回答相关问题。尽管如此,描述个性化视觉概念的语言(例如,“我的名为的毛绒玩具狗看起来像一只柴犬”)往往不够精确[11, 12, 13, 14]。在这些情况下,通过可学习的标记来学习个性化概念的视觉表示可能会更加精确。

在学习个性化LMM时,作者面临两个关键挑战。首先,在个性化LMM时,作者希望确保其预训练的知识不受影响(即没有灾难性遗忘[15, 16])。为此,作者几乎冻结了所有LMM的预训练权重,并引入了一组可学习的输入标记[17, 18, 19, 12]:一个特殊标记和个潜在标记...。特殊标记作为个性化概念的身份标识符,以便用户和模型可以引用它。而潜在标记帮助捕获的相关视觉细节。唯一作者训练的预训练权重是特殊标记的输出权重。这样,模型可以通过可学习的标记获取新的个性化知识,同时保留其原始权重中的所有先前知识。这种方法的好处是训练速度快,模型轻便,易于存储。

第二个挑战是使LMM能够捕获细微的视觉细节。例如,在学习关于个性化主题(例如)的知识时,作者希望模型能够学会识别并区分与其他具有相似特征的物体。为了达到这个目的,作者执行了硬负挖掘[20, 21, 22, 23],收集了视觉上相似但不完全相同的负面样本,并用大量问题(例如“这张照片里有吗?”)对模型进行训练,包括正面和负面样本。通过这种方式,模型学会了将个性化概念的细微视觉属性嵌入到可学习的标记中。

贡献。总之,作者的主要贡献包

  • 个性化大型多模态模型:作者引入了一个新颖的任务,即个性化LMMs,使它们能够适应并回答特定用户的概念。
  • 一个个性化LMM,它能高效地仅用每组概念的少量图像就学习个性化概念,同时保留广泛的预训练知识。
  • 训练数据集:作者创建了一个新颖的数据集,专门设计用来探索个性化LMMs的任务,为训练和评估提供了坚实的基础。
  • 开源:作者将公开发布个性化概念建模任务的训练和评估数据,以及作者的代码和模型。 2 相关工作

大型多模态模型。近年来,作者见证了大型语言模型(LLMs)[1; 24; 25; 3]的出现,这些模型在一般性问题回答和推理能力方面有了显著的提升。这些进步已经被进一步扩展,作者现在有了能够进行语言理解以及视觉感知的系统,即大型多模态模型(LMMs)[26; 2; 4; 10]。这些LMMs代表了一个突破性的前沿,使模型能够处理并推理输入图像和文本,应用范围涵盖了诸如具身人工智能和机器人技术等各个领域。然而,尽管这些模型可以在许多方面展示它们的一般知识(例如,在给定图像中识别并撰写关于一个名人或狗的品种),但它们并非设计用来处理个性化 Query (例如,识别_你_或_你的狗_)。在这项工作中,作者提出了一种方法,将现有的一般目的LMM模型的知识扩展到用户认为重要的某些新的个性化知识,从而为用户提供定制的个性化体验(例如,回答与_你的狗_相关的问题)。

参数高效的微调。传统上,微调一直是将训练好的模型适配到新任务或概念的标准方法。然而,在LLMs/LMMs时代,微调这些模型在计算和内存需求上可能极其昂贵。为了克服这一限制,引入了参数高效微调(PEFT)方法,这些方法使用很少的可训练参数将这些模型适配到各种下游任务。

主要有两个方向:

(1)在模型的现有层中引入额外的可训练参数。

(2)软提示调整:学习可以指导模型适配到新任务或数据集的提示(例如,文本提示)。后一个概念受到提示工程能力的启发,提示工程利用特定任务的指令(提示)来增强模型能力,而不修改模型参数。软提示调整在各种任务中显示了令人印象深刻的结果(例如,代理工具调用),并且该概念已经被扩展到其他领域(例如,从生成的图像中恢复提示,学习图像编辑)。

在本文中,作者利用软提示调整的思想在LMMs的背景下学习个性化概念。

个性化多模态模型。在图像生成的背景下,个性化通常指的是使模型能够重现给定主体的像素级视觉细节的任务[29; 13; 30]。

提出的方法通常优化以下一项或两项:

(1)特定概念的标记(例如[13; 30])或(2)图像生成模型的局部/整体(例如[29])。相比之下,在自然语言处理社区中,个性化通常涉及让大型语言模型(LLM)以特定方式表现 或使LLM能够提供个性化回应(例如,为特定用户推荐电影[33])。

主要方法包括:(1)提示(例如,为特定角色修改系统提示“你是一个幽默的人”)或(2)信息检索(例如,在交流过程中参考用户保存的元数据)。然而,在多模态大型语言模型(LMM)的背景下,个性化研究不足。个性化一个LLM需要从文本(例如,“是一只柴犬”)以及视觉输入(例如,“这是的一张照片”)中提取信息。据作者所知,作者的论文是LMM个性化任务的先驱。一项同时处理相同问题的作品是MyVLM [34];

但它依赖于外部模块来识别主体,因此不是一个完全集成的系统。作者将作者的工作定位在图像理解与个性化对话之间:在个性化之后,LMM不仅能够识别主体的视觉方面,还能保留关于该主体的推理能力(例如,“是一只柴犬,他可能非常警觉和忠诚”)。作者还旨在构建一个轻量级、完整的系统,其中不涉及外部模块,完全依赖LMM本身。

3 Yo'LLaVA: Personalizing LMMs to Understand User-Specific Concepts

在给定一些人或主题的少量图像 (例如,你的一个名为的毛绒玩具的5张图片)没有任何文本标签或标题的情况下,作者的目标是将_这个主题_嵌入到一个预训练的LMM(在作者的例子中,是LLaVA [2; 10; 35])中,以便用户和模型可以使用该主题的标识符(例如,)进行交流,同时保留广泛的预训练知识。

在个性化之后,作者的方法(Yo'LLaVA)可以:(1)在测试时识别_主题_在新图像中(例如,Yo'LLaVA可以判断是否在照片中);(2)支持关于_主题_的视觉问答(例如,给定一张新照片,可以询问的位置);(3)在没有测试时参考图像的情况下,支持仅文本的对话关于_主题_(例如,询问的内在属性,如颜色、形状等)。

作者首先在3.1节详细说明如何将_主题_表示为LLaVA的可学习概念。然后作者在3.2节讨论作者的方法,通过硬负例挖掘使Yo'LLaVA能够识别_主题_,随后在3.2节讨论通过增强硬负例来提高理解力。

Personalizing the Subject as a Learnable Prompt

提示是一种直接且自然的方式来引导多模态模型。例如,当向模型展示一张图片时,如果有人想问一个LMM(例如,称为)他们的个人玩具是否在那张图片中,他们可能会先提供一个个性化的描述(例如,“是一个黄白色的毛绒狗形状”,表1,左)。然而,手工制作这样的提示可能很麻烦,通常不切实际,因为它可能需要大量的词汇(token)来准确捕捉主体。关键的是,用文字描述主体的所有(微妙)视觉细节可能极具挑战性(例如,描述你的朋友看起来与任何其他人不同的样子)。

在这里,是一个新添加的词汇token,作为主体的标识符,允许用户和模型在提问和回答问题时引用这个主体。 Token {}是学习嵌入关于主体的视觉细节的软token。由于是token词汇表中的新条目,作者将语言模型的最终分类器头矩阵从扩展到,其中是隐藏特征维度,是原始词汇量大小。在作者的Yo'LLaVA框架中,可训练的参数是:

\mathbf{\theta}=\{\texttt{},\texttt{},\texttt{ \ldots},\texttt{},\textit{W}_{(:,N+1)}\}.

在这里,作者仅训练个新添加的输入token和与标识符token相关的最终分类器头矩阵。除此之外,预训练的LLaVA [10]的所有其他组件都是冻结的(即,视觉编码器,视觉投影仪和语言模型)。

为了帮助模型学习新的视觉概念,作者生成了对话训练数据三元组,其中是输入图像,是问题,是对应的答案(数据集创建的详细信息在3.2和3.3节)。作者使用标准的 Mask 语言建模损失来计算每个长度为的对话的目标响应的概率:

p(\mathbf{X}_{\mathbf{a}}|I^{i})=\prod_{j=1}^{L}p_{\mathbf{\theta}}(\mathbf{x}_{j}|I^{i },\mathbf{X}_{\mathbf{a},<j}), \tag{1}

其中是可训练参数,\mathbf{X}_{\mathbf{a},<j}\mathbf{x}_{j}之前所有回合中的指令和答案token。<="" p="">

Enhancing Recognition with Hard Negative Mining

图2:训练流程。

个性化LMM最基本也是最重要的能力是识别个性化主体(例如)。实现这一目标的一个直接方法是创建用于训练图像的视觉识别问答模板。这些问题可以简单到问是否在照片中。然而,仅用正例(或者说,只有的图片)进行训练可能导致不希望出现的捷径,即模型学会对关于主体的任何问题都回答“是”,而不管实际上照片中是否有该主体;而不是学习识别主体的必要视觉属性。为了克服这个问题,作者从LAION[7]中随机抽取100张图片作为负例(不包含的图片)。使用正例和负例的混合进行训练有助于模型理解主体的视觉属性(例如是一个填充玩具),但也可能导致过度泛化。例如,如果是一只黄色的狗形毛绒玩具,模型可能会过度泛化,认为所有黄色的填充玩具都是,这是不希望发生的。挑战仍然在于如何提高模型区分主体更精细特征的能力,这可以帮助将其与视觉上相似的事物区分开来(例如,其他类似的黄色填充玩具)。

为了克服这个问题,作者采用了困难负例挖掘。如果主体是一个填充玩具,那么困难负例就是其他不与主体相同的填充玩具(图3,更多困难负例可以在附录I中找到)。通过向模型展示一系列视觉相似但非相同的物体,作者鼓励它学习更多有辨别力的特征并防止过度泛化。作者从LAION[36]检索负例。具体来说,对于每个训练图像,,作者检索具有最高CLIP图像嵌入相似性[37]的前张图片。最后,对于主体的负例数据是:100个“简单”和个“困难”负例。

为了使模型能够识别图像中的主体,作者将训练图像与识别问答模板配对。这个过程涉及到询问一个特定的主体(例如)是否出现在照片中。特别是,在训练期间,每个正例和负例图像都会随机与一个问答模板配对(详情见附录F)。根据输入图像的类型(正例与负例)采样答案模板。本质上,所有问答对都被构造成二分类,以Yes/No的问题来确定主体(例如)是否在照片中可见(见表2中的类型2和3 QA)。

Learning to Engage in Natural Conversations about the Subject

到目前为止,Yo'LLaVA能够在新图像中识别一个主体。然而,仅使用识别数据进行学习并不能让模型与用户就识别之外的内容进行交流。例如,模型可能正确回答是否出现在图像中,但对于其他问题(例如,“详细描述”,见表7)可能会遇到困难。

因此,作者接下来的目标是创建更通用的对话用于训练(例如,视觉问题回答)。这些对话关注于主体的视觉特征,与之前识别对话中使用的能力相比有所不同。

为此,作者使用一个包含10个手动编写的基本问题的模板,这些问题与内在属性相关,分为两类:与人相关的问题(例如,“这个人头发是什么颜色?”)和与主体相关的问题(例如,“这个主体是什么颜色?”)。作者排除了可能不适用于所有情况的复杂或细微的问题(例如,“这个玩具的尾巴是什么颜色?”)。作者在表2的类型1 QA中展示了一个具体示例(具体细节请参阅C节)。对于每张图像,作者使用LLaVA [10]为每个模板问题生成一个答案,形成一个三元组对话。一种传统的方法是直接用三元组()训练Yo'LLaVA。然而,这种方法并不能有效地促进个性化提示的学习(即,将新的视觉知识嵌入其中),因为模型已经提供了足够回答问题的额外信息(参考图像)。例如,如果展示一个填充动物的照片并问“它是什么颜色?”,LLaVA [10]能够正确回答问题,而无需了解或理解的视觉属性;即,它可以简单地使用输入图像来回答问题。因此,为了鼓励模型将主体的视觉属性提炼到可学习的个性化提示中,作者在训练期间排除了,这导致仅使用进行训练(即,在实践中作者在等式1中省略图像)。通过这种方式,Yo'LLaVA正确学会了将主体的相关视觉信息嵌入到软提示中,并且即使在没有任何参考图像的情况下,也能回答关于主体视觉属性的各种问题,正如作者在仅文本QA实验中展示的那样(表7)。

4 Experimental Setup

训练。 除非另有说明,作者使用5张图像和个标记来学习主题。每个对话都是单轮的(一个问题和一个答案)。作者使用AdamW [38]优化器,学习率为0.001,并以LLaVA-1.5-13B [10]作为基础模型。训练图像包括每个主题大约200张负样本(从检索中大约100张难负样本和随机抽取的100张易负样本)。

作者对每个主题进行了最多15轮的训练,基于训练集上的识别准确率保存最佳预训练权重。所有实验都是在单个A6000 GPU上进行的。

数据集。作者收集了一个包含40个主题的新数据集:行人(10个),宠物(5个),地标(5个),物体(15个)和虚构角色(5个)。数据集被划分为训练集和测试集。每个主题的图像数量从10-20张不等。更多关于作者数据集的详细信息,请参阅附录C。

** Baseline 模型。**作者选择Vanilla LLaVA [2]作为作者的主要 Baseline 。作者考虑了LLaVA的两个主要变体:一是简单的LLaVA本身,没有包含任何个性化信息;二是LLaVA + 个性化描述,即LLaVA辅以关于主题的个性化描述。

作者采用了两种方法来获取个性化描述:

(1) 人工编写:作者手动为每个主题编写描述(见表4,“人工”部分),模仿用户向LLM描述个性化主题的真实场景。

(2) 自动描述:作者首先提示LLaVA为该主题的所有训练图像生成标题。

作者提供两种使用这些标题的方法:(a) 将所有标题拼接在一起,形成一个长且丰富的主题描述;(b) 作者提示LLaVA将这些标题总结成简短的个性化描述(见表4 "LLaVA"部分)。这些自动描述对应于表5中的 "LLaVA + 提示,文本",分别约为1.3k(长描述)和约16(总结)个标记。

为了扩展作者对提示的评价,作者将分析扩展到GPT-4V,这是一个领先的多模态聊天机器人。作者使用相同的方法生成简短的个性化描述(见表4,“GPT-4V”部分)。此外,由于GPT-4V支持多图像对话(LLaVA不支持的功能),作者还尝试了个性化图像提示。具体来说,作者将主题的训练图像与介绍文本一同展示(例如,“你正在看一个名为的物体的照片(s)”)。这些实验对应于表5中的 "GPT-4V + 提示,图像",分别约为1k(给定1张图像)和约5k个标记(给定5张图像)。由于图像传达的信息比文本多,作者假设个性化图像提示代表了提示效果的上限。值得注意的是,由于GPT-4V是闭源的,作者的方法无法直接整合,因此这种比较仅供参考。

5 Results

作者展示了Yo'LLaVA在两个主要任务上的性能:

(1) 识别能力和 (2) 问题回答。第一个任务评估了Yo'LLaVA在测试图像中识别个性化主题的能力,而第二个任务则评估了模型进行关于个性化主题的自然对话的能力(即引用并回应 Query )。

Recognition Ability

首先,作者评估了模型识别个性化主体的能力。作者有40个主体,每个主体有5到10张包含相应主体的测试图像。对于每个主体,其所有测试图像作为阳性测试图像,而其余39个类别的测试图像作为阴性测试图像。在本次实验中,总共有333个阳性测试样本和13,320个阴性测试样本。

在测试过程中,作者向模型展示一张照片并提问:“你能看出这张照片里有没有吗?用一个词或短语回答。”包含的照片的 GT 响应是“Yes”,其他照片的响应是“No”。作者在表5中报告了阳性测试图像和阴性测试图像的准确度。鉴于测试集的不平衡,作者计算了加权准确度:加权阳性准确度阴性准确度。

表5展示了结果。如预期的那样,Vanilla LLaVA Baseline 无法识别个性化主体,这是它不具备的能力,作者通过实验观察到它总是回答“不,这不是”(因此准确度为0.5)。当作者用简短的个性化描述提示它(无论是自动生成的还是由人制定的),LLaVA取得了不错的准确度(即使用约16个token时的0.819-0.822)。另一方面,过长的描述对其性能产生了负面影响(即使用1.3k个token时的0.650),可能是因为过多的辅助信息可能并不有帮助(例如,关于背景的细节)。相比之下,Yo'LLaVA显示出可训练token的明显优势,在使用大致相同数量的token时取得了最高准确度(即0.924)。

作者还展示了使用GPT-4V结合文本和图像提示的结果。结果表明Yo'LLaVA在文本提示方面优于GPT-4V(即0.924对比0.838-0.841)。在图像提示方面,GPT-4V的性能随着主体参考图像的增加而提高。仅用16个token的Yo'LLaVA就超过了使用单图像提示的GPT-4V(约1k个token)。还值得注意的是,即使只使用16个token,Yo'LLaVA的结果几乎与使用5k个token(5张图像作为参考)的GPT-4V相当;见图4。作者预计将Yo'LLaVA与GPT-4V整合可以显著减少使用的token数量同时保持性能;但由于GPT-4V是一个闭源框架,作者无法尝试这一点。

Question and Answering

为了评估模型在问答任务上的性能,作者为视觉和仅文本的问答开发了新的基准。对于视觉部分,作者展示了一个主体的照片,并提出关于它的问题(例如,“在哪里?”)。对于仅文本的部分,作者关注关于内在视觉特征的问题(例如,“是狗还是猫?”)。所有问题都采用多选选项的形式(A或B)。总共作者创建了571个问题;其中171/400为视觉/仅文本问题。具体示例在附录H中给出。作者在表5中报告了正确回答问题的准确性。

Yo'LLaVA在视觉问答方面是领先的方法(即0.929),其次是使用人类编写的个性化提示的LLaVA [2]。总体来看,很明显,如果给定了图像,LMMs可以利用呈现的信息准确回答问题(例如,给定一张狗的照片,它们可以正确识别狗毛的颜色,而无需知道狗的名字是)。对于仅文本的问答,作者没有测试图像,直接对主体提出问题,结果显示,即使是人类的文本提示,也可能无法捕捉到与可训练提示一样多的细节,正如Yo'LLaVA仍然是最领先的方法(即准确度为0.883),与LLaVA和GPT-4V相比。当给定图像作为提示时,GPT-4V可以很好地回答所有内在问题(即0.982-0.987)。但这在意料之中,因为所有信息都可以在给定的图像中找到。然而,值得注意的是,使用图像作为个性化提示至少需要1k个 Token ,而Yo'LLaVA只需要16个 Token !

Comparison with MyVLM

作者与MyVLM [34]的同期工作进行了比较,使用他们提供的包含29个不同目标的数据集,并完全遵循他们的实验协议。

为了评估模型在图像中识别个性化主体的能力,作者采用了与MyVLM相同的准确度指标。如果照片中出现了主体,作者将真值设置为“Yes”;否则设置为“No”。作者用“你能在这张照片中看到吗?用一个单词或短语回答。”来提示Yo'LLaVA。作者将作者的结果与MyVLM报告的数字进行了比较,MyVLM评估了他们的概念头(外部人脸/目标识别器)。作者还评估了训练后的LMM是否能够生成包含主体标识符(例如)的标题。按照MyVLM的做法,作者测量“召回率”,即在其图像生成的标题中至少出现一次。表6显示了结果。与MyVLM相比,作者的方法在两项指标上均显示出明显的优势,尽管作者的方法更简单,且不依赖于外部识别器(例如,人脸识别器)。

6 Ablation Studies

可训练标记的数量。作者将每个主体的训练图像数量设置为,并将可训练标记的数量从0变化到36。当时,训练仅限于标识符标记(例如)。如图5(第一行)所示,仅训练此标记在识别个性化主体时的准确度为24%。总体而言,当潜在标记的数量增加到以上时,模型识别个性化目标的能力通常会提高,对于正例和负例都是如此。为了平衡准确度(越高越好)和标记长度(越低越高效),作者选择作为作者最终模型的参数,这在此次消融研究中达到了91%的准确度。

图像数量。接下来,作者将可训练标记的数量设置为,并将训练图像的数量从变化到。图5(第二行)显示,随着照片数量的增加,模型的识别能力逐渐提高。作者在Yo'LLaVA的最终版本中选择,因为这是在此消融研究中达到90+%准确度所需的最小训练图像数量。

数据集创建。最后,作者对数据集创建进行了消融研究。表7展示了识别任务的加权准确度以及个性化模型的定性示例,以演示模型在支持问题解答方面的能力。普通的LLaVA [10]无法进行文本对话或识别(它对所有测试图像的回答总是“否”,50%)。仅在识别任务上进行训练(即确定是否在给定照片中)后,LLaVA可以在一定程度上识别主体(即70%),然而,它仍然无法执行文本对话任务。在合成对话和识别数据都进行训练后,识别准确度和对话能力都有所提高(即75%)。最后,引入检索到的困难负例(Yo'LLaVA),准确度显著提升到91%。

结论

作者引入了个性化LLM的新任务,该任务需要从仅有的少量图像中学习给定主体(例如,名为的狗)的视觉属性,然后在新的图像中识别该主体并在提示时解答关于该主体的问题。为了解决这个问题,作者提出了Yo'LLaVA,其中个性化主体由可学习的提示和标识符(例如,)以及一系列个潜在标记(例如,)表示。

实验表明,与强大的提示 Baseline (例如,GPT-4和LLaVA)相比,Yo'LLaVA可以更高效地使用更少的标记来学习概念,并通过捕捉更多的视觉属性来更有效地学习。

一个有前景的未来方向是将Yo'LLaVA与用户的元数据(例如,将关于名为的狗的个性化概念与其医疗记录或偏好联系起来)集成,以增强现实世界应用中的个性化。

参考

[1].Yo'LLaVA:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 3 Yo'LLaVA: Personalizing LMMs to Understand User-Specific Concepts
  • Personalizing the Subject as a Learnable Prompt
  • Enhancing Recognition with Hard Negative Mining
  • Learning to Engage in Natural Conversations about the Subject
  • 4 Experimental Setup
  • 5 Results
  • Recognition Ability
  • Question and Answering
  • Comparison with MyVLM
  • 6 Ablation Studies
  • 结论
  • 参考
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档