前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >加州大学&斯坦福提出VDLM | 实现比GPT-4V更强零样本能力,精准把握矢量图形 !

加州大学&斯坦福提出VDLM | 实现比GPT-4V更强零样本能力,精准把握矢量图形 !

作者头像
AIGC 先锋科技
发布2024-07-08 12:58:16
1140
发布2024-07-08 12:58:16
举报
文章被收录于专栏:AIGC 先锋科技

尽管当前的大型多模态模型(LMMs)在一般的视觉-语言基准测试中取得了成功,但它们仍然在需要精确感知低级视觉细节的看似简单的推理任务上遇到困难,例如比较线段长度或解决简单迷宫问题。特别是在关于矢量图形的问题回答任务中,这种失败模式仍然存在——这些图像完全由2D目标和形状组成。 为了应对这一挑战,作者提出了 视觉描述性语言模型(VDLM),它对矢量图形进行基于文本的推理。VDLM利用可缩放矢量图形(SVG)进行更精确的视觉描述,并首先使用现成的光栅到SVG算法进行编码。 由于现有的语言模型在零样本设置下无法理解原始SVG,VDLM然后通过一种新引入的中间符号表示 原始视觉描述(PVD),将SVG与预训练的语言模型桥接起来,该表示包含基本属性(例如,形状,位置,测量值)及其相应的预测值。PVD是任务无关的,并代表所有矢量图形中普遍存在的视觉原语。 它可以学习由程序生成的(SVG,PVD)对,并使LLMs直接用于复杂推理任务的泛化。通过将图像转换为基于文本的表示,作者可以利用语言模型从SVG学习到视觉原语的对应关系,并泛化到未见过的问题回答任务。 实证结果显示,与各种矢量图形上的低级多模态感知和推理任务中的最先进的LMMs(如GPT-4V)相比,VDLM实现了更强的零样本性能。此外,作者还对VDLM的性能进行了广泛分析,证明了作者的框架由于解耦的感知和推理过程而提供了更好的可解释性。 关注公众号,私聊获取项目代码。

1 Introduction

近年来,大型多模态模型(LMMs)在广泛的通用视觉-语言基准测试上取得了令人印象深刻的性能。然而,这些单一结构的LMMs仍然在看似简单的任务上挣扎,这些任务需要精确感知低级视觉细节(Guan等人,2024)。例如,它们通常无法准确比较两个线段的长度,识别两个形状之间的空间关系,或者穿越2×2的迷宫。特别是,作者通过经验观察到LMMs在矢量图形中广泛表现出这种失败模式,矢量图形是由纯粹由2D目标和形状组成的图像,没有任何相机视角(见图1中的一个示例)。

为了实现对矢量图形的精确视觉感知,作者探索了基于_文本_推理的替代路径,这使作者能够利用大型语言模型。为此,作者首先使用可缩放矢量图形(SVG)表示将栅格化图像向量化,该表示用""(例如,多边形和样条)及其相应的测量和位置描述场景。SVG表示本质上不对高层特征产生偏见,并能以文本形式捕捉低级视觉细节。对于矢量图形而言,向量化过程本身是直接的,并且可以使用现成的基于规则的栅格到矢量算法忠实地完成。

然而,SVG表示虽然是基于文本的,但对于与语言模型进行推理来说是不够的:作者初步实验(SA)表明,现有的大型语言模型(LLM)在零样本设置中无法理解原始SVG,此外,在没有相应任务特定标注的情况下,对原始SVG进行微调模型以进行推理可能是低效且不切实际的。为了应对这一挑战,作者 Proposal 训练一个语言模型,将提取的SVG路径与一个中间符号表示对齐,从该表示作者可以直接利用一个仅用于推理的LLM进行推理。为此,作者引入了原始视觉描述(PVD),它架起了低级SVG表示与进行矢量图形推理所需的高级语言空间之间的桥梁。具体来说,作者训练了一个基于LLM(姜等,2023年)的SVG到PVD模型,它将原始SVG路径转换为一组原始属性(例如,形状,位置)及其相应的预测值(例如,矩形,顶点的像素坐标)。在蓝色框中的图1看一个例子。值得注意的是,PVD表示包含矢量图形中通用的原始属性,可以通过程序生成的(SVG,PVD)对进行训练,并使LLM直接用于复杂推理任务的泛化。

由基于SVG的图像表示和原始 Level 抽象组成,作者提出了作者的方法,即视觉描述性语言模型(VDLM),一个基于文本的矢量图形视觉推理框架。VDLM有三个组成部分:一个基于规则的视觉编码器,将图像转换为SVG以捕捉精确的视觉特征;一个学习的语言模型,将SVG转换为PVD;以及一个仅用于推理的LLM,使用PVD表示进行下游任务的零样本推理。作者的学习语言模型是用160K程序生成的(SVG,PVD)对进行训练的,并生成能够泛化到不同矢量图形领域的视觉描述性场景表示。通过首先将图像转换为基于文本的表示,VDLM能够利用语言模型学习低级SVG路径与视觉原语的对应关系,以及泛化到未见过的推理任务。

实验结果证实,VDLM在各种视觉推理任务中实现了强大的零样本性能,超过了 LLaVA-v1.5( Liu等人,2023a)、GPT-4V( OpenAI,2023b)以及像ViperGPT(Suris等人,2023)这样的视觉编程方法。作者观察到,学到的SVG到PVD模型能够从SVG编码器中去除不完美感知的噪声,并且作者的LLM推理模块(OpenAI,2023a)能够根据不同的任务指令解释PVD表示。VDLM还通过其解耦的感知和基于文本的推理过程增强了可解释性。此外,作者对感知质量对最终任务性能的影响进行了深入分析,发现更准确的感知导致了整体性能的提高。这凸显了VDLM在捕捉细粒度视觉特征并使各个模块提高整个框架性能的能力。

总之,作者的工作主要贡献有三点:

  1. 作者确定了当LMMs在处理需要精确、低 Level 感知的矢量图形任务时的一个关键失败模式。
  2. 作者介绍了VDLM,一个基于文本视觉描述——SVG表示和学习到的原始视觉描述进行操作的视觉推理框架,它使得零样本推理能够使用现成的LLM。
  3. 作者展示了VDLM优于之前的最先进的LMMs;作者的分析也为理解VDLM的感知和推理步骤提供了见解。

2 VDLM Framework

作者提出了VDLM框架,该框架包括三个组成部分。首先,一个基于规则的感知模块将图像转换成SVG格式,准确捕捉低级视觉细节(SS 2.1)。其次,一个经过训练的语言模型通过将SVG路径映射到几何形状,将SVG与中间视觉描述对齐(SS 2.2)。第三,一个仅用于推理的LLM利用基于文本的感知结果进行下游任务推理(SS 2.3)。

参见图2对VDLM的概述。在这项工作中,作者关注涉及矢量图形的多模态推理任务,这些图形是由纯2D目标和形状组成的图像,没有相机视角。最近的多模态基准测试显示,与自然图像相比,当前的LMMs在处理图表和图形等抽象图像时更为困难。此外,由于使用2D路径描述光线、阴影和透视效果不佳,SVG表示法不适合描绘3D场景或自然图像。作者将对3D目标和自然图像的扩展留作未来工作。

Encoding Images into SVG with Rule-based Algorithms

先前的工作(Krojer等人,2022;Tong等人,2024)已经证实,尽管基于CLIP(Radford等人,2021)的视觉编码器在捕捉高级视觉语义方面是有效的,但它们在保留细粒度视觉细节方面可能不足。作为一种替代方法,作者提出使用基于规则的栅格到SVG算法提取更准确捕捉详细测量的SVG表示。与JPEG或PNG图像这样的栅格图形不同,它们通过像素网格来表示图像,SVG使用数学表达式和具有精确坐标的路径来描述形状、线条和颜色。作者认为这些区别使得SVG表示能够更忠实地描述矢量图形中的视觉场景。

为了实证验证这一点,作者进行了一系列初步实验(SS A),研究使用SVG表示视觉输入的潜力。作者发现,在矢量图形任务上,使用SVG表示对Llava-v1.5的LLM Backbone 网络Vicuna进行微调,一致优于使用图像表示对整个Llava模型进行微调。重要的是,作者可以利用现成的基于规则的图像到SVG解析算法(VTracer)将任何图像转换为SVG,而无需学习。这使得作者能够获得对视觉输入的无偏初始描述。然而,作者在处理原始SVG表示时观察到两个关键挑战(SS A.3)。首先,现成的LLM,例如GPT-4(OpenAI,2023),在SVG表示上的零样本推理能力有限。即使经过微调,训练LLM直接理解原始SVG代码仍然具有挑战性。其次,在特定任务的

\langle

SVG,问题,答案

\rangle

对上进行微调限制了泛化到未见任务和领域的能力。下面作者将讨论作者提取中间表示的方法。

Learning Alignment of SVG to Primal Visual Description with Language Models

作者提出了原始视觉描述(PVD)。这是一种更高层次的场景表示,它将低级的SVG路径与推理所需的更结构化的原始元素联系起来。PVD是基于文本的视觉描述,由一组原始几何目标组成,例如圆和线段。每个PVD元素都包含原始目标的属性(例如,颜色、形状、位置、大小)及相应的预测值(例如,蓝色、圆形、中心的像素坐标、半径长度)。以下是一个PVD表示的JSON示例(完整的定义见图12):(*类型": "circle", "center": [252, 315], "radius": 202, "color": [175, 155, 98], "style": "filled shape")

值得注意的是,PVD是从SVG中提取的更高层次的抽象,由此作者可以直接利用现成的LLM(大型语言模型)强大的推理能力来泛化到各种下游任务。此外,PVD足够通用,可以作为不同类型图像的统一视觉描述。

如图3所示,原始视觉描述的本体包含了9种原始形状类型,可以组合起来覆盖野外多样的矢量图形。原始形状包括圆、椭圆、矩形、三角形、多边形、线段、网格、路径和图表。在PVD中,路径被定义为不相交的多段线。图表和网格被定义为由一组边连接的一组顶点。

使用语言模型学习对齐。然后作者训练一个语言模型,从SVG输入生成PVD输出。输入是一个描绘视觉概念的单一SVG路径,而输出是预测的一个或多个在定义的PVD本体中的基元。在推理过程中,给定一个任意的光栅图像,作者首先将其转换为一个原始SVG文件,这个文件可能包含大量的SVG路径,包括不重要的噪声和斑点。为了对原始SVG文件进行去噪并提取显著的单个SVG路径,作者提出了一个增量分解算法。具体来说,作者逐步包含SVG路径,同时检查当前选择的路径的局部渲染图像与原始原始SVG文件的完全渲染图像之间的差异。作者计算了两幅图像逐像素差的绝对值之和,并设置了一个经验阈值。如果添加新路径后的差异低于此阈值,即如果添加的路径没有为场景带来太多的额外视觉信息,作者将跳过该路径。对于路径选择的顺序,作者遵循VTracer的默认顺序,该顺序从面积较大的路径开始进行启发式排列。之后的路径将在渲染过程中堆叠在之前的路径之上。在获得分解后的单个SVG路径后,作者首先单独生成它们的PVD表示。然后,作者使用以下简单模板将单个PVD预测汇总为对整个图像的整体感知:"object_0": <路径0的PVD输出>,"object_1": <路径1的PVD输出>,...]。

由于PVD与任务无关,因此用于训练SVG到PVD模型的数据可以通过程序生成,无需人工标注。作者开发了一个数据生成器,利用PIL.ImageDraw1和VTracer,创建了包含随机生成原语的的大型<SVG, PVD>配对数据集。在一些实际任务中,例如几何问题,具有相同颜色的多个原始形状可能会重叠。当转换为SVG时,这些形状往往被解析为一个合并的SVG路径。为了使SVG到PVD模型能够从这种组合概念中解码单个原语,作者还生成了随机重叠形状的数据实例。在这种背景下,目标PVD表示是一系列原始PVD JSON目标。作者确保每个生成的图像只包含一个单色目标,单一或组合的,这样转换后的SVG包含一个单一的SVG。这有助于语言模型有效地学习SVG与PVD之间的对齐。为了提高对未见推理图像的鲁棒性,作者随机化了图像大小、形状的位置和旋转,以及形状的样式(填充或轮廓)。此外,作者还使用两种数据增强方法,高斯模糊和像素噪声,为训练SVG路径增加方差。作者的最终数据集包含160K <SVG, PVD>对。更多细节可以在附录C中找到。

作者在合成的PVD 160K数据集上对预训练的Mistral-7b(Jiang等人,2023)模型进行微调,以执行SVG到PVD生成。作者以1e-5的学习率进行3个周期的全参数微调。训练目标是生成PVD Token 的标准语言建模损失,如下所示:

\mathcal{L}=-\frac{1}{N}\sum_{i=1}^{N}\log P(\mathbf{d}_{i}|\mathbf{s},\mathbf{d}_{0 i-1}) \tag{1}

其中

\mathbf{s}

\mathbf{d}

分别指输入的SVG Token 和生成的PVD Token 。作者使用Megatron-LLM(Cano等人,2023)库进行有效的LLM微调,整个训练过程可以在4个NVIDIA A100-40GB GPU上在16小时内完成。

Reasoning about Primal Visual Description with LLMs

作者的视觉感知模块从输入的矢量图形生成完全基于文本的视觉描述。对于每个下游任务,作者将感知结果与特定任务的指令一起输入提示中,然后将其输入现成的LLM进行推理。示例提示可以在图15-22中找到。此外,作者还研究将代码解释器(Yang等人,2024;Wang等人,2024)与LLM结合,以协助在PVD感知结果上进行更具挑战性的推理任务。

图2详细展示了VDLM函数的执行跟踪。作者观察到,一个强大的LLM,如未经任何微调的GPT-4,已经能够基于作者的原始视觉描述有效地执行各种特定任务的推理。这包括识别更高层次的概念、计算测量值、检查空间关系以及执行多步骤推理。与LMM的输出相比,推理过程也更加可解释和透明。

3 Experiments

任务。 作者构建了一个评估基准,包含9个任务,这些任务涵盖了低级视觉感知和视觉语言推理的重要方面,包括测量、空间关系、计数、逻辑推理以及解决迷宫等复杂推理问题。每个任务的描述如下:(1) 角度分类:识别一个角是锐角还是钝角。(2) 长度比较:确定两条线段是否长度相等。(3-4) Shapeworld空间推理:Shapeworld (Kuhnle & Copestake, 2017) 数据集关于空间关系,图像包含两个多个物体。(5) Shapeworld最高级:Shapeworld 数据集关于最高级陈述。(6) NLVR:自然语言视觉推理数据集 (Suhr et al., 2017),包含各种计数、空间推理和逻辑推理 Query 。(7) NLVR:重新设计的 Geoclidean (Hsu et al., 2022) 数据集,要求模型仅用两个参考示例理解组合几何概念。(8-9) 迷宫解决:给定起始和结束位置,解决 2×2 或 3×3 的迷宫。在这些任务中,角度分类、长度比较和迷宫解决是由作者新创建的(更多细节见附录F)。图4为每个任务的简化输入和输出示例。完整提示可以在附录E中找到。对于每个任务,作者考虑一种零样本评估设置,即模型未见过的任务。模型。 作者将作者的工作与强 Baseline 进行比较,包括最先进的端到端大型多模态模型(LMMs),即 LLaVA-v1.5 (Liu et al., 2023a),GPT-4V (OpenAI, 2023a)++,以及视觉编程代理,例如 ViperGPT (Suris et al., 2023)。ViperGPT 使用 LLM 生成代码,可以调用外部视觉模型,如 GLIP (Li et al., 2022) 和 BLIP2 (Li et al., 2023b),处理图像并生成最终输出。

鉴于ViperGPT风格的模型成功地将感知与推理分离,作者试图探究现有的感知工具是否能够充分识别矢量图形中的低级原始元素。

对于VDLM,作者探索了两种基于推理模块选择的变体,一种有代码解释器(CI),一种没有。在没有代码解释器的变体中,作者使用GPT-4 ++SS作为推理器。在带有代码解释器的变体中,鉴于GPT-4聊天完成API原生不支持代码解释器,作者采用GPT-4助手API(测试版)++进行实验,指定代码解释器作为唯一可用的工具。

由于VDLM在推理时使用纯文本表示,那些假设视觉输入的任务指令可能会变得模糊。例如,在角度分类任务中,如果作者仅给定两条无向边的坐标,那么问题指的是哪个角度是不清楚的。因此,作者设计了针对特定任务的提示,以消除此类模糊性,并适合作者的PVD表示。关于提示设计的细节可以在附录E中找到。

结果。表1展示了评估任务的零样本准确度。作者以下列出了主要发现和洞察:

  1. VDLM在精确的低级感知和推理方面明显优于目前最先进的闭源LMM、GPT-4V,突显了作者基于文本的解耦框架的有效性。作者还观察到GPT-4能够做出合理的假设,创造性地解释感知结果或过滤掉不重要的信息。例如,如图2所示,它正确地将由两个三角形组成的复合目标推理为“星形”。完整的回应见图13。
  1. 在需要算法推理的任务上,为推理模型增加代码解释器特别有帮助。例如,确定多个目标的位置是否在特定范围内(在NLVR任务中),以及使用深度优先搜索(DFS)算法解决复杂迷宫(在3×3迷宫解决任务中)。
  2. ViperGPT和GPT-4在这些任务上的组合表现不佳,表明现有的视觉-语言模型,如GLIP和BLIP2,可能在这些任务上存在困难。(4) 在Geoclidean任务上,VDLM仅与GPT-4V取得相当的性能。

这表明某些视觉属性可能通过基于图像的表示而不是符号表示更有效地表达。进一步的细节在SS4.2中呈现。

4 Analysis

第4节 分析的开始。

Perception Quality vs End-Task Performance

模块化系统的优势之一是提升单个模块可能会潜在地提高整个系统的性能。在本节中,作者探讨感知质量与最终任务性能之间是否存在正相关关系。为了调查这一点,作者首先定义了反映原始视觉描述(PVD)感知质量的指标。在生成PVD感知结果后,作者使用作者的程序图像生成器将其重新渲染成光栅图像。然后,作者计算重建图像与原始输入图像之间的相似度得分,以此作为感知性能的衡量。为了测量相似度,作者考虑了包括基于像素和基于嵌入的方法。作者采用结构相似性(SSIM)指数(Wang等人,2004年)得分来评估像素级的相似性。此外,为了考虑语义相似性,作者采用了CLIP得分(Radford等人,2021年)和DINOV2得分(Oquab等人,2023年),这些得分分别计算为扁平化CLIP和DINOV2嵌入的余弦相似性。

在图5中,作者可视化了在任务 Level 和实例 Level 上感知质量对下游任务性能的影响。在图4(a)中,每个点代表一个任务的准确性,不同颜色代表不同的相似度指标。虚线展示了点的线性回归结果,揭示了在所有指标下感知质量和任务准确性之间的持续正相关关系。由于不同任务之间的任务级准确性可能不具有直接可比性,作者另外执行了实例级分析,使用核密度估计(KDE)对所有任务实例的正确性与它们的感知得分之间的关系进行了估计。如图4(b)所示,“正确”的分布明显向更高的感知得分区域倾斜,这表明在所有作者评估的任务中,更好的感知往往导致最终的答案正确。这一发现很有希望,表明即使在使用固定的推理模型的情况下,增强感知模块也能有效提升下游任务性能。### 失败模式的深入探究:透明的错误分析

由于原始视觉描述(PVD)解耦的感知和推理带来的可解释性提高,使作者能够对VDLM的失败模式进行深入研究。作者发现,无论是SVG到PVD的感知步骤还是LLM推理步骤,都可能导致最终答案的不正确。在需要更复杂推理的任务,如NLVR和迷宫解决中,推理错误更为普遍;否则,感知错误最直接导致性能不佳。作者识别了感知和推理中几种常见的错误类型。

常见的感知错误包括:未能忠实地感知无法由原始视觉描述(PVD)覆盖的新颖形状;由于数据生成中目标定位的随机性,未能捕获原始之间的准确约束,例如一条线精确地分割一个圆;由于增量SVG分解算法中的启发式阈值处理,未能捕捉到非常小的目标。

常见的推理错误包括:在没有被明确询问的情况下,未能发现有意设置的约束,例如自动识别菱形与一般四边形不是相同的概念;处理模糊指令时的失败;在复杂的 多步骤推理任务中失败,如解决迷宫。

作者在附录B中提供了这些错误的细节和说明性示例,以及人类分析得出的感知和推理错误的分布。

5 Related Work

大型多模态模型(LMMs)的视觉缺陷。尽管最先进的LMMs在现有的多模态基准测试(Goyal等人,2017年;Fu等人,2023年;Liu等人,2023年;Yu等人,2023年;Li等人,2023a)上取得了强大的性能,这些基准测试主要关注自然图像,但近期的工作(Lu等人,2023年;Yue等人,2023年;Huang等人,2023年;Zhou等人,2023年;Hsu等人,2022年;Gao等人,2023年)显示它们在图表、几何图形和抽象场景上存在困难。这一观察与最近研究LMMs视觉缺陷的工作相一致。Tong等人(2024年)提出,当前的LMMs在视觉细节上挣扎,因为CLIP视觉 Backbone 的图像-文本对比预训练并没有鼓励保留细粒度的视觉特征,比如方向和数量。为了解决这个问题,近期的研究要么采用了专家混合方法(Tong等人,2024年;Fan等人,2024年;Lu等人,2024年;Jain等人,2023b),融合了各种视觉编码器,如SAM(Kirillov等人,2023年)、DINOv2(Oquab等人,2023年),要么引入了辅助损失,在多模态预训练期间强调局部细节(McKinzie等人,2024年;Bica等人,2024年;Varma等人,2023年)。在这项工作中,作者提出了一个新的视角,用基于文本的表示来解决矢量图形中的这一视觉不足。

图像矢量化与程序合成。从视觉输入生成矢量化或符号表示一直是NLP和计算机视觉社区感兴趣的话题。近期的工作(Jain等人,2023年;Ma等人,2022年;Vinker等人,2022年;Lee等人,2023年)研究了从光栅图像生成SVG代码或笔划。这些方法通常依赖于基于学习的模型和迭代优化,这可能会潜在地引入领域特定的偏见,并且推理速度较慢。在这项工作中,最终目标不是图像矢量化,而是解释和推理视觉概念。尽管Bubeck等人(2023年);Cai等人(2023年)已经展示了使用LLMs直接理解SVG代码的初步希望,如SS A.3所示,但它仍然非常有限。因此,作者提出了中间的Primal Visual Description,并利用非学习基础的解析算法(VTracer)来进行从图像的初步感知,这适合构建大规模(SVG,PVD)数据集。这项工作也受到了神经符号模型相关工作的启发(Ritchie等人,2016年;Wu等人,2017年;Yi等人,2018年;Mao等人,2019年;Hsu等人,2023年;Zhang等人,2023年;Trinh等人,2024年)。这个范式旨在将视觉场景解渲染成结构化表示,从输入文本检索程序,并在图像表示上执行这些程序。作者没有定义特定任务的符号程序,而是将这个想法扩展到学习一个任务无关的视觉描述,这个描述可以直接由现成的大的语言模型进行推理,以实现任务泛化。

在LMMs中分离感知与推理。另一项密切相关的工作研究了在视觉编程(Gupta和Kembhavi,2023年;Suris等人,2023年;Ge等人,2023年;Wu和Xie,2023年)和工具使用(Wu等人,2023年;Liu等人,2023c年)中分离视觉处理和推理。这些模型利用LLMs的代码生成能力,组合并使用一系列视觉-语言或仅视觉模型,如目标检测和图像字幕模型,作为解决视觉推理任务的子程序。尽管在自然图像上表现出令人鼓舞的性能,如SS 3所示,作者发现这些模型仍然受到现有视觉-语言模型无法有效处理低级原语的限制。

6 Conclusions and Future Work

本工作提出了VDLM方法,旨在解决大型多模态模型在执行矢量图形中的精确低级感知和推理任务时的局限性。通过利用SVG表示并引入中间符号抽象,VDLM能够精确捕捉低级视觉特征,同时直接利用大型语言模型进行泛化。VDLM不仅优于现有的最先进的LLM,如GPT-4V,还通过其解耦的感知和推理过程提高了可解释性。这项工作的局限性主要源于SVG的表示能力,这种能力主要适合于有效处理2D矢量图形。未来的方向包括构建更通用的中间表示,可以从2D矢量图形扩展到3D和自然图像,并将符号表示与图像表示整合起来,以保留重要的视觉归纳偏差。

Supplementary Material for Text-Based Reasoning About Vector Graphics

附录的组织结构如下:在附录A中,作者展示了比较SVG和基于图像表示的初步实验。在附录B中,作者包含了错误分析的细节,在附录C中,作者描述了原始视觉描述的细节。附录D展示了图2中所示的迷宫解决示例的GPT-4的全部输入和输出。任务提示和新建的下游任务数据集分别可以在附录E和F中找到。在附录G中,作者包含了作者所使用所有数据集的详细统计信息。

Appendix A Preliminary Experiments on SVG Representations

作者引入了一套探查任务,用以评估当前线性混合模型(LMMs)在执行矢量图形任务时的能力。结果显示,即使是像GPT-4V这样的最先进的LMMs,在需要精确感知低级原语(如比较两条线的长度)的任务上也存在困难。随后,作者调查了这种缺陷的根源,并提出了另一种表示方法——可缩放矢量图形(SVG),用于表示这类精确的低级特征。作者发现,与基于图像的表示方法相比,SVG表示在矢量图形的视觉推理上可以更为高效。然而,它们也有自身的局限性,作者将在SS A.3中进行详细阐述。

Image and SVG Representations

在检测任务中,作者包含了既有判别性也有生成性的任务,这些任务对低级视觉细节的强调程度各不相同。输入和输出的示例说明可在图6中找到。此外,作者还包含了一个非矢量图形任务,即Clevr QA,它由真实的3D渲染场景组成。这是为了测试SVG表示在编码真实图像中的3D物体的极限。这些任务的详细统计数据可以在表4中找到。

对于每个任务,作者考虑两种评估设置:零样本和微调。作者探索了两种输入图像的表示方式:(1) 直接使用图像像素,通过图像编码器将它们编码为块嵌入,例如CLIP(Radford等人,2021年);(2) 使用基于规则的栅格到SVG Transformer (VTracer)将图像转换为SVG代码。

对于使用图像输入的微调,作者使用Lora(Hu等人,2022年)在训练集上对Llava-v1.5-7b(包括LLM主干和投影层)进行了一轮指令微调。对于使用SVG输入的微调,作者仅对Llava-v1.5的LLM主干Vicuna(Chiang等人,2023年)使用Lora进行了一轮微调,并将输入图像的SVG代码与上下文连接起来。结果展示在表2中。主要观察结果包括:

(1) 即使经过专门的微调,目前最先进的开源LMM Llava-v1.5在大多数检测任务上仍难以取得实质性性能。在具有二元选择的任务上,Llava倾向于预测同质化的答案,忽略输入图像之间的差异。

(2) 最先进的闭源LMM GPT-4V在关注原始概念(“图像中有什么”)高级语义的任务Line或Angle上表现出色。然而,在需要更精确的低级感知的任务上,例如角度分类和长度比较,其性能显著下降。

(3) 使用SVG输入微调LLM主干Vicuna一致优于使用图像输入微调整个Llava模型。这突显了使用SVG作为矢量图形中另一种表示的潜力。

(4) 作者注意到,由于诸如摄像机视角、光照和阴影等因素,SVG在表示渲染的3D场景和真实图像方面可能本质上效率不高。虽然作者在这项工作中的重点是矢量图形,但作者留下将扩展到其他领域的探索作为未来的工作。

Llava's Failure Mode in Visual Reasoning with Vector Graphics

作者进一步探讨了Llava模型理解低级视觉特征的困难是否源于以下两个方面:(1) 视觉 Backbone 网络本身,即CLIP,还是(2) 视觉 Backbone 网络与LLM Backbone 网络之间的桥梁。作者在三个二分类检测任务上包含了一系列线性检测实验,在这些实验中,作者基于Llava模型视觉 Backbone 特征(投影前后)训练了一个简单的线性分类器。如图7所示:

(1) 在需要更精确的低级感知的任务中,例如角度分类和长度比较,CLIP嵌入本身在捕捉相关特征方面效果不佳。此外,如图8所示,在一些任务中,例如长度比较,线性回归甚至在经过10个周期的训练后仍无法达到90%以上的训练准确率,难以收敛。

(2) 当使用投影层连接到LLM时,Llava中的视觉特征对于低级视觉推理变得不那么有效。此外,线性检测与指令微调的性能之间存在显著差距。这些结果表明,即使 Backbone 网络保留了有用的特征,LLM在投影后也无法有效利用这些视觉标记。作者假设这种失效模式很可能源于多模态预训练和指令调整范式,其中任务偏向于高层语义,如图像字幕(Lin等人,2014;Sidorov等人,2020)和基于自然图像的VQA(Goyal等人,2017;Krishna等人,2017;Marino等人,2019;Schwenk等人,2022)。当前LMM的训练混合(Liu等人,2023b;Dai等人,2023;Chen等人,2023a)主要关注图像的高层特征,几乎没有激励模型保留低级视觉细节。例如,包含2D迷宫的图像的描述,如图2所示,可能是

{}^{r}

一个2×2的迷宫,有黑色线条,一个红圈和一个星号。

{}^{\prime\prime}

并且可能不包括迷宫的详细配置,例如墙壁、红圈和红星的确切位置。

Remaining Challenges of Using SVG Representations

尽管作者已经证明SVG可以作为推理矢量图形的有前景的替代表示,但作者确定仍存在几个挑战:

(1) 预训练的LLM,包括最强大的如GPT-4(OpenAI,2023a),对SVG代码的理解有限。这一限制体现在GPT-4在SVG输入情况下的零样本性能较低(见表2第2行)。

(2) 即使经过微调,基于SVG的LLM在某些任务上仍然可能不如零样本GPT-4V表现,尤其是涉及复杂场景的任务,如Shapeworld Scene和Maze Scene。在这些情况下,SVG代码变得过于冗长。这些发现表明,学习一个直接理解整个图像原始SVG代码的模型存在重大挑战。

(3) 无论是选择哪种视觉输入表示,一个基本的挑战是缺乏对未见任务和各种矢量图形图像领域的泛化能力。如果作者依赖现有的LMM训练混合,即使任何图像都可以转换为SVG代码,任务仍然偏向于高级语义。此外,直接手动构建和标注涵盖多样化任务的矢量图形的

\langle

SVG, 问题, 答案

\rangle

对是不切实际的。这些挑战促使作者提出了另一层抽象,即原始视觉描述,旨在在下游任务上弥合低级感知与高级语言推理之间的差距。

Appendix B Error Analysis Details

正如在SS 2中介绍的那样,所提出的VDLM包括两个专注于感知的阶段——即Image-to-SVG和SVG-to-PVD,以及一个专注于推理的阶段,即PVD-to-final answer。作者旨在研究感知和推理模块中的错误。

对于每个任务,作者手动检查10个错误案例,并确定错误主要是源于感知阶段还是推理阶段。作者让一名人类审查从原始视觉描述表示中重建的图像,并评估任务实例的问题。如果对于人类来说,重建的图像仍然不足以解决任务,作者将这种错误归类为感知错误。否则,它被归类为推理错误。图9展示了感知和推理阶段之间的错误分布。作者进一步识别了一些典型的感知和推理错误类别如下:

常见的感知错误。(1)未被原始视觉描述(PVD)覆盖的新颖形状:例如,如图10所示,Shapeworld数据集包括一个“半圆”形状类型,它不在PVD本体中;作者看到,学习到的SVG-to-PVD模型倾向于将其预测为椭圆。(2)原始之间的精确约束:尽管PVD适用于多个同色目标重叠的场景,但每个目标的属性(例如位置)是独立且随机决定的。因此,SVG-to-PVD模型通常无法捕捉到目标之间的有意约束;例如,完美分割圆的线。这些约束在Geoclidean 2-shot Learning任务(图10)中特别突出,其中VDLM很难超越GPT-4V。

图10:感知错误示例。顶部的示例说明了SVG-to-PVD模型将半圆预测为椭圆的错误。底部的示例表明SVG-to-PVD模型在解码具有精确约束的重叠原始(如圆的段落)时存在困难。

(3)非常小的目标:在推理过程中,迭代分解过程启发式地忽略了那些只对重建图像产生很小差异的SVG路径。这种方法有效地减少了基于规则的图像-to-SVG Transformer 产生的噪声,但在某些情况下可能会省略非常小的目标。对于特定场景,调整这个阈值是必要的。常见的推理错误。(1)发现有意约束:在没有特定 Query 的情况下,推理模型可能无法识别有意约束。例如,区分菱形和一般四边形,如图11所示。

(2)处理歧义:视觉输入有时提供了有用的归纳偏置,可以帮助模型更好地理解任务,或者在说明含糊时做出合理的假设。例如,当呈现图像中的一个角度并询问它是锐角还是钝角时,如图4,从视觉上可以简单假设该角度由中间点作为顶点,射线向外延伸定义。然而,在没有这种视觉提示的情况下,对纯符号表示进行推理使得在检测到的无向边中推理问题所指的角度具有挑战性。为了减轻歧义,在某些任务中为VDLM添加更精确的说明是必要的。

(3)算法推理:基于语言的推理器可能难以处理复杂的多步推理任务,例如,使用网格的顶点和边的像素坐标推理迷宫的连通性(图11),或者计算位于某个框内的目标数量。

Appendix C Primal Visual Description (PVD) Details

PVD JSON架构定义:见图12。

图11:推理错误示例:顶部的示例表明推理模型未能揭示感知多边形内的更深层次约束。它能识别出它们都是四边形,但无法进一步区分出参照概念是四边相等的菱形,而测试概念则不是。底部的示例说明推理模型在根据感知的网格推理连通性时存在困难,因此无法提供正确的解决方案。

生成过程(单一目标):

  • 圆形: 随机采样一个中心和半径,在画布内绘制一个圆形。
  • 椭圆形: 随机采样一个中心、长轴和短轴,然后随机旋转一个角度。检查椭圆形是否大部分位于画布内;如果不是,则重试。
  • 矩形: 随机采样一个左上角、宽度和高度,然后随机旋转一个角度。检查矩形是否大部分位于画布内;如果不是,则重试。
  • 三角形: 随机采样三个点作为顶点来绘制一个三角形。检查面积是否大于一个阈值;如果不是,则重试。
  • 多边形: 随机采样
N\in[5,20]

个点。相对于质心对点进行排序,使得连接成折线时不会发生交叉。用采样点绘制一个多边形。检查多边形的面积是否大于一个阈值;如果不是,则重试。

参考

[1].Text-Based Reasoning About Vector Graphics.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 VDLM Framework
  • Encoding Images into SVG with Rule-based Algorithms
  • Learning Alignment of SVG to Primal Visual Description with Language Models
  • Reasoning about Primal Visual Description with LLMs
  • 3 Experiments
  • 4 Analysis
  • Perception Quality vs End-Task Performance
  • 5 Related Work
  • 6 Conclusions and Future Work
  • Supplementary Material for Text-Based Reasoning About Vector Graphics
  • Appendix A Preliminary Experiments on SVG Representations
  • Image and SVG Representations
  • Llava's Failure Mode in Visual Reasoning with Vector Graphics
  • Remaining Challenges of Using SVG Representations
  • Appendix B Error Analysis Details
  • Appendix C Primal Visual Description (PVD) Details
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档