CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Power by Kimi&苏神 编辑丨AiCharm
Subjects: cs.CV
1.GCC: Generative Color Constancy via Diffusing a Color Checker
标题:GCC:通过漫射颜色检查器生成颜色恒定性
作者:Chen-Wei Chang, Cheng-De Fan, Chia-Che Chang, Yi-Chen Lo, Yu-Chee Tseng, Jiun-Long Huang, Yu-Lun Liu
文章链接:https://arxiv.org/abs/2502.17435
项目代码:https://chenwei891213.github.io/GCC/
摘要:
由于光谱灵敏度不同,颜色恒定方法通常难以在不同的相机传感器之间泛化。我们介绍了 GCC,它利用扩散模型将颜色检查器嵌入到图像中以进行照明估计。我们的主要创新包括 (1) 一种单步确定性推理方法,该方法对反映场景照明的颜色检查器进行着色,(2) 一种 Laplacian 分解技术,该技术保留了检查器结构,同时允许与照明相关的颜色适应,以及 (3) 一种基于掩码的数据增强策略,用于处理不精确的颜色检查器注释。GCC 在跨摄像头场景中表现出卓越的稳健性,在双向评估中实现了最先进的 25° 和 5.32° 误差率。这些结果突出了我们的方法在不同相机特性上的稳定性和泛化能力,而无需针对传感器的培训,使其成为实际应用的多功能解决方案。
这篇论文试图解决什么问题?
这篇论文试图解决计算机视觉中色彩恒常性(color constancy)的问题,特别是针对不同相机传感器之间由于光谱灵敏度差异导致的泛化难题。色彩恒常性旨在确定场景的照明条件,以确保在不同光照条件下颜色能够被准确地表示。这对于从摄影到自动驾驶等多种应用来说至关重要。传统的色彩恒常性方法,如灰世界(Gray World)、灰边(Gray Edge)和灰度(Shades-of-Gray)算法,依赖于关于场景颜色分布的统计假设,但这些方法在具有模糊颜色分布的复杂场景中常常表现不佳。基于学习的方法虽然通过训练数据学习复杂的照明先验从而展现出更优的性能,但它们通常受限于特定的相机传感器,因为不同相机的光谱灵敏度不同,导致这些模型难以泛化到未经训练的相机传感器上。该论文提出了一种新的方法GCC,利用扩散模型(diffusion models)将颜色校正卡(color checker)直接融入图像中,以实现无需对每个相机传感器进行大量特定训练数据的照明估计。
论文如何解决这个问题?
论文通过以下方法解决色彩恒常性问题,特别是跨相机传感器泛化的问题:
利用扩散模型进行颜色校正卡(color checker)的图像修复(inpainting) 核心思想 :不是直接预测环境光的RGB值,而是利用扩散模型的丰富先验知识,将一个颜色校正卡融入到场景中,并从这个融入的颜色校正卡中提取照明颜色。训练阶段 :在训练时,对包含颜色校正卡的图像进行微调,优化为确定性的单步推理。 采用拉普拉斯分解(Laplacian decomposition)技术,保留颜色校正卡的高频结构细节,同时允许根据照明条件进行颜色适应。 针对现有数据集中颜色校正卡标注不精确的问题,提出了一种基于掩模(mask)的数据增强策略,通过在掩模区域内应用颜色抖动(color jittering)来训练模型,使模型能够生成与场景照明一致的颜色校正卡。 推理阶段 :将一个中性的颜色校正卡合成到给定场景中,通过微调后的模型进行单步推理,生成融入场景照明的颜色校正卡。 从生成的颜色校正卡的无色(achromatic)块中提取RGB颜色,用于去除输入图像中的色偏。 详细方法 网络架构 :基于稳定扩散2修复(stable-diffusion-2-inpainting)模型,该模型包含一个自编码器-解码器对(VAE)和一个U-Net去噪骨干网络。给定一个RGB图像和一个指示颜色校正卡区域的二进制掩模,首先将带掩模的图像和原始图像编码到潜在空间中。在训练时,U-Net去噪器将噪声潜在表示、下采样的掩模和带掩模的图像潜在表示拼接后作为输入,训练其预测噪声。在推理时,通过解码器解码去噪后的潜在表示以获得最终的修复结果。端到端微调 :对预训练的扩散模型进行端到端微调,以生成能够准确反映环境照明的颜色校正卡。通过在掩模区域内应用颜色抖动来增强数据,克服了现有数据集中颜色校正卡标注不精确的问题。采用均方误差损失函数进行优化。拉普拉斯分解 :通过拉普拉斯分解提取输入图像的高频成分,既保留了生成颜色校正卡所需的结构细节,又最小化了低频颜色信息的影响,促使模型专注于将生成的颜色校正卡与场景照明协调一致,而不是简单地重建原始颜色。推理流程 :在推理时,先将中性的颜色校正卡合成到输入图像的掩模区域,对输入图像进行伽马校正后通过模型进行单步推理,得到修复后的图像。然后对生成的颜色校正卡进行透视变换,将其对齐为标准的矩形网格,接着应用固定网格掩模从每个块中采样颜色,最后从颜色校正卡的无色块中估计场景照明。通过这种方法,论文提出的GCC方法在跨相机场景中展现出优越的鲁棒性,无需针对每个相机传感器进行大量的特定训练数据,就能实现准确的白平衡校正。
论文做了哪些实验?
实验设置 数据集 :使用两个公开的色彩恒常性基准数据集:NUS 8-Camera数据集[16]和重新处理的Color Checker数据集[31](称为Gehler数据集)。 Gehler数据集包含568张由两台不同相机拍摄的原始图像,NUS 8-Camera数据集包含1736张由八台不同相机拍摄的原始图像。每个图像都包含一个Macbeth Color Checker(MCC)图表,作为真实照明颜色的参考。 评估指标 :使用标准的角误差度量来评估色彩恒常性方法的性能,它测量估计的照明向量与真实照明向量之间的角度差异。角误差以度为单位,值越小表示估计精度越高。按照先前的研究,报告角误差的以下统计量:均值、中位数、三分位数、最佳25%的均值和最差25%的均值。 实现细节 :基于Stable Diffusion v2框架[52]使用PyTorch实现,遵循[28]中的参数设置。 使用Adam优化器进行训练,初始学习率为5×10^-5,并在150步热身期后应用指数学习率衰减。对于交叉验证实验,分别在NUS-8数据集上训练6k次迭代,批量大小为4,在Gehler数据集上训练13k次迭代,批量大小为8。对于跨数据集评估,当在Gehler数据集上训练并在NUS-8上测试时,使用批量大小为8,不进行梯度累积,训练12k次迭代;当在NUS-8上训练并在Gehler数据集上测试时,使用批量大小为8,梯度累积2步(有效批量大小为16),训练15k次迭代。 对于数据增强,遵循FC4[37]的方法,通过随机RGB值在[0.6, 1.4]范围内重新缩放图像,注意只对输入图像进行重新缩放,因为训练不需要真实照明。重新缩放在原始域中进行,然后进行伽马校正。以0.8的概率随机裁剪包含掩模的区域,裁剪大小范围为原始图像尺寸的80%到100%,同时确保掩模完全可见。此外,仅对掩模区域应用局部变换,包括亮度调整([0.8, 2.0])、饱和度调整([0.8, 1.3])、对比度调整([0.8, 1.3])和高斯噪声(σ∈[0, 30])。对于拉普拉斯分解,使用两级金字塔(L=2)来平衡高频结构细节的保留和低频颜色信息的抑制。所有实验均在NVIDIA RTX 4090 GPU上进行。作者将公开源代码和微调后的模型权重以确保可重复性。 实验结果 跨数据集评估 :在训练集和测试集不同的情况下,即在一个数据集上训练并在另一个数据集上测试,GCC方法取得了最先进的性能,特别是在最差25%的指标上,当在NUS-8上训练并在Gehler上测试时,取得了5.22度的成绩,而在相反的设置下,取得了4.32度的成绩。这表明GCC方法在处理困难情况时具有稳定性和泛化能力,能够有效利用预训练的扩散先验来学习鲁棒的照明模式。 与其他方法的比较 :与统计方法(如White-Path[11]、Gray-World[12]、1st-order Gray-Edge[59]、2nd-order Gray-Edge[59]、Shades-of-Gray[23]、General Gray-World[7]、Grey Pixel (edge)[65])和学习方法(如Bayesian[32]、Chakrabarti[14]、FFCC[9]、SqueezeNet-FC4[37]、C4 SqueezeNet-FC4[68]、SIIE[1]、CLCC[45]、C5[2])相比,GCC方法在跨数据集评估中表现出色,取得了更低的角误差,证明了其在不同相机特性下的泛化能力。 推理时间 :尽管使用了扩散模型,GCC方法由于其单步设计,保持了高效的推理时间。在NVIDIA RTX 4090 GPU上,GCC方法处理512×512图像仅需180ms,比传统的多步扩散方法更快,同时保持了扩散先验对准确色彩恒常性估计的好处,使其适用于实际应用。 消融研究 不使用拉普拉斯分解 :仅依赖VAE编码器的潜在表示作为模型输入,不使用拉普拉斯分解提取的高频成分。结果表明,生成的颜色校正卡受到初始放置在场景中的中性参考颜色校正卡的低频信息的不利影响,导致不能从补丁中提取可靠的颜色值来计算环境颜色。 使用噪声 :使用LoRA[36]对SDXL修复模型进行微调。采用基于噪声预测的训练方法:向输入图像的潜在表示注入噪声,并训练模型预测该噪声,通过计算预测噪声和实际噪声之间的L2损失来优化LoRA参数。在推理时,使用SDEdit,噪声强度为0.6,进行25步去噪,并从10个生成样本中计算中值。然而,与最终方法相比,这种方法效果有限。主要限制在于在保持颜色校正卡几何形状和抑制中性颜色校正卡的低频信息之间的权衡。由于需要保留颜色校正卡的形状,不足的噪声水平无法有效抑制中性颜色校正卡的低频信息,从而导致较差的颜色估计。 不使用掩模数据增强 :最初使用数据集提供的颜色校正卡角点位置,并应用单应性矩阵将标准颜色校正卡对齐到原始位置。然而,角点检测的不准确性导致像素对齐问题。为了克服这一限制,采用掩模数据增强方法,避免依赖精确的角点位置,有效地生成与场景协调的颜色校正卡。依赖精确角点位置的方法存在问题,因此掩模方法更适合于生成与场景协调的颜色校正卡。 不使用颜色校正卡修复 :不通过修复颜色校正卡来获得环境白平衡颜色,而是直接让扩散模型预测最终的RGB输出。结果表明,直接预测方法不如基于修复的方法有效,突出了使用颜色校正卡参考进行准确环境颜色估计的重要性。
论文的主要内容:
研究背景 色彩恒常性是计算机视觉中的一个重要领域,旨在确保在不同光照条件下颜色能够被准确表示。这对于从摄影到自动驾驶等多种应用至关重要。传统的色彩恒常性方法,如灰世界(Gray World)、灰边(Gray Edge)和灰度(Shades-of-Gray)算法,依赖于关于场景颜色分布的统计假设,但在复杂场景中表现不佳。基于学习的方法通过训练数据学习复杂的照明先验,展现出更优的性能,但通常受限于特定的相机传感器,难以泛化到未经训练的相机传感器上。
研究方法 论文提出了一种新的方法GCC(Generative Color Constancy via Diffusing a Color Checker),利用扩散模型(diffusion models)将颜色校正卡(color checker)直接融入图像中,以实现无需对每个相机传感器进行大量特定训练数据的照明估计。具体方法如下:
利用扩散模型进行颜色校正卡的图像修复(inpainting) :不是直接预测环境光的RGB值,而是利用扩散模型的丰富先验知识,将一个颜色校正卡融入到场景中,并从这个融入的颜色校正卡中提取照明颜色。训练阶段 :在训练时,对包含颜色校正卡的图像进行微调,优化为确定性的单步推理。 采用拉普拉斯分解(Laplacian decomposition)技术,保留颜色校正卡的高频结构细节,同时允许根据照明条件进行颜色适应。 针对现有数据集中颜色校正卡标注不精确的问题,提出了一种基于掩模(mask)的数据增强策略,通过在掩模区域内应用颜色抖动(color jittering)来训练模型,使模型能够生成与场景照明一致的颜色校正卡。 推理阶段 :将一个中性的颜色校正卡合成到给定场景中,通过微调后的模型进行单步推理,生成融入场景照明的颜色校正卡。 从生成的颜色校正卡的无色(achromatic)块中提取RGB颜色,用于去除输入图像中的色偏。 实验结果 数据集 :使用NUS 8-Camera数据集和重新处理的Color Checker数据集(Gehler数据集)进行实验。评估指标 :使用角误差度量来评估色彩恒常性方法的性能,报告角误差的均值、中位数、三分位数、最佳25%的均值和最差25%的均值。性能表现 :在跨数据集评估中,GCC方法取得了最先进的性能,特别是在最差25%的指标上,当在NUS-8上训练并在Gehler上测试时,取得了5.22度的成绩,而在相反的设置下,取得了4.32度的成绩。 与其他方法(包括统计方法和学习方法)相比,GCC方法在不同相机特性下的泛化能力表现出色。 尽管使用了扩散模型,GCC方法由于其单步设计,保持了高效的推理时间。在NVIDIA RTX 4090 GPU上,GCC方法处理512×512图像仅需180ms。 结论 GCC方法通过利用扩散模型的丰富先验知识,有效地解决了色彩恒常性问题,特别是在跨相机泛化方面表现出色。通过拉普拉斯分解和掩模数据增强策略,GCC方法能够生成与场景照明一致的颜色校正卡,从而实现准确的照明估计。尽管存在一些局限性,如在复杂照明条件下的性能有待进一步提升,但GCC方法为色彩恒常性领域提供了一种新的、有前景的解决方案。
2.Introducing Visual Perception Token into Multimodal Large Language Model
标题: 将 Visual Perception Token 引入多模态大型语言模型
作者:Runpeng Yu, Xinyin Ma, Xinchao Wang
文章链接:https://arxiv.org/abs/2502.17425
项目代码:https://github.com/yu-rp/VisualPerceptionToken
摘要:
为了利用视觉信息,多模态大型语言模型 (MLLM) 依赖于其视觉编码器的感知过程。视觉感知的完整性和准确性会显著影响空间推理、细粒度理解和其他任务的精度。然而,MLLM 仍然缺乏控制自身视觉感知过程的自主能力,例如,选择性地查看图像的特定区域或关注与特定对象类别相关的信息。在这项工作中,我们提出了 Visual Perception Token 的概念,旨在为 MLLM 提供一种控制其视觉感知过程的机制。我们设计了两种类型的视觉感知令牌,称为区域选择令牌和视觉重新编码令牌。MLLM 会像生成文本一样自主生成这些标记,并使用它们来触发其他视觉感知作。区域选择令牌明确识别图像中需要进一步感知的特定区域,而视觉重新编码令牌则使用其隐藏状态作为控制信号来指导其他视觉感知过程。广泛的实验证明了这些标记在处理空间推理、改进细粒度理解和其他任务方面的优势。平均而言,视觉感知标记的引入使 2B 模型的性能提高了 23.6\%,将其分数从 0.572 提高到 0.708,甚至比 7B 参数模型高出 13.4\%(从 0.624)。
这篇论文试图解决什么问题?
这篇论文试图解决多模态大语言模型(MLLM)在视觉感知过程中缺乏自主控制能力的问题。具体来说,MLLM在处理视觉信息时,依赖于其视觉编码器的感知过程,但目前的MLLM系统无法自主地控制这些视觉感知过程,例如选择性地重新审视图像的特定区域或关注与特定对象类别相关的特定信息。这限制了MLLM在空间推理、细粒度理解等任务中的精度和表现。
为了解决这一问题,论文提出了“视觉感知令牌”(Visual Perception Token)的概念,旨在赋予MLLM自主控制其视觉感知过程的能力。
论文如何解决这个问题?
为了解决多模态大语言模型(MLLM)在视觉感知过程中缺乏自主控制能力的问题,论文提出了“视觉感知令牌”(Visual Perception Token)的概念,并设计了两种类型的视觉感知令牌:区域选择令牌(Region Selection Token)和视觉重编码令牌(Vision Re-Encoding Token)。这些令牌被集成到MLLM的词汇表中,MLLM可以通过next-token预测生成这些令牌,从而触发额外的视觉感知过程并传达控制信息。具体方法如下:
视觉感知令牌的设计 区域选择令牌(Region Selection Token) :这种令牌用于明确识别图像中需要进一步感知的特定区域。当MLLM输出一组区域选择令牌时,会根据这些令牌裁剪原始图像,仅保留与查询相关的区域,并将裁剪后的图像重新输入MLLM。这种方法通过直接提高相关区域的分辨率来增强视觉感知性能。视觉重编码令牌(Vision Re-Encoding Token) :这种令牌用于触发额外的视觉编码器(如DINO或SAM模型)对原始图像进行重新编码,并将得到的视觉特征通过投影器处理后输入MLLM。投影器将视觉特征和重编码控制令牌的隐藏状态作为输入,从而实现对最终输入到语言模型的嵌入序列的细粒度控制。训练数据的构建 为了训练MLLM使用视觉感知令牌,作者构建了一个包含829k样本的视觉感知令牌训练数据集,涵盖四种任务类别:一般视觉问答(General VQA)、细粒度视觉问答(Fine-Grained VQA)、空间推理(Spatial Reasoning)和文本/OCR相关视觉问答(Text/OCR VQA)。这些数据集用于训练MLLM在不同任务中自主控制和细化其视觉感知的能力。
实验验证 通过广泛的实验,作者验证了视觉感知令牌在处理空间推理、细粒度理解等任务中的优势。实验结果表明,引入视觉感知令牌平均提高了2B模型30.9%的性能,使其得分从0.572提高到0.749,并且超过了7B参数模型20.0%(从0.624)。这证明了视觉感知令牌在增强MLLM视觉感知能力方面的有效性。
论文做了哪些实验?
主要实验 模型比较 :使用Qwen2-VL-2B和Qwen2-VL-7B作为基础MLLM模型,分别使用DINOv2和SAM作为额外的视觉特征提取器,对引入视觉感知令牌(VPT)的模型和未引入VPT的原始模型进行性能比较。任务覆盖 :在多种视觉问答(VQA)任务上评估模型性能,包括一般视觉问答(General VQA)、细粒度视觉问答(Fine-Grained VQA)、空间推理(Spatial Reasoning)和文本/OCR相关视觉问答(Text/OCR VQA)。数据集使用 :使用了包括DocVQA、TextVQA、TextCaps、VSR、GQA、OpenImage、CUB-200-2011等在内的多个数据集进行训练和测试。性能指标 :采用GPT4o(2024-08-06)评估模型响应与真实答案之间的对齐程度,以匹配分数作为性能指标,分数越高表示匹配度越好。实验结果 总体性能提升 :2B模型引入VPT后,在多个任务上的平均性能超过了7B模型,平均提升0.084(高分辨率图像)和0.094(低分辨率图像)。特定任务优势 :在视觉推理和细粒度VQA任务中,2B+VPT模型相较于7B模型分别提升了0.161和0.207。零样本设置有效性 :在未参与训练的Flickr、DUDE和POPE数据集上,2B+VPT模型依然展现出优于或等同于7B模型的性能。示例展示 :通过图4展示了视觉感知令牌在定位小区域、减少幻觉问题以及识别复杂场景中对象等方面的有效性。消融实验 区域选择令牌的必要性及参数k的影响 :训练了使用不同k值(4、8、16、32)的区域选择令牌模型,以及直接使用边界框的模型,发现在DocVQA、TextVQA和TextCaps数据集上,k=8时模型性能最佳,且区域选择令牌的性能优于直接使用边界框。视觉重编码令牌的有效性及控制信息的作用 :对比了包含控制信息(使用令牌的隐藏状态作为投影器输入)和不包含控制信息(直接使用重新编码的图像特征)的模型,结果表明控制信息显著提升了模型性能。此外,还对令牌的数量和掩码建模进行了消融实验,发现增加令牌数量至2时性能略有提升,而掩码建模可以进一步提高性能。补充实验 在MME和MM-Bench基准测试上的表现 :在未使用视觉感知令牌的情况下,让模型直接生成答案,以评估微调对通用基准测试的影响。结果显示,经过微调的模型在这些基准测试上的性能并未下降,甚至有所提升。区域选择令牌与直接边界框预测的比较 :通过IoU和IoGT指标比较了区域选择令牌和直接边界框预测的准确性,结果表明区域选择令牌在准确性上显著优于直接边界框预测。论文的主要内容:
本文提出了“视觉感知令牌”(Visual Perception Token)的概念,旨在增强多模态大语言模型(MLLM)自主控制视觉感知过程的能力。文章设计了两种视觉感知令牌:区域选择令牌(Region Selection Token)和视觉重编码令牌(Vision Re-Encoding Token),并构建了相应的训练数据集。通过广泛的实验,验证了这些令牌在多种视觉问答任务中的有效性,显著提升了模型性能。
背景知识 MLLM依赖视觉编码器处理视觉信息,但缺乏自主控制视觉感知过程的能力,例如选择性地重新审视图像的特定区域或关注特定对象类别。这限制了MLLM在空间推理、细粒度理解等任务中的表现。
研究方法 视觉感知令牌设计 区域选择令牌 :通过指定图像中的特定区域,裁剪并重新输入图像,以提高相关区域的分辨率,增强视觉感知性能。视觉重编码令牌 :触发额外的视觉编码器(如DINO或SAM模型)对图像进行重新编码,并通过投影器将视觉特征和控制信号输入MLLM,实现细粒度控制。训练数据集 构建了包含829k样本的训练数据集,涵盖四种任务类别:一般视觉问答、细粒度视觉问答、空间推理和文本/OCR相关视觉问答。这些数据用于训练MLLM使用视觉感知令牌。
实验 主要实验 使用Qwen2-VL-2B和Qwen2-VL-7B作为基础模型,分别使用DINOv2和SAM作为额外视觉特征提取器。 在多个数据集上评估模型性能,包括DocVQA、TextVQA、TextCaps、VSR、GQA、OpenImage、CUB-200-2011等。 使用GPT4o评估模型响应与真实答案的对齐程度,以匹配分数作为性能指标。 实验结果 2B模型引入视觉感知令牌后,在多个任务上的平均性能超过了7B模型,平均提升0.084(高分辨率图像)和0.094(低分辨率图像)。 在视觉推理和细粒度VQA任务中,2B+VPT模型相较于7B模型分别提升了0.161和0.207。 在未参与训练的Flickr、DUDE和POPE数据集上,2B+VPT模型依然展现出优于或等同于7B模型的性能。 消融实验 区域选择令牌 :通过不同k值的实验,发现k=8时模型性能最佳,且区域选择令牌的性能优于直接使用边界框。视觉重编码令牌 :包含控制信息的模型性能显著优于不包含控制信息的模型。增加令牌数量至2时性能略有提升,而掩码建模可以进一步提高性能。关键结论 视觉感知令牌显著提升了MLLM在多种视觉问答任务中的性能,特别是在视觉推理和细粒度理解任务中。通过区域选择令牌和视觉重编码令牌,MLLM能够自主控制和细化其视觉感知过程,从而提高任务表现。此外,视觉感知令牌在零样本设置和不同分辨率图像上均表现出良好的效果。
3.MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs
标题: MLLM 知道去哪里看:使用多模LLMs态对小的视觉细节进行免训练感知
作者: Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski
文章链接:https://arxiv.org/abs/2502.17422
项目代码:https://github.com/saccharomycetes/mllms_know
摘要:
近年来,多模态大型语言模型 (MLLM) 在视觉识别任务方面取得了快速发展。鉴于它们可能集成到许多关键应用程序中,了解其视觉感知的局限性非常重要。在这项工作中,我们研究了在回答有关图像的问题时,MLLM 是否可以像大的视觉细节一样有效地感知小的视觉细节。我们观察到他们的表现对问题的视觉主体的大小非常敏感,并通过进行干预研究进一步表明这种效应实际上是因果关系。接下来,我们研究了 MLLM 在回答视觉问题时的注意力模式,有趣的是,即使它们提供了错误的答案,它们也始终知道该往哪里看。基于这些发现,我们然后提出了免训练的视觉干预方法,该方法利用任何 MLLM 本身的内部知识,以注意力和梯度图的形式,以增强其对小视觉细节的感知。我们在两个广泛使用的 MLLM 和七个视觉问答基准上评估了我们提出的方法,并表明它们可以显着提高 MLLM 的准确性,而无需任何培训。我们的结果阐明了将 MLLM 应用于涉及小细节的视觉识别任务的风险,并表明使用模型内部状态的视觉干预是减轻这种风险的一个有前途的方向。
这篇论文试图解决什么问题?
这篇论文试图解决多模态大型语言模型(MLLMs)在视觉识别任务中对小视觉细节感知能力不足的问题。具体来说,研究者们发现MLLMs在回答关于图像中小物体或细节的问题时表现不佳,而这种表现与物体的大小密切相关。论文的核心目标是:
量化分析MLLMs对小视觉概念的感知能力 :通过实验研究MLLMs在不同大小的视觉概念上的表现差异,揭示其对小视觉细节的敏感性。探究MLLMs的注意力模式 :研究MLLMs在回答视觉问题时的注意力分布,判断其是否能够正确定位到图像中的相关区域,即使最终答案错误。提出无需训练的视觉干预方法 :基于MLLMs内部的注意力和梯度信息,开发自动化的视觉裁剪方法,以增强MLLMs对小视觉细节的感知能力,从而提高其在视觉问答任务中的准确性。总的来说,论文旨在通过深入分析MLLMs的视觉感知局限性,并提出有效的解决方案,来提升其在涉及小视觉细节的视觉识别任务中的表现。
论文如何解决这个问题?
论文通过以下步骤来解决多模态大型语言模型(MLLMs)在视觉识别任务中对小视觉细节感知能力不足的问题:
1. 量化分析MLLMs对小视觉概念的感知能力 论文首先通过实验研究了MLLMs在不同大小的视觉概念上的表现差异。研究者们使用了TextVQA数据集,根据图像中答案的边界框面积与图像总面积的比例(S=AbbAtotalS=AbbAtotal),将验证集分为三组:小(S<0.005)、中0.005≤S<0.05)和大(S≥0.05)。实验结果表明,随着视觉概念的相对大小减小,MLLMs的准确率显著下降。例如,BLIP-2在小、中、大三个分区的准确率分别为12.13%、19.57%和36.32%。
2. 通过干预研究建立因果关系 为了确定这种感知局限性是否与视觉概念的大小有因果关系,研究者们进行了干预研究。他们基于答案的边界框对图像进行了视觉裁剪(human-CROP),并将裁剪后的图像提供给MLLMs。结果显示,视觉裁剪显著提高了MLLMs在小和中分区的准确率,这表明视觉概念的大小确实是导致感知局限性的原因。
3. 探究MLLMs的注意力模式 研究者们进一步研究了MLLMs在回答视觉问题时的注意力模式,以确定其是否能够正确定位到图像中的相关区域。他们通过提取MLLMs内部的注意力图,计算了模型对答案边界框区域的注意力比例。结果表明,即使在回答错误的情况下,MLLMs也能够显著地关注到答案边界框区域,这表明MLLMs的感知局限性主要在于对小视觉细节的感知,而不是定位问题。
4. 提出无需训练的视觉干预方法 基于上述发现,研究者们提出了三种自动化的视觉裁剪方法(ViCrop),利用MLLMs内部的注意力图和梯度信息来定位图像中的相关区域,并通过视觉裁剪来增强MLLMs对小视觉细节的感知能力。这些方法包括:
相对注意力ViCrop(rel-att) :直接使用相对注意力图作为重要性图进行视觉裁剪。梯度加权注意力ViCrop(grad-att) :利用梯度信息对注意力进行加权,以强调语义相关的注意力。输入梯度ViCrop(pure-grad) :直接利用模型决策对输入图像的梯度来定位相关区域。5. 评估方法的有效性 研究者们在两个广泛使用的MLLMs(InstructBLIP和LLaVA-1.5)和七个视觉问答基准数据集上评估了这些方法。结果显示,这些方法能够显著提高MLLMs在细节敏感基准上的准确率,而无需任何训练。例如,在TextVQA数据集上,LLaVA-1.5的准确率从47.80%提高到55.17%(rel-att)、56.06%(grad-att)和51.67%(pure-grad)。
6. 消融研究和进一步分析 选择层的重要性 :研究者们通过消融研究发现,选择一个信息丰富的层对于rel-att和grad-att方法至关重要。即使在没有数据支持选择层的情况下,使用所有层的平均值也是一个合理的选择。高分辨率图像处理 :对于高分辨率图像,研究者们提出了一个两阶段策略,先将图像分割成较小的块,分别计算重要性图,然后再重新组合并进行视觉裁剪。与其他方法的比较 :研究者们还比较了使用外部工具(如SAM、YOLO和CLIP)进行视觉裁剪的方法,发现内部ViCrop方法更为有效。7. 总结与未来工作 论文总结了MLLMs在小视觉细节感知上的局限性,并提出了一种基于模型内部状态的视觉裁剪方法来缓解这一问题。研究者们指出,尽管这些方法在某些情况下表现良好,但仍存在一些局限性,例如在处理涉及关系和计数的问题时效果不佳。未来的工作将探索如何扩展ViCrop以同时关注多个区域,优化推理时间开销,并探索将这些方法与其他技术(如Matryoshka Query Transformer)结合的可能性。
论文做了哪些实验?
论文中进行了以下几类实验来研究多模态大型语言模型(MLLMs)对小视觉细节的感知能力,并验证所提出的视觉干预方法(ViCrop)的有效性:
1. MLLMs对小视觉概念的感知能力的量化分析 数据集选择 :使用TextVQA数据集,该数据集包含图像中答案的边界框标注。实验设置 :根据答案边界框的相对大小(S=AbbAtotalS=AbbAtotal),将验证集分为三组:小(S<0.005S<0.005)、中(0.005≤S<0.050.005≤S<0.05)和大(S≥0.05S≥0.05)。实验结果 :发现随着视觉概念的相对大小减小,MLLMs的准确率显著下降。例如,BLIP-2在小、中、大三个分区的准确率分别为12.13%、19.57%和36.32%。2. 干预研究 实验设置 :基于答案边界框对图像进行视觉裁剪(human-CROP),并将裁剪后的图像提供给MLLMs。实验结果 :视觉裁剪显著提高了MLLMs在小和中分区的准确率,这表明视觉概念的大小确实是导致感知局限性的原因。3. MLLMs的注意力模式分析 实验设置 :提取MLLMs内部的注意力图,计算模型对答案边界框区域的注意力比例。实验结果 :即使在回答错误的情况下,MLLMs也能够显著地关注到答案边界框区域。这表明MLLMs的感知局限性主要在于对小视觉细节的感知,而不是定位问题。4. 提出的视觉干预方法(ViCrop)的评估 实验设置 :在两个广泛使用的MLLMs(InstructBLIP和LLaVA-1.5)和七个视觉问答基准数据集上评估了三种ViCrop方法(rel-att、grad-att和pure-grad)。实验结果 :ViCrop方法能够显著提高MLLMs在细节敏感基准上的准确率,而无需任何训练。例如,在TextVQA数据集上,LLaVA-1.5的准确率从47.80%提高到55.17%(rel-att)、56.06%(grad-att)和51.67%(pure-grad)。5. 消融研究 选择层的重要性 :通过消融研究发现,选择一个信息丰富的层对于rel-att和grad-att方法至关重要。即使在没有数据支持选择层的情况下,使用所有层的平均值也是一个合理的选择。高分辨率图像处理 :对于高分辨率图像,提出了一个两阶段策略,先将图像分割成较小的块,分别计算重要性图,然后再重新组合并进行视觉裁剪。6. 与其他方法的比较 实验设置 :比较了使用外部工具(如SAM、YOLO和CLIP)进行视觉裁剪的方法。实验结果 :发现内部ViCrop方法更为有效。7. 推理时间开销分析 实验设置 :测量了ViCrop方法在CPU和GPU上的平均推理时间开销。实验结果 :发现所有提出的ViCrop方法(除了SAM)在GPU上的推理时间开销合理,大约为1到2秒。8. 附加实验 与LLaVA-Next的比较 :将rel-att方法应用于LLaVA-Next,发现ViCrop方法可以进一步提升其性能。与V*方法(SEAL)的比较 :虽然SEAL方法在V*基准上表现更好,但ViCrop方法在其他基准上表现更好,且推理时间更快。这些实验全面地验证了MLLMs在小视觉细节感知上的局限性,并展示了ViCrop方法在提升MLLMs性能方面的有效性。
论文的主要内容:
本文《MLLMS KNOW WHERE TO LOOK: TRAINING-FREE PERCEPTION OF SMALL VISUAL DETAILS WITH MULTIMODAL LLMS》发表于ICLR 2025,主要研究了多模态大型语言模型(MLLMs)在视觉识别任务中对小视觉细节的感知能力,并提出了一种无需训练的视觉干预方法来提升其性能。以下是论文的主要内容:
研究背景 MLLMs在视觉问答等多模态任务中取得了显著进展,但其在视觉感知方面存在局限性,尤其是在识别图像中的小视觉细节时。 研究者通过三个视觉问答示例展示了MLLMs在小物体识别上的困难,并提出了研究问题:MLLMs是否能够像识别大物体一样有效地感知小物体? 研究方法 量化分析MLLMs对小视觉概念的感知能力 :使用TextVQA数据集,根据答案边界框的相对大小将验证集分为小、中、大三组。 实验发现,随着视觉概念的相对大小减小,MLLMs的准确率显著下降,表明其对小视觉概念的感知存在困难。 干预研究 :通过基于答案边界框对图像进行视觉裁剪(human-CROP),并将裁剪后的图像提供给MLLMs,发现视觉裁剪显著提高了MLLMs在小和中分区的准确率,从而证明了视觉概念大小与MLLMs感知能力之间的因果关系。 分析MLLMs的注意力模式 :提取MLLMs内部的注意力图,计算模型对答案边界框区域的注意力比例,发现即使在回答错误的情况下,MLLMs也能够显著地关注到答案边界框区域,说明其感知局限性主要在于对小视觉细节的感知,而非定位问题。 提出视觉干预方法(ViCrop) :基于MLLMs内部的注意力图和梯度信息,设计了三种自动化的视觉裁剪方法(rel-att、grad-att和pure-grad),以增强MLLMs对小视觉细节的感知能力。 实验 在两个广泛使用的MLLMs(InstructBLIP和LLaVA-1.5)和七个视觉问答基准数据集上评估了ViCrop方法。 实验结果显示,ViCrop方法能够显著提高MLLMs在细节敏感基准上的准确率,而无需任何训练。例如,在TextVQA数据集上,LLaVA-1.5的准确率从47.80%提高到55.17%(rel-att)、56.06%(grad-att)和51.67%(pure-grad)。 关键结论 MLLMs在视觉识别任务中对小视觉细节的感知存在局限性,这种局限性与视觉概念的大小有因果关系。 MLLMs通常能够正确定位到图像中的相关区域,即使最终答案错误,表明其感知局限性主要在于对小视觉细节的感知。 提出的ViCrop方法能够显著提升MLLMs在视觉问答任务中的性能,尤其是在涉及小视觉细节的场景中,且无需额外训练。 未来工作 探索如何扩展ViCrop以同时关注多个区域,优化推理时间开销,结合Matryoshka Query Transformer(MQT)等技术,以及在更广泛的多模态任务和数据集上评估ViCrop方法的有效性。