前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >新加坡 & 南开 & 上交大 联合探索揭秘视觉大型语言模型在自动驾驶系统中的风险!

新加坡 & 南开 & 上交大 联合探索揭秘视觉大型语言模型在自动驾驶系统中的风险!

作者头像
AIGC 先锋科技
发布2024-07-08 13:50:30
1670
发布2024-07-08 13:50:30
举报
文章被收录于专栏:AIGC 先锋科技

视觉大型语言模型(Vision-LLMs)因其先进的视觉语言推理能力,正越来越多地被集成到自动驾驶(AD)系统中,目标是提高感知、预测、规划和控制机制。 然而,Vision-LLMs 已经显示出对各种对抗性攻击的脆弱性,这会危及它们的可靠性和安全性。为了进一步探索AD系统中的风险以及实际威胁的可转移性,作者提出利用针对依赖 Vision-LLMs 决策能力的自动驾驶系统的排版攻击。 与目前仅有的几项开发通用排版攻击数据集的工作不同,本文关注的是这些攻击可以在其中部署的现实交通场景,它们对决策自主性的潜在影响,以及这些攻击可以实际呈现的方式。 为了实现上述目标,作者首先提出了一个与数据集无关的框架,用于自动生成可以误导Vision-LLMs推理的错误答案。接着,作者提出了一种语言增强方案,促进对图像级和区域级推理的攻击,并将其扩展到同时针对多个推理任务的攻击模式。基于这些,作者在物理交通场景中进行了攻击实现方式的研究。 通过作者的实证研究,作者评估了排版攻击在交通场景中的有效性、可转移性和可实现性。 作者的研究发现排版攻击对现有 Vision-LLMs(例如,LLaVA、Qwen-VL、VILA 和 Imp)具有特别的危害性,从而提高了将此类模型集成到AD系统中时社区对漏洞的意识。

1 Introduction

视觉-语言大型模型(Vision-LLMs)在近年来得到了快速发展,其融入自动驾驶(AD)系统已被工业界和学术界认真考虑。将Vision-LLMs集成到AD系统中展示了它们能够实时向道路用户提供明确的推理步骤,并满足关于感知、预测、规划和控制的交通场景的文字说明需求,特别是在现实世界中的安全关键情况下。Vision-LLMs的核心优势在于它们通过大规模的视觉-语言对齐进行预训练的自动回归能力,这使得它们甚至能够执行零样本光学字符识别、基于情境的推理、视觉问题回答、视觉-语言推理等。然而,尽管它们的能力令人印象深刻,Vision-LLMs不幸地对对抗性攻击并不免疫,这些攻击可能会误导推理过程。

任何成功的攻击策略在将Vision-LLMs部署到AD系统时都有可能引发严重问题,尤其是那些可能绕过模型黑盒特性的攻击。为了在AD中可靠地采用这些模型,研究对抗性攻击的可转移性对于提高对部署的Vision-LLMs的实际威胁的认识以及为它们构建适当的防御策略至关重要。

在这项工作中,作者重新审视了不同Vision-LLMs的共享自动回归特性,并直观地将这一优势转化为弱点,利用排版形式的对抗攻击,也称为排版攻击。排版攻击最早是在著名的对比语言-图像预训练(CLIP)模型的背景下被研究的。这一领域早期的工作集中于开发一个针对多选题回答(如目标识别、视觉属性检测和常识回答)和枚举的通用排版攻击数据集。研究行人还探索了针对零样本分类的多选自生成攻击,并提出了一些防御机制,包括关键词训练和提示模型进行详细推理。尽管这些初步努力,但这些方法既没有看到一个全面的攻击框架,也没有被明确设计来研究排版攻击对安全关键系统的影响,特别是在AD场景中。

作者的工作旨在填补这一研究空白,从融入Vision-LLMs的AD系统的角度研究排版攻击。

总结来说,作者的科学贡献有三个:

  • 数据集独立框架:作者引入了一个数据集独立框架,旨在自动生成能够破坏视觉大型语言模型(Vision-LLMs)推理过程的误导性答案。
  • 语言增强方案:作者开发了一种针对Vision-LLMs的排版攻击的语言增强方案。该方案针对图像和区域 Level 的推理,并可同时扩展到多个推理任务。
  • 半现实场景的实证研究:作者进行了研究,探索这些攻击在现实交通场景中可能的实现。

通过对交通场景中排版攻击的实证研究,作者希望提高社区对在AD系统中融入这些模型时存在的关键排版漏洞的认识。

2 Related Work

Vision-LLMs

大型语言模型(LLM)已在各种自然语言基准测试中展现出推理能力,研究行人通过为其配备视觉编码器来扩展LLM,以支持多模态理解。这种整合催生了许多形式的视觉-LLM,它们能够基于视觉和语言输入的组合进行推理。

视觉-LLM的预训练。LLM与预训练视觉模型之间的互联包括在各自领域内对单模态编码器进行单独预训练,然后进行大规模的视觉-语言联合训练[17, 18, 19, 20, 2, 1]。通过交织的视觉语言语料库(例如,MMC4[21]和M3W[22]),自回归模型学会将图像转换为视觉标记,将这些标记与文本标记结合,并输入到LLM中。视觉输入被视为一种外语,通过使传统仅文本的LLM具备视觉理解能力,同时保留其语言功能,从而增强了它们。因此,一种简单的预训练策略可能并未设计用来处理输入文本与图像中的视觉文本相比,与该图像的视觉上下文显著更对齐的情况。

视觉-LLM在自动驾驶系统中的应用。视觉-LLM已被证明对自动驾驶(AD)系统中的感知、规划、推理和控制非常有用[6, 7, 9, 5]。例如,现有研究已经在量化角度评估了视觉-LLM在解释AD决策过程方面的可信度[7]。其他研究探索了视觉-LLM在车辆操纵[8, 5]方面的应用,而[6]甚至在受控的物理环境中验证了一种方法。由于AD系统涉及安全关键情况,对其漏洞的全面分析对于可靠部署和推理至关重要。然而,将视觉-LLM Proposal 性地纳入AD的方式过于直接,这意味着这些模型中可能存在现有问题(例如,对抗打印错误攻击的脆弱性),而没有适当的对策。

Transferable Adversarial Attacks

对抗性攻击在可以在封闭环境中利用公开框架开发,但仍然能够实现对未见过的、闭源模型的攻击时最为有害。关于这些可迁移攻击的研究广泛涉及基于梯度的策略。针对视觉大型语言模型(Vision-LLMs),作者的研究专注于探索排版攻击的可迁移性。

基于梯度的攻击。 自从Szegedy等人引入了对抗性样本的概念,基于梯度的方法已经成为对抗性攻击的基石[23; 24]。Goodfellow等人提出了快速梯度符号方法(FGSM [25]),使用单一梯度步骤生成对抗性样本,在反向传播之前扰动模型的输入。Kurakin等人后来通过迭代优化方法改进了FGSM,导致了迭代-FGSM(I-FGSM)[26]的产生。投影梯度下降(PGD [27])通过结合随机噪声初始化进一步增强了I-FGSM,从而提高了攻击性能。基于梯度的迁移攻击方法通常使用一个已知的替代模型,利用其参数和梯度来生成对抗性样本,然后用于攻击黑盒模型。这些方法通常依赖于多步迭代优化技术,如PGD,并采用各种数据增强策略来提高可迁移性[28; 29; 30; 31; 32]。然而,基于梯度的方法在对抗性可迁移性方面面临局限性,因为替代模型和目标模型之间存在差异,以及对抗性样本倾向于过拟合替代模型[33; 34]。

排版攻击。 大规模预训练视觉语言模型CLIP[11; 12]的发展引入了一种可以损害其零样本性能的排版攻击形式。一项并行工作[13]也表明,这种排版攻击可以扩展到视觉大型语言模型(Vision-LLMs)的语言推理任务,如多选题问答和图像级开放词汇识别。同样,另一项工作[14]通过利用视觉大型语言模型为自己推荐攻击,针对分类数据集上的图像、问题和答案,开发了一个基准。

已经提出了几种防御机制[15; 16],通过提示视觉大型语言模型进行逐步推理。作者的研究与现有工作的不同之处在于,作者研究的是在识别、动作推理和场景理解的问题回答场景中自主进行的排版攻击,特别是针对AD系统中的视觉大型语言模型。作者的工作还讨论了它们如何影响图像 Level 的推理能力,区域级理解和甚至针对多个推理任务。此外,作者还讨论了这些攻击如何在现实世界中实现,特别是针对AD系统。

3 Preliminaries

Revisiting Auto-Regressive Vision-LLMs

作为自回归视觉大型语言模型的简化公式,假设作者有一个视觉输入\mathbf{v},一个到时间步t-1为止生成的token序列,表示为x_{1},x_{2},\ldots,x_{t-1},以及目标为预测下一个token x_{t}的Vision-LLM模型函数f(\cdot)。作者可以根据之前的tokens和视觉上下文,在每一个时间步t表示其输出向量logits \mathbf{y}_{t}

\mathbf{y}_{t} =f(x_{1},\ldots,x_{t-1},\mathbf{v}) \tag{1} =f(x_{1},\ldots,x_{t-1},v_{1},\ldots,v_{m}),

其中v_{1},\ldots,v_{m}表示由视觉编码器在\mathbf{v}上编码的m个视觉tokens。Logits \mathbf{y}_{t}通过softmax函数转换为概率分布。具体来说,y_{t,j}\in\mathbf{y}_{t}是时间步t上词汇表C中token j的logit,通常如下:

P(x_{t}=j|x_{1},x_{2},\ldots,x_{t-1},\mathbf{v})=\frac{\exp(y_{t,j})}{\sum_{k \in C}\exp(y_{t,k})}. \tag{2}

然后,训练模型的一般语言建模损失可以基于交叉熵损失。对于一个token序列\mathbf{x}=\{x_{1},\ldots,x_{n}\},损失由以下给出:

\mathcal{L}_{LM}(\mathbf{x})=\sum_{t=1}^{n}\log P(x_{t}\mid x_{1},\ldots,x_{t- 1},v_{1},\ldots,v_{m})=\sum_{k=1}^{n+m}\log P(x_{t}\mid z_{1},\ldots,z_{k-1}), \tag{3}

其中z_{i}表示位置i上的文本token x或视觉token v。视觉大型语言模型Vision-LLMs在其核心具有对话能力,因此优化过程中交替使用语言数据(m=0)和视觉语言数据(m>0m的值如何,视觉引导语言建模的损失目标本质上与自回归语言建模[35]相同。因此,作为对齐过程的一部分,这些实践意味着在训练期间文本特征token和视觉特征token之间的边界模糊。它们还可能在推理时促进原始文本与图像内文本之间的文本到文本对齐。

Typographic Attacks in Vision-LLMs-based AD Systems

将Vision-LLMs集成到端到端的自动驾驶(AD)系统迄今为止已经带来了富有希望的结果[9],其中Vision-LLMs可以通过场景的显式推理步骤来增强用户的信任。一方面,AD系统中的语言推理可以通过利用LLMs学到的常识来提升其能力,同时能够熟练地与用户沟通。另一方面,将Vision-LLMs暴露在公共交通场景中不仅使它们更容易受到误导推理过程的打字攻击,而且如果它们的结果与决策、判断和控制过程相关联,还可能造成危害。

与基于梯度的、迁移性较低的攻击不同,打字攻击通过利用原始文本与图像内文本之间的固有的文本到文本对齐,引入图像中的误导性文本模式,从而在Vision-LLMs之间具有更好的迁移性,即控制视觉文本对齐。在数字形式中,攻击被表述为一个函数 \tau(\cdot),它应用表示打字攻击的转换来获得对抗性图像 \hat{\mathbf{v}}=\tau(\mathbf{v})。然后,方程式1可以重写为:

\mathbf{y}_{t} =f(x_{1},\dots,x_{t-1},\hat{\mathbf{v}}) \tag{4} =f(x_{1},\dots,x_{t-1},\hat{v}_{1},\dots,\hat{v}_{m}),

其中 \hat{v}_{1},\dots,\hat{v}_{m} 表示在受影响的图像 \hat{\mathbf{v}} 下的 m 个视觉标记,其文本内容旨在与 \{x_{1},\dots,x_{t-1}\} 对齐,但引导推理过程朝向错误的答案。通过利用许多Vision-LLMs在语言建模中的基本特性来构建对抗性模式,打字攻击 \tau(\cdot) 旨在通过直接用文本影响视觉信息,在各种预训练的Vision-LLMs之间具有迁移性。作者的研究旨在AD场景中的打字攻击,以彻底理解问题并提高认识。

4 Methodology

图1展示了作者排版攻击流程的概览,该流程从提示工程到攻击标注,特别是通过攻击自动生成、攻击增强和攻击实现步骤。作者在以下小节中描述每个步骤的细节。

Auto-Generation of Typographic Attack

在本小节中,为了解决字体攻击中自主性和多样性的缺乏问题,作者建议采用大型语言模型(LLM)和提示工程的支持,用一个模型函数 l(\cdot) 来自动生成对抗性的字体模式。设 \mathbf{q}\mathbf{a} 分别为图像 \mathbf{v} 的问题提示输入及其答案,生成的对抗性文本可以简单地表示为 \hat{\mathbf{a}}

\hat{\mathbf{a}}=l(\mathbf{q},\mathbf{a}). \tag{5}

表1:攻击的可迁移性和隐蔽性。

为了生成有用的误导,对抗性模式必须与现有问题保持一致,同时引导LLM走向错误答案。作者可以通过一个称为“指导”的概念来实现这一点,它指的是为LLM(例如,ChatGPT)配置目标,在鼓励多样化行为的同时施加特定约束。在作者的背景下,作者指导LLM在给定问题 \mathbf{q} 的约束下生成与给定答案 \mathbf{a} 相反的 \hat{\mathbf{a}}。因此,作者可以使用图2中的以下提示向LLM初始化指导。在生成攻击时,作者会根据问题类型施加额外的约束。在作者的背景下,作者关注以下任务:\blacklozenge 场景推理(例如,计数),\blacklozenge 场景目标推理(例如,识别),以及 \blacklozenge 动作推理(例如,动作推荐),如图3所示,

这些指导鼓励LLM生成通过文本到文本对齐影响Vision-LLM推理步骤的攻击,并自动产生作为基准攻击的字体模式。显然,上述字体攻击只适用于“单任务”场景,即单一的问题和答案对。为了研究关于多对问题的“多任务”漏洞,作者也可以将公式泛化到 K 对问题和答案,表示为 \mathbf{q}_{i},\mathbf{a}_{i},以获得 i\in[1,K] 的对抗性文本 \hat{\mathbf{a}}_{i}

Augmentations of Typographic Attack

受到指令提示方法[37; 38]的成功启发,LLM中的贪婪推理[39],以及为了进一步利用视觉-LLM中文本 Token 与视觉 Token 之间的歧义,作者提出通过在图像中明确提供强调文本到文本对齐的指令关键词来增强排版攻击提示。

作者的方法以指令指导的形式实现这一概念:\blacklozenge 命令指导用于强调错误答案,\blacklozenge 并联指导额外包含攻击条款。特别是,作者开发了对以下内容的探索:

  • 命令指导。 通过将命令与攻击嵌入,作者旨在提示视觉-LLM贪心地生成错误答案。作者的工作研究了在第一个攻击提示前使用"ANSWER:"指令作为前缀。
  • 并联指导。 并联词、连接词(或缺少连接词)用于将不同的攻击概念连接起来,使整个文本看起来更加连贯,从而增加多任务成功的可能性。在作者的工作中,作者研究这些指导作为"AND"、"OR"、"WITH",或简单地作为攻击提示之间的空格前缀。

虽然其他形式的指导也可以用于提高攻击成功率,但在这项工作中,作者专注于研究基本的与排版攻击相关的指导。

Realizations of Typographic Attacks

在数字领域,排版攻击是指将文本嵌入图像中以欺骗视觉大型语言模型(Vision-LLMs)的能力,这可能仅涉及将文本放入图像中。在物理领域,排版攻击可以将真实元素(例如,贴纸、油漆和绘画)融入人工智能系统可观察的环境/实体中,自动驾驶系统(AD系统)是主要的例子。这包括在街道、物体、车辆或服装上放置具有不寻常字体或颜色的文本,以误导自动驾驶系统在推理、规划和控制方面的判断。作者研究了将视觉大型语言模型集成到自动驾驶系统中时的情况,因为它们很可能在面对排版攻击时风险最高。作者将放置位置归类为交通场景中的背景和前景。

  • 背景,指的是环境中在交通场景中静止且普遍存在的元素(例如,街道、建筑物和公交车站)。背景组件为引入各种大小的欺骗性排版元素提供了预定义的位置。
  • 前景,指的是与自动驾驶系统感知直接交互的动态元素(例如,车辆、骑自行车的人和行人)。前景组件为各种大小的排版攻击提供了动态和多变的位置。

在作者的工作中,前景放置得到了一个开放词汇目标检测器[40]的支持,以灵活地提取特定目标的框位置。设 \mathbf{A}=\hat{\mathbf{a}}_{1}||\ldots||\hat{\mathbf{a}}_{K} 为攻击的排版连接,\mathbf{A}^{\prime} 为其增强版本,无论是在背景还是前景上,函数 \tau(\cdot) 将执行对图像 \mathbf{v} 的裁剪框坐标 x_{min},y_{min},x_{max},y_{max} 的嵌入操作。

根据被攻击的任务,作者观察到不同的文本放置和观察到的尺寸会使某些攻击更有效,而其他攻击则可以忽略不计。作者的研究显示,背景放置攻击对场景推理和动作推理非常有效,但对场景目标推理效果不佳,除非也包括前景放置。

5 Experiments

Experimental Setup

作者在针对AD的VQA数据集上进行了Vision-LLMs实验,例如LingoQA [7] 以及由CARLA模拟器提供的CVPRW'2024挑战1的数据集。作者使用LLaVa [2] 为LingoQA和CVPRW'2024数据集输出攻击提示,后者在某些情况下手动操作。关于LingoQA,作者在实际交通场景的任务中测试了1000个问答,例如场景推理和动作推理。至于CVPRW'2024挑战数据集,作者在100张图片上测试了超过300个问答,每张图片至少有三个与场景推理和5个类别的场景目标推理相关的问题。作者的评估指标基于精确匹配、Lingo-Judge准确度[7]以及与非攻击答案对比的BLEURT [41]、BERTScore [42],并使用SSIM(结构相似性指数)来量化原始图像和攻击图像之间的相似性。关于模型,作者定性和/或定量测试了LLaVa [2],VILA [1],Qwen-VL [17]和Imp [18]。这些模型在配备了大约45GiB内存的NVIDIA A40 GPU上运行。

5.1.1 对场景/动作推理的攻击

表2:作者自动攻击策略有效性的消融研究。分数越低意味着攻击越有效,(auto)表示自动攻击。

图4:针对CVPRW'24数据集对Imp和GPT4的示例攻击。

如表2、图4和图5所示,作者的攻击框架可以有效误导各种模型的推理。例如,表2展示了对两个数据集(LingoQA和CVPRW'24—仅关注计数)自动攻击策略有效性的消融研究。前两个指标(即精确和Lingo-Judge)用于更好地评估语义正确性,表明像计数任务这样的简短答案容易被误导,但LingoQA中更长、更复杂的答案可能更难以改变。例如,Qwen-VL在精确指标下对LingoQA的攻击得分为0.3191,表明与同一指标下计数任务的其他得分相比相对有效。另一方面,作者看到后两个得分(即BLEURT和BERTScore)通常很高,这暗示作者的攻击可以误导语义推理,即使是错误的答案也可能与人类的理解相当。

在场景推理方面,作者在表3、表4和图4中展示了作者提出的攻击针对多种案例的有效性。例如,在图4中,Vision-LLM可以对干净图像的 Query 给出相当准确的答案,但排版攻击的输入可以使它失败,例如准确计数行人和车辆,作者证明加强的排版攻击输入甚至可以攻击更强的模型(例如GPT4 [43])。在图5中,作者还显示场景推理可以在关注不相关细节并在排版攻击下产生幻觉的情况下被误导。作者的工作还表明,场景目标推理/基于目标的推理通常是更健壮的,因为需要目标 Level 和图像 Level 的攻击来改变模型的答案。

在动作推理方面,如图5所示,Vision-LLMs可能推荐非常糟糕的建议,建议不安全的驾驶实践。然而,作者看到一个有希望的点,即Qwen-VL推荐了致命的建议,但在认识到初步不良建议可能存在的潜在危险后,它重新考虑了这一推理过程。这些例子展示了在欺骗或操纵条件下自动化推理过程的漏洞,但也表明可以应用防御性学习来增强模型推理。

5.1.2 Compositions and Augmentations of Attacks

作者展示了在特定场景下,组合多个QA任务进行攻击是可能的,从而表明排版攻击并非如先前研究所示的单任务攻击。此外,作者发现攻击的增强是可能的,这意味着利用内在语言建模过程的排版攻击能够误导Vision-LLMs的推理,特别是在强大的GPT-4案例中尤为明显。然而,正如表5所示,搜索最佳增强关键词可能具有挑战性。

5.1.3 向物理排版攻击迈进

在作者的半现实攻击玩具实验中(见图5),作者显示,涉及在现实世界环境中操作文本的攻击可能具有潜在危险性,因为它们易于实施,例如在标志、车辆后、建筑物、广告牌或AD系统可能感知并解释以做出决策的任何日常物体上。例如,将路标上的文本从“停止”更改为“加速”可能会对利用Vision-LLMs的AD系统造成潜在危险的后果。

6 Conclusion

作者的研究开发了一个全面的排版攻击框架,旨在对视觉大语言模型(Vision-LLMs)在自动驾驶系统(AD)下的基准测试进行探索,研究它们的采用情况、对决策自主性的潜在影响,以及这些攻击的实际实施方法。首先,作者开发的与数据集无关的框架能够自动生成误导性响应,误导视觉大语言模型的推理。其次,作者的语言格式化方案被证明可以增强攻击程度,并且可以扩展到同时针对多个推理任务。第三,作者对这些攻击在物理交通场景中实际实施的研究对于强调防御模型的需求至关重要。作者在交通环境中对排版攻击的有效性、可迁移性和可实现性的实证发现,强调了它们对现有视觉大语言模型(例如,LLaVA、Qwen-VL、VILA)的影响。这项研究强调了社区内需要提高对将视觉大语言模型集成到自动驾驶系统相关漏洞的认识的紧迫性。

局限性。 作者排版攻击框架的主要局限性之一在于其对环境控制和可预测性的依赖。作者的框架可以在受控设置中演示视觉大语言模型对排版操纵的脆弱性,因此现实世界交通情景的变异性和不可预测性可能会显著降低攻击的一致性和可复现性。此外,作者的攻击假设自动驾驶系统不会发展以识别和减轻这种操纵,但随着防御技术的发展,这可能不成立。另一个局限性是测试和部署此类攻击的伦理问题,如果管理不当,这可能会潜在地危及公共安全。这需要在对研究和对漏洞的认识进行谨慎处理和披露,确保知识不会被恶意利用。

图5:对LingoQA数据集上的Qwen-VL-7B进行的攻击示例。

保护措施。 为了保护自动驾驶系统免受排版攻击所暴露的漏洞的影响,必须在自动驾驶系统内开发强大的防御机制。虽然目前关于防御技术的研究还相对较少,但有一些方法可以减轻潜在的问题。一项并行工作正在研究如何通过更好的提示来支持更好的推理以防御攻击[16],或者如何通过视觉大语言模型的关键词训练使这些系统对攻击更具弹性,通过将它们的答案条件化于特定的前缀[15]。另一个基本方法是检测并移除视觉信息中所有非必要的文本。总的来说,有必要推动社区范围内的努力,以建立关于视觉大语言模型安全部署的标准和最佳实践。

更广泛的影响。 作者对排版攻击的研究不仅涉及自动驾驶系统的技术漏洞,还触及更广泛的社会、伦理和监管问题。随着视觉大语言模型和自动驾驶技术的普及,这类攻击的潜力强调了需要全面的安全和安全框架,以预测和减轻非常规威胁。这项研究突出了技术与人类因素之间的相互作用,说明交通环境中看似微小的改变可能导致自动驾驶系统出现重大误判,从而潜在地危及公共安全。

更广泛的影响。 作者对排版攻击的研究不仅涉及自动驾驶系统的技术漏洞,还触及更广泛的社会、伦理和监管问题。随着视觉大语言模型和自动驾驶技术的普及,这类攻击的潜力强调了需要全面的安全和安全框架,以预测和减轻非常规威胁。这项研究突出了技术与人类因素之间的相互作用,说明交通环境中看似微小的改变可能导致自动驾驶系统出现重大误判,从而潜在地危及公共安全。

参考

[1].Towards Transferable Attacks Against Vision-LLMs in Autonomous Driving with Typography.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • Vision-LLMs
  • Transferable Adversarial Attacks
  • 3 Preliminaries
  • Revisiting Auto-Regressive Vision-LLMs
  • Typographic Attacks in Vision-LLMs-based AD Systems
  • 4 Methodology
  • Auto-Generation of Typographic Attack
  • Augmentations of Typographic Attack
  • Realizations of Typographic Attacks
  • 5 Experiments
  • Experimental Setup
    • 5.1.1 对场景/动作推理的攻击
    • 5.1.2 Compositions and Augmentations of Attacks
      • 5.1.3 向物理排版攻击迈进
      • 6 Conclusion
      • 参考
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档