香港理工大学 & 腾讯实验室提出 PoserLLaVa 方法在内容感知布局生成中实现SOTA性能！

AIGC 先锋科技

发布于 2024-07-08 14:01:47

850

发布于 2024-07-08 14:01:47

文章被收录于专栏：AIGC 先锋科技

布局生成是实现自动化平面设计的核心，它需要以视觉上令人愉悦且遵循约束的方式安排各种多模态设计元素的位置和大小。先前的方法要么不适用于大规模应用，要么缺乏适应不同设计需求的灵活性。作者的研究引入了一个统一的框架，用于自动生成图形布局，利用多模态大型语言模型（MLLM）来适应各种设计任务。相比之下，作者的数据驱动方法采用结构化文本（JSON格式）和视觉指令调整，在特定的视觉和文本约束下生成布局，包括用户定义的自然语言规范。作者进行了大量实验，并在公共多模态布局生成基准测试中取得了最先进（SOTA）的性能，证明了作者方法的有效性。此外，认识到现有数据集在捕捉现实世界图形设计复杂性方面的局限性，作者提出了两个新的数据集，用于更具挑战性的任务（用户约束生成和复杂海报），进一步验证了作者的模型在现实生活中的实用性。凭借其卓越的可访问性和适应性，这种方法进一步实现了大规模平面设计任务的自动化。代码和数据集将在https://github.com/posterllava/PosterLLaVA上公开提供。

1 Introduction

尽管以前的方法在某些数据集上展示了进展，但它们大多数依赖于高度定制的网络结构，缺乏普遍性。这种特定性需要大量的修改或完全重新设计，以适应新的或不同的布局设计挑战。认识到这一局限性，作者开发了一个名为PosterLAVa的统一框架（见图1），用于布局生成任务，该框架受到了最近发布的多模态指令调优方法的简单性和有效性的启发。通过大量未标注语料库的预训练和根据指令跟随数据的微调，多模态大型语言模型（MLIMs）能够根据给定的指令及其背景知识处理多个视觉-语言任务（例如，视觉问答（VQA）（Wang et al., 2019; Wang et al., 2019），视觉定位。

对于布局生成，作者首先展示了布局信息如何自然地由JSON格式的结构化文本内容表示。有了这种表示，作者可以衡量PosterLAVa在已建立的内容感知生成数据集上的性能，并将其与之前的基准进行比较。为了处理多模态条件输入，作者利用LLaVa（Wang et al., 2019）的预训练视觉头将视觉表示转换到文本领域，并对LLM（Wang et al., 2019）进行微调以解释和生成布局数据。以LLM作为中央处理单元，作者的模型可以通过简单修改输入指令来管理各种布局生成任务，无需更改模型架构。此外，文本用户需求可以无缝地集成到生成指令中，增强了模型对特定设计需求的响应性。

作者的工作主要贡献可以总结如下。

统一布局生成工具 作者提出了一种统一的内容感知布局生成方法，该方法利用多模态大型语言模型（LLM），通过简单修改输入指令即可适应各种设计场景。作者的方法在多个公开数据集（见表2）以及两个新提出的数据集上得到了验证，展示了其卓越的性能和多样性。
自然语言用户需求 作者框架处理自然语言输入的能力显著提高了设计过程的直观性和效率。由于大型语言模型对自然语言输入的固有支持，作者的方法无需额外的网络模块或损失函数，以端到端的方式实现了这一目标。作者利用GPT（Brown等人，2019年）从少量高质量的人工标注数据生成了大规模的遵循指令数据，并为该领域贡献了最大的受约束布局生成数据集，包含82,400个样本，远超以往的努力。
现实世界的复杂海报 作者收集了一个名为QB-Poster（QQ浏览器海报）的具有挑战性的图形布局数据集，包含5,188个样本，这些样本在中国社交媒体中广泛设计。该数据集的特点是内容种类丰富，几何关系复杂。通过与最新的可比较方法的对比分析，作者的方法在捕捉复杂现实世界布局分布的适应性和有效性方面表现出色。

2. Related Work

近年来，在计算机视觉领域，尤其是在目标检测和识别领域，已经取得了重大进展。本节将对与作者所提出方法最相关的工作进行回顾。

Automatic Graphic Layout Generation

基于规则的方法 在深度学习出现之前，布局生成已经被研究了几十年；Wang等人，2019；Wang等人，2019）。通常，Yin等人（2019）提出了一系列根据广泛接受的美学或信息传达规则以及一种启发式算法来最小化整体能量函数。这些方法不需要训练。相反，它们在每次推理时执行运行时搜索过程。这些方法的真正复杂性在于能量函数的设计，这需要大量的设计经验和专业知识。此外，当遇到新的设计元素或应用于不同风格的布局时（例如，从UI到商业海报），这些函数必须手动重新设计。

内容无关的布局生成 神经网络为研究行人提供了一种从大量数据中隐式地制定设计原则的方法，节省了人力。早期的大多数工作，2019）专注于为移动UI、文档和杂志页面生成视觉上合理的布局。LayoutGAN（Wang等人，2019）采用GAN（生成对抗网络）范式并设计了一个可微分的渲染过程以连接视觉和图形领域。LayoutVAE（Wang等人，2019）和CanvasVAE（Wang等人，2019）采用VAE（变分自编码器）范式，而更近期的工作则采用自回归架构或扩散架构。尽管它们在无条件的布局生成任务上取得了成就，但它们在现实世界场景中难以使用。

内容感知布局生成 最近，一些其他工作（Kang等人，2018；Wang等人，2019；Wang等人，2019；Wang等人，2019）将注意力转向了商业风格的海报，在这种情况下，图形设计通常基于非空背景图像。CGL-GAN（Wang等人，2019）贡献了一个包含大约60k张中文商业海报的大型数据集，并 Proposal 使用基于 Transformer 的GAN网络学习，该网络接收显著图和修复后的背景作为输入。类似地，PosterLayout（Kang等人，2018）使用带有显著图作为输入的CNN-LSTM网络来处理问题。采用C-VAE（条件变分自编码器）来预测布局。LayoutDETR（Wang等人，2019）设计了一个类似DETR的模型，利用预训练的目标检测模型，并整合GAN和VAE进行布局生成。他们还包含预训练的ViT和BETR 作为视觉和文本编码器，以获取设计元素的嵌入特征。

有趣的是，一些工作还尝试根据特定约束生成布局。最初，LayoutGAN++（Kang等人，2018）引入了基于拉格朗日乘数法的附加约束优化过程，以获得所需的布局。然后，LayoutFormer++（Kang等人，2018）和Parse-then-place（Wang等人，2019）设计了特定的中间表示来处理各种约束。后者还研究了文本到布局的问题，其中包含了隐式表达的用户需求，与作者的非常相似。

Multi-modal Large Language Models and Application

LLM（大型语言模型）在广泛的自然语言处理（NLP）任务中取得了显著的成功。这些拥有数十亿参数的模型通过在庞大的未标注文本语料库上进行预训练，获得了广泛的知识。已经研究了各种指令调优方法，以增强LLM理解并执行自然语言指令的能力（Wang等人，2019；Wang等人，2019）。尽管LLM在理解和生成文本方面已经显示出很强的能力，但多模态LLM通过整合视觉和听觉数据等附加模态得到了增强（Wang等人，2019；Wang等人，2019；Wang等人，2019）。一种普遍的方法是向LLM注入多模态信息，并利用它们强大的推理能力。

LLM辅助的布局生成 布局可以用XML或JSON等格式编码，非常适合由预训练的大型语言模型（LLM）处理。以前的工作使用了特定领域的数据来增强其代码生成能力。LayoutNUWA（Wang等人，2019）将LLaMa（Wang等人，2019）和CodeLLaMa（Wang等人，2019）针对内容无关的布局生成任务进行微调，在多个内容无关的布局数据集上取得了SOTA性能。LayoutPrompter（Wang等人，2019）引入了一种有趣的无需训练的方法，利用RAG（检索增强生成）来增强GPT（Brown等人，2019）的上下文学习能力，动态地从数据集中获取示例。然而，这种以检索为中心的策略仅限于开放域生成。这些工作忽视了视觉领域特征，或者将其转换为硬 Token 后再输入LLM，可能导致严重的信息丢失。为了解决这个弱点，作者包括了最近提出的多模态技术——视觉指令调优（Wang等人，2019）来微调预训练的大型模型，该模型接受带有预训练和对齐的视觉适配头的视觉信息（Wang等人，2019）。对于布局到图像的生成，有趣的是，像LayoutGPT（Chen等人，2019）和TextDiffuser-2（Chen等人，2019）这样的同时期工作也采用了LLM，显示出基于LLM的平面设计生产流程的巨大潜力。

Methodology

2.3.1. Multi-modal Layout Tokenization

假设所有复杂的属性和艺术风格都有其默认值，作者可以通过定义每个元素的位置、大小和内容来明确表示图形设计的信息。如果不涉及旋转和不规则形状，位置和大小可以进一步表示为边界框格式。元素的类别标签明确给出，以挖掘不同元素之间的关系。作者得到了以下海报的表示形式：

其中表示元素的数量。对于之前的论文，大多数将视为数值形式，这意味着在连续空间中解决问题。然而，作者设计了以下过程来将分词并将其输入到LLM中以预测下一个标记。首先，作者将边界框坐标与背景的宽度和高度进行归一化，以方便多分辨率生成。边界框向量的每个坐标数据值被截断到小数点后位，以避免冗余。对于类别标签，作者使用相应的文本标签代替，例如针对 PosterLayout (Kang et al., 2018) 数据集的。最后，对于图像元素，由预训练的视觉头编码，它由 ViT (Chen et al., 2019) 编码器和线性投影头组成，即

而文本元素的内容本质上是文本格式的。

2.3.2. Training Scheme

为了促进对标记布局数据的学习，作者采用了刘等人（2019年）提出的训练方案，即视觉指令调整。原文关注于一般的视觉-语言任务，建议通过两个阶段微调预训练的LLM（王等人，2019年）：1.针对特征对齐的预训练，和2.端到端的微调。对齐阶段通常需要大量的图像-文本对来将视觉信息适应到语言空间，而微调阶段则相对需要较少的数据来获得遵循指令的输出。认识到布局生成的主要挑战在于解码图形元素之间的语义和几何关系，作者通过使用预训练的线性投影层来简化训练过程，跳过了特征对齐阶段。这使得作者能够在保持与全训练模型相当性能的同时，减少训练支出。

2.3.3. Prompt Template

作者引入以下提示模板，用于在各种内容感知布局生成任务中采用端到端的微调阶段的视觉指令调整。该模板在表1中描述。预训练的视觉 Head 将背景图像转换为软 Token （如公式2所示）以获得**-图像**-。用确切的设计元素数量替换，-分辨率**-用画布分辨率替换。作者使用领域指示符-domain_name**-**来区分不同的任务和数据集。例如，CGL数据集用“商业海报”，广告横幅数据集用“广告横幅”。 GT 布局信息通过第2.3.1节引入的过程用文本表示，并按JSON格式（如图1）排列以替换。对于人工指令，作者删除边界框并保留类别标签以获得<masked_json>。至于用户约束生成任务，约束作为给出。

3. Experiment

实现细节 大多数实验是在8个NVIDIA A10 GPU上进行的，并且可以在12小时内完成。采用的MLIM预训练权重是LLaVa-v1.5（Le等人，2017）的全调整7B版本，它是使用LLaMa-2（Le等人，2017）7B作为基础模型，并进行了视觉指令调整训练的。对于以下大多数布局数据集，作者用一周期对MLIM进行微调，但对于横幅数据集，考虑到其规模较小，作者采用了第3周期模型。为了适应QB-Poster数据集，作者采用在广告横幅、CGL和PosterLayout的所有训练集上预训练的模型作为起点，以提高其性能。由于元素数量的增加， Token 长度也随之增长，作者将最大 Token 数从2048增加到4096。对于其他训练或推理超参数，作者应用了LLaVa（Le等人，2017）推荐的默认配置。

Result on Public Content-aware Layout Dataset

数据集描述 如第2.1节所述，作为一种新任务的内容感知布局生成，大约自2020年起才受到关注，相关研究仍处于初级阶段。作者广泛调查了过去文献中发布的数据集，以验证模型在一般内容感知布局生成任务上的性能。现有的公共数据集和 Baseline 在表2中列出。

CGL数据集（Zhu等人，2017年），作为先驱的内容感知集合之一，包含了来自电子商务平台的60548个训练样本和1000个测试样本。设计元素被划分为4类：标志、文本、底层和装饰。训练集中每个海报的手动标注了元素的类别标签和边界框，而测试集只包括背景图像。需要使用图像修复（Zhu等人，2017年）和显著性检测（Chen等人，2018年）等技术来获取额外的视觉信息。认识到CGL数据集的限制，特别是其重复的内容以及包含十个以上元素的复杂布局的稀缺，Hsu等人（Hsu等人，2018年）引入了PosterLayout，提供9974个海报-布局对用于训练和905个背景图像用于测试。LayoutDETR（Zhu等人，2017年）贡献了一个包含多模态信息的广告横幅数据集，包含7672个样本，以9:1的比例分为训练和测试子集。背景图像来自Pitt Image Ads数据集或谷歌图像，边界框、类别和文本内容通过OCR自动提取。但与CGL和PosterLayout不同，这个数据集包含多分辨率的横幅。

YouTube（Zhu等人，2017年）数据集是另一个新提出的数据集，专注于视频缩略图生成。与前一个海报数据集相比，它包含了带有旋转角度的前景图像，因此需要更高级的多模态理解。

评估指标 为了方便比较不同的数据集，作者采用了原始的评价测量方法，未做更改。用于CGL数据集（Zhu等人，2017年）和PosterLayout（Hsu等人，2018年）数据集的指标相似。内容感知指标的计算与背景或显著性图像有关：和Rea表示文本元素的易读性；、、Occ表示背景上对语义有意义或显著性区域的遮挡，而Uti表示非显著性区域的实用性。

和Ali表示对齐；和Val分别指有效（例如，非空）布局比例。对于Ad Banner（Kumar等人，2017）和YouTube（Yang等人，2018）数据集，由于可获取到真实的布局，因此包含了相似性度量。YouTube数据集中的VB代表视觉平衡，它表示整体布局是否平衡。为了避免重复，请参考原论文以获取关于度量的详细解释。

结果对比 表3、4、5和6中呈现的结果表明，作者的方法在所有指标上显著优于现有方法，无论是内容无关的还是内容相关的。在Ad Banner数据集中，除了Misalign之外，作者的模型在所有指标上都有所提升。对于PosterLayout数据集，作者的方法显著提高了几何指标，而LayoutPrompter（Kumar等人，2017）在效用和遮挡之间取得了更好的折中。这是可以理解的，因为所有先前的方法都包含了额外的输入（即，预处理后的显著性图），而作者的方法仅依赖于原始背景图像。同样，在CGL数据集中，作者的方法在几何测量方面优于其他方法。这些结果证实了作者的方法在各种数据集和指标上的有效性。

Towards Real-world Poster Design - Two New Content-aware Layout Dataset

用户约束的布局生成 尽管基于内容感知的布局生成对于现实世界应用来说是一个宝贵的步骤，但现实的平面设计问题通常涉及更多的条件性。用户约束就是其中之一，通常包括对平面设计产品的可选建议或强制性意见。这些通常用自然语言表达的约束因其潜在的歧义性而引入了更多的复杂性。如第2.1节所述，之前的几项工作（Kumar等人，2017年；Wang等人，2018年；Koo等人，2018年）已经探索了类似的主题。然而，仍然需要一个全面的端到端解决方案，以无缝地整合视觉内容与自然语言约束。作者的方法论，利用大型多模态模型，天生就能弥合这一差距。

为此，作者提出了一个新的数据集，以验证作者方法在约束生成方面的能力。首先，作者请人类标注者根据CGL（Yang等人，2018年）验证集中的原始海报布局编写3个用户约束（6,006个样本），这些约束后来被用作本次实验的测试样本。然后，使用这些高质量的人工标注约束作为上下文学习示例，作者利用ChatGPT自动生成约束。这种方法使作者能够将约束数据集扩展到包括CGL数据集（54,546个样本）的整个训练语料库和PosterLayout数据集（9,974个样本），从而组建了一个巨大的训练数据集，以反映现实世界平面设计任务的多样需求。

一个新的现实海报数据集现有内容感知数据集的一个显著限制是它们的过度简化。通常，这些数据集的特征布局不超过15个设计元素，分为不到5种类型。这种简单性不足以传达足够的语义信息，也未能反映现实世界平面设计中使用的复杂性。

为了更好地符合现实场景的需求，作者收集了一个名为QB-Poster的新数据集，其风格更为复杂。如图2所示，QB-Poster的每张海报的元素数量和几何复杂性显著超过其他数据集。这包括5,188张海报-布局对，其中4,675张用于训练，513张用于测试。

该数据集将设计元素分为10类：标题、副标题、项目标志、项目、项目标题、物体、文本背景、装饰、边框和文本。这些细粒度的类别标签揭示了元素的设计模式，并为算法提供了额外的语义信息。文本元素采用分层分类来指明它们的重要程度。同时，视觉元素被分类为装饰、文本背景、物体和边框，分别标识装饰图标、底层、背景图像中具有语义意义的物体以及画布区域。

** Baseline 和评估指标**为了在模型规模上保持公平，作者选择LayoutPromter [23]进行比较，后者同样采用LLM作为其核心组件。作者使用_gpt-3.5-turbo-instruct_而不是_text-daVinci-003_，因为OpenAI已经放弃了后者模型。与作者的方法不同，LayoutPrompter只接受文本输入。因此，对于用户受限的内容感知生成任务，作者通过将预提取的显著性边界框与约束文本拼接，扩展了原始方法。其他方法被省略，因为它们不能支持多模态输入，且LayoutPrompter在PosterLayout数据集上已经明显超过了其他方法。对于评估指标，由于PosterLayout [13]和CGL-GAN [47]使用的指标非常相似，作者选择了PosterLayout风格进行评估，因为它较少依赖附加数据和预训练模型。但与原文不同，作者的定义（使用验证分割）为测试包含 GT 布局，这使得可以计算相似性指标。作者使用 GT 边界框在原始海报上裁剪块，并使用预测边界框调整大小，形成用于计算图像FID的预测海报图像。也引入了IoU作为相似性的测量。

对于几何测量，作者采用HPCVTG [40]中使用的VB（视觉平衡）作为一个重要的补充，反映元素的放置在空间上是否平衡。最重要的是，为了衡量模型遵循输入约束的程度，作者从测试集中抽取一个子集（50个布局）并请人工标注者验证平均约束违规比率，记为vio。总体结果如表7所示。

结果对比 如表7所示，无论是在相似性还是几何度量上，PosterLIaVa在所有指标上都显著优于LayoutPromter，这显示了在布局生成中利用视觉指令调整的威力。这一结果与表3中显示的PosterLayout数据集有所不同，但一旦认识到RAG与微调之间的差异，这仍然在预期之内。这表明尽管无学习方法的效率很高，但在处理复杂和高度定制化的数据时，它可能无法适应目标分布。此外，RAG没有直接使用训练集来调整模型，然而它仍然需要大量的数据库尺寸来确保检索到高质量和低方差样本，这在数据稀缺的情况下会降低这种方法的表现。

4. Ablation

作者设计了几项消融实验，以验证在作者提出的方法在以下维度上的必要性。作者假设：

1.鉴于现有内容感知数据集规模较小（小于10万样本），模型的生成性能与训练样本数量和模型大小呈正相关；

2.所使用的多模态信息应对生成布局质量有所贡献。选择广告横幅数据集进行消融实验，因为它是轻量级的，但仍然包含充足的多模态信息，且所使用的度量标准稳定（相比之下，效用和遮挡分数的可靠性高度依赖于显著性检测的质量）。

结果表8显示的结果证实了上述假设。对于额外的训练数据，作者应用了CGL、PosterLayout和广告横幅数据集的全部训练集（总计78,194个样本）进行微调，这提高了所有几何测量指标。令人惊讶的是，它还除Layout FID之外的所有相似性指标，这表明在内容感知生成数据集中的普遍性。此外，通过将预训练的LLaVa模型从7B升级到13B，相似性度量持续增加。

对于多模态信息，作者分别减少视觉输入（即背景图像）和文本输入（即文本元素内容），这两种减少都降低了整体性能（遮挡指标略有改善，可能是因为减少信息降低了学习难度）。这些结果共同证明了在内容感知布局生成任务中利用多模态大型模型的有效性，以及其巨大的学习能力对于更多高质量布局数据的需求。

5. Conclusion

内容感知布局生成是一个高度多模态的问题。利用最新的多模态大型模型指令微调技术，作者提出了一种名为PoserLLaVa的方法，将多模态布局信息表示为标记，然后由大型语言模型（LLM）进行处理。所提出的方法在多个内容感知布局生成数据集上实现了最新的性能。

此外，通过对现有内容感知布局生成数据集的调查，作者发现当前公开数据集存在重大不足，即缺乏用户约束数据和复杂数据，这两者在现实应用中都至关重要。

作者进一步收集了两个新的数据集来弥补这一差距，分别是用户约束的海报数据集和QB-Poster，基于这些数据集作者验证了方法的扩展能力。

总之，为了实现大规模自动化生产，高质量的多模态布局数据和统一的学习方法仍然需求迫切，作者的方法为此铺平了道路。

参考

[1].PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-15，如有侵权请联系 cloudcommunity@tencent.com 删除

腾讯

本文分享自 AIGC 先锋科技微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

香港理工大学 & 腾讯实验室提出 PoserLLaVa 方法在内容感知布局生成中实现SOTA性能！

香港理工大学 & 腾讯实验室提出 PoserLLaVa 方法在内容感知布局生成中实现SOTA性能！