分形生成模型

AI浩

发布于 2025-03-03 14:18:11

1720

文章被收录于专栏：AI智韵AI智韵

摘要

https://arxiv.org/pdf/2502.17437v1 模块化是计算机科学的基石，它将复杂功能抽象为原子构建模块。在本文中，我们通过将生成模型抽象为原子生成模块，引入了新一级的模块化。类似于数学中的分形，我们的方法通过递归调用原子生成模块，构建了一种新型生成模型，从而形成了自相似的分形架构，我们称之为分形生成模型。作为一个运行示例，我们使用自回归模型作为原子生成模块来实例化我们的分形框架，并在具有挑战性的逐像素图像生成任务上对其进行了检验，在似然估计和生成质量方面都表现出了强大的性能。我们希望这项工作能够开创生成建模的新范式，并为未来的研究提供肥沃的土壤。代码可在https://github.com/ITH14/fractalgen获取。

1. 引言

计算机科学的核心在于模块化的概念。例如，深度神经网络是由作为模块化单元的原子“层”构建的（Szegedy等人，2015）。类似地，现代生成模型，如扩散模型（Song等人，2020）和自回归模型（Radford等人，2018），也是由原子“生成步骤”构建的，每个步骤都由一个深度神经网络实现。通过将复杂功能抽象为这些原子构建模块，模块化使我们能够通过组合这些模块来创建更复杂的系统。

基于这一概念，我们提出将生成模型本身抽象为一个模块，以开发更先进的生成模型。具体来说，我们介绍了一种通过在其内部递归调用同类生成模型而构建的生成模型。这种递归策略产生了一个生成框架，该框架在不同级别的模块中展现出具有自相似性的复杂架构，如图1所示。

我们的提案类似于数学中的分形概念（Mandelbrot，1983）。分形是使用称为生成器的递归规则构建的自相似模式{ }^{1}。类似地，我们的框架也是通过生成模型中调用生成模型的递归过程构建的，在不同级别上展现出自相似性。因此，我们将我们的框架命名为“分形生成模型”。

分形或近似分形是生物神经网络中常见的模式。多项研究提供了证据，表明大脑及其功能网络中存在分形或尺度不变的小世界网络组织（Bassett等人，2006；Sporns，2006；Bullmore & Sporns，2009）。这些发现表明，大脑的发育在很大程度上采用了模块化的概念，通过递归地从较小的神经网络构建更大的神经网络。

除了生物神经网络外，自然数据也常常展现出分形或近似分形的模式。常见的分形模式范围从宏观结构如云朵、树枝和雪花，到微观结构包括晶体（Cannon等人，2000）、染色质（Mirny，2011）和蛋白质（Enright & Leitner，2005）。更一般地，自然图像也可以类比为分形。例如，一个图像由本身是图像的子图像组成（尽管它们可能遵循不同的分布）。因此，一个图像生成模型可以由本身是图像生成模型的模块组成。

所提出的分形生成模型受到了生物神经网络和自然数据中观察到的分形特性的启发。类似于自然分形结构，我们设计的关键组件是定义递归生成规则的生成器。例如，如图1所示，这样的生成器可以是自回归模型。在这个实例化中，每个自回归模型由本身是自回归模型的模块组成。具体来说，每个父自回归块生成多个子自回归块，并且每个子块进一步生成更多自回归块。所得到的架构在不同级别上展现出类似分形的自相似模式。

我们在一个具有挑战性的测试平台——逐像素图像生成上，研究了这种分形实例化。现有直接对像素序列建模的方法在似然估计和生成质量方面均未取得令人满意的结果（Hawthorne等，2022；Yu等，2023），因为图像并不体现清晰的顺序。尽管存在难度，逐像素生成代表了一类更广泛的重要生成问题：对具有内在结构的非顺序数据进行建模，这对于图像之外的许多数据类型（如分子结构、蛋白质和生物神经网络）尤为重要。

我们提出的分形框架在这一具有挑战性但重要的任务上表现出色。它能够逐像素生成原始图像（图2），同时实现准确的似然估计和高质量的生成。我们希望我们这一有前景的结果能鼓励对分形生成模型的设计和应用的进一步研究，最终在生成建模领域建立一种新的范式。

2. 相关工作

分形。分形是一种几何结构，其特点是在不同尺度上具有自相似性，通常通过称为生成器的递归生成规则来构造（Mandelbrot，1983）。分形在自然界中广泛存在，从宏观结构（如云、树枝和雪花）到微观结构（包括晶体（Cannon等，2000）、染色质（Mirny，2011）和蛋白质（Enright & Leitner，2005））都有经典例子。

除了这些较易识别的分形外，许多自然数据也展现出近似分形的特征。尽管它们不具备严格的自相似性，但仍体现了相似的多尺度表示或模式，如图像（Freeman等，1991；Lowe，1999）和生物神经网络（Bassett等，2006；Sporns，2006；Bullmore & Sporns，2009）。从概念上讲，我们的分形生成模型自然适用于所有这类具有内在结构和跨尺度自相似性的非顺序数据；在本文中，我们通过基于图像的实例化展示了其能力。

由于其递归生成规则，分形本质上展现出层次结构，这与计算机视觉中的层次设计原则在概念上相关。然而，计算机视觉中的大多数层次方法并未融入分形构造所基于的递归或分而治之范式，也未在其设计中体现出自相似性。我们的分形框架之所以区别于接下来讨论的层次方法，正是因为其独特地结合了层次结构、自相似性和递归。

层次表示。从视觉数据中提取层次金字塔表示一直是计算机视觉中的一个重要课题。许多早期的手工设计特征，如可操控滤波器、拉普拉斯金字塔和SIFT，都采用尺度空间分析来构建特征金字塔（Burt & Adelson，1987；Freeman等，1991；Lowe，1999；2004；Dalal & Triggs，2005）。在神经网络背景下，层次设计对于捕获多尺度信息仍然很重要。例如，SPPNet（He等，2015）和FPN（Lin等，2017）通过金字塔特征图构建多尺度特征层次。我们的分形框架还与Swin Transformer（Liu等，2021）相关，后者通过在不同尺度上关注局部窗口来构建层次特征图。这些层次表示已在各种图像理解任务中证明有效，包括图像分类、目标检测和语义分割。

分层生成模型。分层设计在生成建模中也被广泛应用。许多最近的方法采用了一种两阶段范式，其中预训练的标记器（tokenizer）首先将图像映射到一个紧凑的潜在空间，然后对这些潜在编码使用生成模型（van den Oord等人，2017年；Razavi等人，2019年；Esser等人，2021年；Ramesh等人，2021年）。另一个例子是，MegaByte（Yu等人，2023年）实现了一个具有全局和局部模块的两尺度模型，以更高效地对长像素序列进行自回归建模，尽管其性能仍然有限。

另一类研究聚焦于尺度空间图像生成。级联扩散模型（Ramesh等人，2022年；Saharia等人，2022年；Pernias等人，2023年）训练多个扩散模型，以逐步从低分辨率到高分辨率生成图像。最近，尺度空间自回归方法（Tian等人，2024年；Tang等人，2024年；Han等人，2024年）使用自回归Transformer一次生成一个尺度的标记。然而，对于这些自回归方法来说，在没有标记器的情况下生成图像通常非常昂贵，因为每个尺度的标记或像素数量众多，导致每个尺度内的注意力计算成本呈二次方增长。

模块化神经网络架构设计。模块化是计算机科学和深度学习中的基本概念，它将以前复杂的函数分解为简单的模块化单元。最早的模块化神经网络架构之一是GoogleNet（Szegedy等人，2015年），它引入了“Inception模块”作为新的组织层级。后来的研究扩展了这一原则，设计了广泛使用的单元，如残差块（He等人，2016年）和Transformer块（Vaswani，2017年）。最近，在生成建模领域，MAR（Li等人，2024年）将扩散模型模块化为原子构建块，以建模每个连续标记的分布，从而实现对连续数据的自回归建模。通过提供更高层次的抽象，模块化使我们能够使用现有方法作为构建块，构建更复杂和先进的神经网络架构。

一种开创性的方法是将模块化单元递归应用，并在神经网络架构设计中融入分形概念，即FractalNet（Larsson等人，2016年），它通过递归调用一个简单的扩展规则来构建非常深的神经网络。虽然FractalNet与我们递归调用模块化单元以形成分形结构的核心思想相同，但它在两个关键方面与我们的方法不同。首先，FractalNet使用一小块卷积层作为其模块化单元，而我们使用的是一个完整的生成模型，代表了不同层次的模块化。其次，FractalNet主要设计用于分类任务，因此仅输出低维逻辑值。相比之下，我们的方法利用分形模式的指数缩放行为来生成大量输出（例如，数百万个图像像素），展示了分形启发设计在分类之外更复杂任务中的潜力。

3. 分形生成模型

分形生成模型背后的关键思想是从现有的原子生成模块递归地构建更高级的生成模型。在本节中，我们首先介绍分形生成模型背后的高层次动机和直觉。然后，我们使用自回归模型作为说明性的原子模块，演示如何实例化分形生成模型，并用于建模非常高维的数据分布。

3.1. 动机和直觉

分形是由简单、递归规则产生的复杂模式。在分形几何中，这些规则通常被称为“生成器”（Mandelbrot，1983年）。使用不同的生成器，分形方法可以构建许多自然模式，如云朵、山脉、雪花和树枝，并且已经与更复杂的系统相关联，如生物神经网络的结构（Bassett等人，2006年；Sporns，2006年；Bullmore & Sporns，2009年）、非线性动力学（Aguirre等人，2009年）和混沌系统（Mandelbrot等人，2004年）。形式上，分形生成器规定了如何基于前一级生成器的一个输出，为下一级生成器生成一组新数据：。例如，如图1所示，一个生成器可以通过在每个灰色框内递归调用相似的生成器来构建一个分形。

由于每一级生成器可以从单个输入产生多个输出，因此分形框架可以在仅需要线性数量的递归层级的情况下，实现生成输出的指数级增长。这一特性使其特别适合用相对较少的生成器层级来建模高维数据。具体来说，我们引入了一种分形生成模型，该模型使用原子生成模块作为参数化分形生成器。通过这种方式，神经网络可以直接从数据中“学习”递归规则。通过将分形输出的指数增长与神经生成模块相结合，我们的分形框架能够建模高维非序列数据。接下来，我们将演示如何使用自回归模型作为分形生成器来实例化这一想法。

3.2 自回归模型作为分形生成器

在本节中，我们说明了如何使用自回归模型作为分形生成器来构建分形生成模型。我们的目标是建模一大组随机变量的联合分布，但直接使用单个自回归模型来建模在计算上是不可行的。为了解决这一问题，我们采用了分而治之的策略。关键的模块化是将自回归模型抽象为一个模块化单元，该单元建模概率分布。通过这种模块化，我们可以在多个下一级自回归模型的基础上构建一个更强大的自回归模型。

假设每个自回归模型中的序列长度是一个可管理的常数，且随机变量的总数，其中表示我们分形框架中的递归层级数。然后，分形框架的第一级自回归将联合分布划分为个子集，每个子集包含个变量。形式上，我们将分解为。然后，每个包含个变量的条件分布由第二级递归层级的自回归模型建模，依此类推。通过递归调用这种分而治之的过程，我们的分形框架可以使用级自回归模型高效地处理个变量的联合分布，每一级都操作在可管理的序列长度上。

这个递归过程代表了一种标准的分而治之策略。通过递归地分解联合分布，我们的分形自回归架构不仅与单个大型自回归模型相比显著降低了计算成本，还捕捉到了数据内在的层次结构。

从概念上讲，只要数据展现出可以以分而治之的方式组织的结构，它就可以在我们的分形框架内自然地建模。为了提供更具体的例子，在下一节中，我们将实现这一方法来应对逐像素图像生成的挑战性任务。

4. 图像生成实例化

我们现在展示分形生成模型的一个具体实现，以逐像素图像生成的挑战性任务为例。尽管本文中我们使用图像生成作为测试平台，但相同的分而治之架构可能适应于其他数据领域。接下来，我们首先讨论逐像素图像生成的挑战和重要性。

4.1 逐像素图像生成

逐像素图像生成在生成建模中仍然是一个重大挑战，因为原始图像数据的高维度和复杂性。这一任务要求模型能够高效地处理大量像素，同时有效地学习它们之间丰富的结构模式和相互依赖性。因此，逐像素图像生成已成为一个具有挑战性的基准，其中大多数现有方法仍局限于似然估计，并且无法生成令人满意的图像（Child等，2019；Hawthorne等，2022；Yu等，2023）。

尽管具有挑战性，但逐像素生成代表了一类更广泛的重要高维生成问题。这些问题旨在逐元素生成数据，但与长序列建模不同的是，它们通常涉及非序列数据。例如，许多结构（如分子构型、蛋白质和生物神经网络）并不展现出序列架构，但却体现了非常高维和结构化的数据分布。通过选择逐像素图像生成作为我们分形框架的实例化，我们旨在不仅应对计算机视觉中的一个关键挑战，还展示我们的分形方法在解决具有内在结构的高维非序列数据建模这一更广泛问题上的潜力。

4.2. 架构

如图3所示，每个自回归模型将前一级生成器的输出作为输入，并为下一级生成器产生多个输出。它还接收一张图像（可以是原始图像的一个块），将其分割成多个块，并将这些块嵌入以形成变换器模型的输入序列。这些块也被输入到相应的下一级生成器中。然后，变换器将前一级生成器的输出作为一个单独的标记，放置在图像标记之前。基于这个组合序列，变换器为下一级生成器产生多个输出。

遵循视觉变换器和图像生成模型（Dosovitskiy等，2020；Peebles & Xie，2023）的常用做法，我们将第一个生成器的序列长度设置为256，将原始图像分割成的块。然后，第二级生成器对每个块进行建模，并进一步将其细分为更小的块，递归地继续这个过程。为了管理计算成本，我们逐步减少较小块的变换器块的宽度和数量，因为对较小块进行建模通常比大块更容易。在最后一级，我们使用一个非常轻量级的变换器来自回归地建模每个像素的RGB通道，并对预测应用256路交叉熵损失。表1详细列出了不同递归级别和分辨率下每个变换器的确切配置和计算成本。值得注意的是，通过我们的分形设计，对图像进行建模的计算成本仅是对图像进行建模的两倍。

遵循（Li等，2024）的做法，我们的方法支持不同的自回归设计。在本工作中，我们主要考虑两种变体：一种是光栅顺序的、类似GPT的因果变换器（AR），另一种是随机顺序的、类似BERT的双向变换器（MAR）（图6）。这两种设计都遵循下一标记预测的自回归原则，各自有其优缺点，我们在附录B中详细讨论。我们将使用AR变体的分形框架命名为FractalAR，将使用MAR变体的命名为FractalMAR。

4.3. 与尺度空间自回归模型的关系

最近，引入了几种模型，它们为自回归图像生成执行下一尺度预测（Tian等，2024；Tang等，2024；Han等，2024）。这些尺度空间自回归模型与我们提出的方法之间的一个主要区别是，它们使用单个自回归模型来逐尺度预测标记。相比之下，我们的分形框架采用分而治之的策略，通过生成性子模块递归地对原始像素进行建模。另一个关键区别在于计算复杂度：尺度空间自回归模型在生成下一尺度标记时，需要对整个标记序列执行全面注意力，这导致计算复杂度显著提高。

例如，当在分辨率下生成图像时，在最后一级，尺度空间自回归模型中每个注意力块的注意力矩阵的大小为。相比之下，我们的方法在建模像素相互依赖性时，对非常小的块（）执行注意力，其中每个块的注意力矩阵仅为，总注意力矩阵大小的计算操作为。这种减少使得我们的方法在最高分辨率下的计算效率提高了倍，从而首次实现了逐像素建模高分辨率图像。

4.4. 与长序列建模的关系

以往关于逐像素生成的大部分工作都将问题表述为长序列建模，并利用语言建模的方法来解决（Child等，2019；Roy等，2021；Ren等，2021；Hawthorne等，2022；Yu等，2023）。然而，包括但不限于图像在内的许多数据类型的内在结构超越了一维序列。与这些方法不同，我们将此类数据视为由多个元素组成的集合（而非序列），并采用分而治之的策略，递归地对元素较少的较小子集进行建模。这种方法的动机是观察到这些数据中的很大一部分呈现出近似分形的结构：图像由子图像组成，分子由子分子组成，生物神经网络由子网络组成。因此，设计用于处理此类数据的生成模型应由本身也是生成模型的子模块组成。

4.5. 实现

我们简要描述分形图像生成框架的训练和生成过程。更多细节和超参数见附录A。

训练。我们通过分形架构以广度优先的方式，在原始图像像素上对分形模型进行端到端训练。在训练过程中，每个自回归模型接收来自前一个自回归模型的输入，并为下一级自回归模型产生一组输出作为输入。这个过程一直持续到最后一级，图像被表示为像素序列。最后一个自回归模型使用每个像素的输出，以自回归的方式预测RGB通道。我们计算预测对数几率（将RGB值视为从0到255的离散整数）上的交叉熵损失，并将此损失反向传播通过所有级别的自回归模型，从而端到端地训练整个分形框架。

生成。我们的分形模型以逐像素的方式生成图像，按照深度优先的顺序通过分形架构，如图2所示。这里我们以MAR（Li等，2024）中的随机顺序生成方案为例。第一级自回归模型捕获图像块之间的相互依赖性，并且在每一步中，它基于已知块为下一级生成输出。然后，第二级模型利用这些输出对每个块内的块之间的相互依赖性进行建模。类似地，第三级自回归模型对每个块内单个像素之间的相互依赖性进行建模。最后，最后一级自回归模型从自回归预测的RGB对数几率中采样实际的RGB值。

5. 实验

我们在ImageNet数据集（Deng等，2009）上进行了大量实验，分辨率分别为和。我们的评估包括无条件和类别条件图像生成，涵盖了模型的各个方面，如似然估计、保真度、多样性和生成质量。因此，我们报告了负对数似然（NLL）、弗雷谢特初始距离（FID）（Heusel等，2017）、初始得分（IS）（Salimans等，2016）、精确度和召回率（Dhariwal & Nichol，2021）以及可视化结果，以对我们的分形框架进行全面评估。

5.1 似然估计

我们首先评估了我们的方法在无条件ImageNet 生成上的似然估计能力。为了检验我们分形框架的有效性，我们将框架与不同分形层数的似然估计性能进行了比较，如表2所示。使用单个自回归模型对整个像素序列进行建模会产生高昂的计算成本，使得训练不可行。此外，一个先对整个像素序列建模，再对RGB通道建模的两级分形框架所需的计算量是我们三级分形模型的十倍以上。使用更多的分形层次不仅计算效率更高，而且提高了似然估计性能，这可能是因为它更好地捕捉到了图像的内在层次结构。这些结果证明了我们的分形框架既高效又有效。

我们还在表5中将我们的方法与其他基于似然的模型进行了比较。我们的分形生成模型，通过因果和掩码自回归分形生成器实例化，实现了强大的似然性能。特别是，它实现了每维3.14比特的负对数似然，显著优于之前的最佳自回归模型（每维3.40比特），并且与先进的基于扩散的方法相比仍具有竞争力。这些发现证明了我们的分形框架在逐像素图像生成这一具有挑战性的任务上的有效性，突出了其在建模高维非序列数据分布方面的潜力。

5.2 生成质量

我们还评估了FractalMAR在分辨率下类别条件图像生成这一挑战性任务上的表现，使用了四个分形层次。我们按照标准实践，在表4中报告了包括FID、初始得分、精确度和召回率在内的标准指标，以评估其生成质量。具体而言，FractalMAR-H实现了6.15的FID和348.9的初始得分，平均每张图像的处理时间为1.29秒（在单个Nvidia H100 PCIe GPU上以1,024的批量大小进行评估）。值得注意的是，我们的方法在初始得分和精确度方面表现强劲，表明其能够生成具有高保真度和精细细节的图像，如图4所示。然而，其FID和召回率相对较弱，表明生成的样本与其他方法相比多样性较少。我们推测，这是由于逐像素建模近20万个像素的巨大挑战所致。尽管如此，这些结果突出了我们的方法不仅在准确似然估计方面有效，而且在生成高质量图像方面也表现出色。

我们还观察到了一个有希望的扩展趋势：将模型大小从1.86亿参数增加到8.48亿参数，显著地将FID从11.80改善到6.15，召回率从0.29提高到0.46。我们预计，进一步扩展参数规模可能会进一步缩小FID和召回率的差距。与依赖分词器的模型不同，我们的方法不会受到分词引入的重构误差的影响，这表明随着模型容量的增大，性能提升潜力无限。

5.3 条件逐像素预测

我们还通过图像编辑中的常规任务，进一步检验了我们的方法在条件逐像素预测方面的性能。图5提供了几个例子，包括图像修复、图像外推、解裁剪和类别条件编辑。如图所示，我们的方法可以根据未遮挡区域准确预测遮挡像素。此外，它还能有效地从类别标签中捕捉高层语义，并在预测的像素中反映出来。这在类别条件编辑的例子中得到了说明，模型通过以狗的类别标签为条件，将猫的脸替换成了狗的脸。这些结果证明了我们的方法在给定已知条件预测未知数据方面的有效性。

更广泛地说，通过逐元素生成数据，我们的方法提供了一个比扩散模型或在潜在空间中操作的生成模型等方法更易于人类理解的生成过程。这种可解释的生成过程不仅使我们能够更好地理解数据是如何生成的，还提供了一种控制和与生成过程交互的方式。这些能力在视觉内容创作、建筑设计、药物发现等应用中尤为重要。我们的有希望的结果突出了我们的方法在可控和交互式生成方面的潜力，为未来的探索铺平了道路。

6. 讨论与结论

我们提出的分形生成模型在逐像素生成这一具有挑战性的任务中展现出的有效性，为设计生成模型提供了新的机遇。它强调了将复杂数据分布划分为可管理的子问题，并通过将现有生成模型抽象为模块化单元来解决这些问题的潜力。我们认为，分形生成模型特别适合对具有超越一维顺序的内在结构的数据进行建模。我们希望我们方法的简洁性和有效性能够激发研究界探索分形生成模型的新颖设计和应用。

更广泛的影响。我们的主要目标是推进生成模型的基础研究。与所有生成模型类似，如果我们的方法被滥用于制造虚假信息或放大偏见，则可能产生潜在的负面社会后果。然而，这些考虑超出了本文的范围，因此未进行详细讨论。

致谢。我们感谢Google TPU研究云（TRC）为我们提供TPU访问权限，以及Google云平台对GPU资源的支持。

附录

A. 实现细节

在此，我们提供了分形生成模型的训练和生成过程的更多实现细节。

训练。当使用多层自回归模型对高分辨率图像进行建模时，我们发现，在自回归序列中包含一个“引导像素”略有帮助。具体而言，模型首先使用前一个生成器的输出来预测当前输入图像的平均像素值。然后，这个平均像素值作为transformer的附加条件。这样，每个生成器在预测细粒度细节之前，都会从一个全局上下文开始。我们仅在ImageNet 的实验中应用了这个“引导像素”。

由于我们的自回归模型将图像划分为块，这可能会在生成过程中导致块边界不一致。为了解决这个问题，我们不仅为下一级生成器提供当前块的输出，还提供周围四个块的输出。虽然纳入这些额外输入会稍微增加序列长度，但它显著减少了块边界伪影。

默认情况下，模型使用AdamW优化器（Loshchilov & Hutter, 2019）训练800个周期（FractalMAR-H模型训练600个周期）。AdamW的权重衰减和动量分别为0.05和。对于ImageNet ，我们使用2048的批量大小，对于ImageNet ，我们使用1024的批量大小，基础学习率（lr）为（按批量大小除以256进行缩放）。模型以40个周期的线性学习率预热（Goyal等人，2017）开始训练，随后是余弦学习率计划。

生成。遵循文献中的常见做法（Chang等人，2022；2023；Li等人，2023），我们为类条件生成实现了无分类器引导（CFG）和温度缩放。为了便于CFG（Ho & Salimans, 2022），在训练期间，的样本中的类条件被替换为虚拟类标记。在推理时，模型同时使用给定的类标记和虚拟标记运行，为每个像素通道产生两组对数几率和。然后，根据以下方程调整预测的对数几率：，其中是引导尺度。如（Chang等人，2023）所述，我们在第一级自回归模型的推理过程中采用线性CFG计划。我们对不同的引导尺度和温度组合进行扫描，以识别每个条件生成模型的最佳设置。

我们还观察到，当像素值的预测概率非常小时，CFG可能会遭受数值不稳定性的困扰。为了缓解这个问题，我们在应用CFG之前，对条件对数几率应用阈值为0.0001的top-p采样。

B. 其他结果

在这里插入图片描述

类别条件ImageNet 。我们在ImageNet 上评估了类别条件图像生成，并按照标准实践报告了FID（Fréchet Inception Distance）分数。与PixelCNN（van den Oord等人，2016a）一致，我们发现类别条件对负对数似然（NLL）的影响可以忽略不计，但显著提高了视觉质量和FID分数。结果表明，我们的分形生成模型可以达到与传统生成模型相媲美的性能。

我们还比较了自回归（AR）和多向自回归（MAR）变体的性能，其结构如图6所示。AR变体利用键值缓存来加速生成，而MAR变体采用双向注意力机制，这与图像建模更自然地契合，并能够实现多个图像块的并行预测，从而提高计算效率。如表中所示，我们的两个模型都取得了良好的性能，其中FractalMAR总体上优于FractalAR，这一点在（Li等人，2024）中也有体现。因此，我们选择使用MAR变体在分辨率为的ImageNet上进行条件图像合成。

像素建模。我们还研究了不同的像素建模顺序对性能的影响。我们试验了三种自回归顺序：RGB、GRB和BGR，以及将RGB通道转换为YCbCr色彩空间。结果汇总在表6中。我们发现，虽然所有顺序都取得了相似的负对数似然值，但自回归顺序之间的FID分数略有差异（注意，YCbCr空间的NLL与RGB空间的NLL不可比较）。这种差异可能是因为，与人类视觉相似，用于计算FID的Inception模型更重视红色和绿色通道，而不是蓝色通道（Mustafi等人，2009）。尽管如此，自回归顺序的选择并没有导致显著的性能差异，这证明了我们的方法的鲁棒性。