作者:Xuanpu Zhang等
解读:AI生成未来

论文链接:https://arxiv.org/pdf/2510.24657 项目 & 代码链接:https://little-misfit.github.io/GRAG-Image-Editing/
亮点直击
MM-DiT的注意力层是编辑指令和条件图像信息融合的关键位置,其中查询和键嵌入直接影响从每个 token 采样的内容比例。本实验揭示了嵌入特征沿序列维度分布存在显著偏置,该偏置集中在每个 token 内的固定位置。假设这种偏置是DiT图像编辑过程中实现上下文理解的关键因素。
嵌入向量的集中分布。对于 transformer 的每个注意力层,提取形状为的查询和键嵌入。出于分析目的,我们将批次大小固定为,并将序列维度划分为六个具有语义意义的组成部分:, , ,以及对应的, , 。此处,, ,其余组成部分属于。沿或维度应用L2归一化,将每个组成部分简化为的表示,其中每个元素代表在头和维度上对应组成部分的范数。以为例,的计算公式为:

的可视化结果如下图4所示。在嵌入向量空间中,每个维度索引对应一个分量,图4中的深红色区域表示幅度较大的位置,这些位置对不同 token 嵌入之间的内积贡献更大。通过研究RoPE(旋转位置嵌入[33])与维度索引之间的关系,观察到文本嵌入集中在与语义相关的低频分量中,而图像嵌入则集中在捕捉空间关系的高频分量中。这一发现表明两种模态在共享嵌入空间中并未完全对齐。此外,研究了 token 嵌入在向量空间中的分布。下图5展示了不同注意力头的平均向量幅度和标准差,进一步揭示了嵌入空间中 token 间存在显著偏置向量的现象。


偏置向量分析。上述发现表明,注意力层中的查询和键嵌入呈现出可分解的结构,其中每个嵌入均可表示为一个主导偏置分量与一个独立变化量之和:

还观察到同一层的特征分布在不同时间步和输入样本间保持高度相似。基于此现象,假设偏置向量、与模型权重相关,并代表了图像编辑过程中固定的"编辑动作",而各个 token 相对于该偏置向量的变化则对应于被编辑的"内容"。根据公式3,可以推导出:

注意:为简化表达,设,,。
查询和键嵌入中存在的强共享偏置分量会稀释的影响,从而降低注意力得分对特定语义差异的敏感性。这一发现自然表明,通过调节的幅度,可以有效控制条件信号(例如编辑指令)对最终输出的影响程度。
单个 token 嵌入与偏置向量之间的变化反映了编辑内容与当前层编辑动作的关联程度。通过调节它们的相对关系,可以实现对编辑指令的精确连续控制。基于此见解,提出了组相对注意力引导。如下图6所示,修改了与查询对应的MM-Attention中的交叉注意力组件。在下图6中,被选作一组 token ,并对其应用组相对调节。形式化地,令表示对应于 token 的条件键嵌入,其中。我们首先计算所有条件键的均值作为组级偏置分量:


每个 token 相对于该偏置的偏离量定义为:

为控制 token 级别变化的影响,我们引入一个可调参数来缩放这些偏离量:

其中表示在组相对注意力引导下更新后的键嵌入。
引入缩放因子和来调节共享偏置与标记特定变化之间的平衡。和均为正实数。具体而言,会增强所选标记对最终图像内容的影响,而则会减弱其影响。另一方面,调节对所选标记的关注强度:会产生更集中、更精确的编辑效果,而则会导致更分散的编辑效果。组相对注意力引导的伪代码见算法1,它仅包含四行代码,可以无缝集成到现有方法中。
实现细节。在六个图像编辑基线上验证我们提出的方法。Kontext、Step1X-Edit和Qwen-Edit是基于训练的图像编辑方法。为可复现性,随机种子固定为42。所有实验的批次大小设为1,推理步数为24。分类器引导参数按照各模型的推荐值设置:Kontext为2.5,Step1X-Edit为6.0,Qwen-Edit为4.0。
此外,GRAG在理论上适用于常规的基于MM-DiT的架构。因此,我们选择了三种基于Flux.1-Dev T2I模型的免训练图像编辑方法(Flowedit、Stableflow、Stableflow+)来评估我们方法的泛化能力。我们将在下文进行进一步讨论。
评估。在PIE上评估我们的方法。该基准涵盖了多种编辑任务,包括对象添加/移除、风格迁移和姿态修改。对于定量评估,我们采用两个互补的视角。遵循先前工作,采用LPIPS和SSIM作为定量指标来评估未编辑区域的内容保持能力。为评估编辑结果与人类偏好的对齐程度,我们采用图像编辑奖励模型EditScore。EditScore是在Qwen-2.5VL上微调的奖励模型,它衡量三个方面:与原始图像的一致性、提示跟随和整体编辑得分。
将GRAG应用于三种主流的基于MM-DiT的图像编辑模型,定性结果如图7所示。在Step1X-Edit和Qwen-Edit上,我们的方法在保持预期编辑效果的同时,改善了编辑后图像与原始参考图像之间的一致性,产生了更真实自然的结果。由于Step1X-Edit和Qwen-Edit利用视觉-语言模型来编码编辑指令,额外的指令信息通常增强了响应性但降低了一致性。我们选择源图像标记作为组,并应用GRAG来增强编辑相关标记对编辑指令的响应,同时抑制不相关标记的响应。例如,在图7的第一列中,GRAG成功改变了鸟的纹理,同时保留了树干的细节;在第五列中,它改变了苹果的颜色,同时保留了细粒度的表面细节。这些例子证明了GRAG在保持对源图像保真度的同时,实现精确连续编辑控制的能力。对于原始Kontext模型,我们选择文本标记作为组,并应用GRAG来增强模型对编辑指令的响应。如下图7右侧所示,基线未能响应编辑指令,内容没有变化,而应用GRAG则实现了成功的编辑。

如下表1所示,在PIE数据集上进行了定量评估。在集成GRAG后,Step1X-Edit和Qwen-Edit的编辑输出与原始图像之间的一致性得到增强,这体现在LPIPS、SSIM和Cons指标的提升上。尽管PF略有下降,但反映整体编辑质量的EditScore有所增加。相比之下,Kontext在应用GRAG后,PF有显著改善,并获得了更高的EditScore。这些趋势与视觉结果非常吻合。

与CFG的差异。将我们的方法与主流引导方法——分类器自由引导进行比较。与CFG在采样过程中调整去噪方向不同,我们的方法直接调节注意力层内的编辑信息。如下表2和下图10所示,改变CFG强度产生的差异很小。相比之下,GRAG能够实现精确连续的编辑控制,随着编辑强度的增加产生平滑一致的调整,视觉对比如下图9所示。这种可控性对于定制化图像编辑应用至关重要。



组相对参数的有效性分析。分析了公式9中参数和对编辑结果的影响。进行了三组实验:仅调整、仅调整,以及同时调整和。定性结果如上图9所示,而在PIE基准上的定量结果呈现在上表2和上图10中。单独调整对编辑结果没有显著影响,对应上图10中的波动曲线,这表明调整无法有效控制编辑强度。相比之下,联合调整和能够实现一定程度的可控编辑,但无法达到连续精度。此外,这种同时调整通常会降低视觉保真度,导致不希望的伪影,例如左下角样本第二列中扭曲的花朵,以及上图9中右下角样本第一列中可见的伪影。单独调整能产生最佳结果,对应上图10中最平滑的指标变化和上图9中最连续的编辑过渡。
进一步检验了GRAG在仅涉及文本和目标图像 token 的通用MM-Attention架构的编辑方法中的适用性。在这些方法中,GRAG被应用于注入源图像特征的注意力层。如下图8所示,我们的方法实现了对编辑结果的调整,表明GRAG在通用MM-Attention结构中仍然有效。然而,其在免训练设置下的稳定性低于基于训练的模型,表3中的定量结果证明了这一点。我们将此归因于GRAG主要调节MM-Attention中的交叉注意力组件(见上图6),而在未训练的T2I模型中,源图像特征是通过编辑-编辑自注意力分支引入的(上图6-b)。在这种情况下,应用GRAG会干扰现有的目标图像表示。

本工作重新审视了扩散变换模型内部的注意力机制,并揭示了控制编辑行为的共享偏置向量的存在。基于这一发现,我们提出了组相对注意力引导,这是一种轻量级但有效的策略,通过调节 token 相对于组偏置的偏离来实现对编辑强度的细粒度和连续控制。GRAG可以无缝集成到现有的基于DiT的编辑器中,持续提升可控性和保真度。我们的研究结果为多模态注意力的内部动力学提供了新的见解,并为未来DiT架构中增强可控图像编辑提供了实用方向。
[1] Group Relative Attention Guidance for Image Editing