来源:arxiv 作者:Hayk Manukyan,Andranik Sargsyan 等 论文题目:HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models 论文链接:https://arxiv.org/pdf/2312.14091.pdf 项目主页:https://github.com/Picsart-AI-Research/HD-Painter 内容整理:汪奕文 当前文本-图像 inpainting 模型仍有很大的改进潜力,尤其是在更好地将 inpainting 区域与用户图像对齐以及执行高分辨率 inpainting 方面。因此,本文中提出了 HD-Painter,一种无需训练的方法,可以准确地根据提示并连贯地扩展到高分辨率图像 inpainting 。
经过预训练的文本到图像生成模型,如 SD、Imagen 和 Dall-E 2,可以在后向扩散过程中将扩散的已知区域与生成(去噪)的未知区域混合,从而完成图像补全。虽然这些方法能生成和谐且视觉上合理的补全图像,但它们缺乏对全局场景的理解,提示忽略的主要缺点表现在两种情况下:
出现这两个问题的原因可能是,扩散 inpainting 缺乏准确解释文本提示或将其与已知区域的上下文信息相结合的能力。为了解决上述问题,我们引入了无需任何训练或微调的提示感知内向注意(PAIntA)模块,可根据给定的文本条件增强自我注意力得分,旨在减少图像已知区域中与提示无关信息的影响,同时增加与提示对齐的已知像素的贡献。
本文的主要贡献如下:
)的图像 inpainting。
是 RGB 图像,
是一个二进制 mask,表示在
中要用文本提示
进行 inpainting 的区域。文本引导图像绘制的目标是输出图像
,使
包含 mask 区域内提示
所描述的对象,而 mask 区域外则与
重合,即
。
图1
本文提出的 pipeline 由两个阶段组成:在
分辨率上应用文本引导的图像 inpainting,然后对生成的内容进行
超分辨率。
为了根据给定的文本提示
完成缺失区域
的 inpainting,我们采用了类似 SD inpainting 的预训练扩散模型,用 PAIntA 层替换自注意层,并通过应用 RASG 机制执行扩散后向处理。在得到最终估计的隐空间特征
后,对其进行解码,得到 inpainted 图像
。
为了对原始大小的图像
进行 inpainting,使用了 LDM,从
开始应用 SD 的后向扩散过程,并以低分辨率 inpainted 图像
为条件。每一步之后,将去噪后的
与 mask
所指示的已知区域中的原始图像编码
融合,得到下一个隐空间特征
。在最后一步之后,通过
对隐空间特征解码,并使用泊松混合法对
进行融合,以避免边缘伪影。
令
为 PAIntA 的输入。与自注意力类似,PAIntA 首先得到
以及相似度矩阵
。
然后,通过调整对 inpainting 区域有贡献的已知像素的注意力分数,来减轻已知区域对未知区域过强的影响。具体来说,利用文本提示
,PAIntA 定义了一个新的相似度矩阵:
其中,
表示第
个特征 token(像素)与给定文本提示
的对齐度。
用交叉注意力空间文本相似性矩阵
来定义
,其中
。具体来说,考虑提示文本
的 CLIP 文本嵌入,并分离出与
的单词和 EOT token 相对应的嵌入,并用
表示所选索引集。对于第
个像素,将其与文本提示
的相似度分数相加,
。
图2
需要注意的是,在 vanilla SD 中,交叉注意层位于自注意层之后,因此在 PAIntA 中,要获得
,需要借用下一个交叉注意模块的投影层权重。
为了进一步提高生成与提示
的一致性,采用了一种采样后指导的机制,其目标函数
利用了交叉注意层的开放词汇分割特性。具体来说,每一步中,在预测噪声
后使用以下更新规则:
,其中
是控制引导量的超参数。将DDIM 过程中的
替换为
后,可以得到
因此,在公式 2 中,得到了一个附加项
,它可能会改变
的原始分布。 为此,我们引入了重新加权注意力分数引导(RASG)策略,引入了梯度重新加权机制,从而实现隐空间保护。具体来说,在公式中用梯度
的重定向版本(使其更接近于从
中采样)来代替随机分量
,就能使
保持在所需的域内,同时引导采样过程最小化
。
梯度
的缩放是通过除以标准差来实现的。因此,RASG 采样的公式为
图3
使用 Stable Diffusion 2.0,包括 Stable Inpainting 2.0 和 Stable SuperResolution 2.0 预训练模型,将其分别用作图像补全和 Inpainting 专用超分 baseline。在
和
分辨率下,使用 PAIntA 来替换自注意层。对于 RASG,我们只选择
分辨率的交叉注意相似性矩阵,因为如果使用更精细的分辨率,效果也不会有进一步的改善,同时扩散过程会明显减慢。
本方法在所有三个指标上都优于其他方法。特别是,本方法的 CLIP 分数比所有方法提高了 1.5 分以上,生成准确率 (Acc) 达到 61.4%,而其他最先进方法的准确率为 51.9%。
表1
许多情况下,baseline 方法可能会在 mask 区域生成背景,或是将缺失区域重建为已知区域对象的延续,而忽略了文本提示。而本方法由于结合了 PAIntA 和 RASG,成功生成了目标对象。
图4
消融性实验显示了 PAIntA 和 RASG 分别对模型进行了实质性的定量改进。
表2