CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models
标题:平滑扩散:在扩散模型中制作平滑的潜在空间
作者:Jiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree Vasu, Shiji Song, Gao Huang, Humphrey Shi
文章链接:https://arxiv.org/abs/2312.04410
项目代码:https://github.com/SHI-Labs/Smooth-Diffusion
摘要:
最近,扩散模型在文本到图像(T2I)生成、合成高保真度和多样化内容的图像方面取得了显着进展。尽管取得了这一进步,扩散模型中潜在的空间平滑度仍然很大程度上未被探索。平滑的潜在空间确保输入潜在的扰动对应于输出图像的稳定变化。事实证明,该属性在下游任务中非常有用,包括图像插值、反转和编辑。在这项工作中,我们通过观察微小潜在变化引起的明显视觉波动来揭示扩散潜在空间的不平滑性。为了解决这个问题,我们提出了平滑扩散,这是一种新的扩散模型,可以同时实现高性能和平滑。具体来说,我们引入了逐步变化正则化,以强制任意输入潜在变量与输出图像的变化之间的比例在任何扩散训练步骤中都是恒定的。此外,我们设计了插值标准差(ISTD)度量来有效评估扩散模型的潜在空间平滑度。大量的定量和定性实验表明,平滑扩散不仅在 T2I 生成中而且在各种下游任务中都是更理想的解决方案。Smooth Diffusion 作为即插即用的 Smooth-LoRA 实现,可与各种社区模型配合使用。
2.Gen2Det: Generate to Detect
标题:Gen2Det:生成以检测
作者:Saksham Suri, Fanyi Xiao, Animesh Sinha, Sean Chang Culatana, Raghuraman Krishnamoorthi, Chenchen Zhu, Abhinav Shrivastava
文章链接:https://arxiv.org/abs/2312.04566
摘要:
最近,扩散模型显示出合成图像质量的改进以及生成过程中更好的控制。我们激发并推出了 Gen2Det,这是一个简单的模块化管道,可利用最先进的基础图像生成方法免费创建用于对象检测的合成训练数据。与生成单个对象实例的现有作品不同,需要识别前景然后粘贴到其他图像上,我们简化为直接生成以场景为中心的图像。除了合成数据之外,Gen2Det 还提出了一套技术来最好地利用生成的数据,包括图像级过滤、实例级过滤以及更好的训练方法来解决生成中的缺陷。使用 Gen2Det,我们在各种设置和不可知的检测方法下展示了对象检测和分割任务的健康改进。在 LVIS 的长尾检测设置中,Gen2Det 大幅提高了稀有类别的性能,同时也显着提高了其他类别的性能,例如:我们发现,与仅使用 Mask R-CNN 在 LVIS 上的真实数据上进行训练相比,2.13 Box AP 和 1.84 Mask AP 有了改进。在 COCO 的低数据环境设置中,Gen2Det 持续将 Box 和 Mask AP 提高了 2.27 和 1.85 点。在最一般的检测设置中,Gen2Det 仍然表现出强大的性能增益,例如它使 COCO 上的 Box 和 Mask AP 提高了 0.45 和 0.32 点。
3.Inversion-Free Image Editing with Natural Language
标题:用自然语言进行无反转图像编辑
作者:Sihan Xu1* Yidong Huang1* Jiayi Pan2 Ziqiao Ma1∞ Joyce Chai1
文章链接:https://sihanxu.github.io/InfEdit/docs/infedit.pdf
项目代码:https://sled-group.github.io/InfEdit/
摘要:
尽管最近在基于反演的编辑方面取得了进展,但对于扩散模型而言,文本引导的图像处理仍然具有挑战性。主要瓶颈包括:1)反演过程耗时;2)在一致性与准确性之间难以取得平衡;3)与高效的一致性采样方法缺乏兼容性。3) 与一致性模型中使用的高效一致性采样方法缺乏兼容性。一致性模型中使用的高效一致性采样方法缺乏兼容性。为解决上述问题,我们首先 首先,我们问自己是否可以取消编辑反演过程。我们证明,当初始样本已知时 已知时,一个特殊的方差表可以将去噪步骤 减少到与多步一致性采样相同的形式。我们将其命名为去噪扩散一致性模型(DDCM (DDCM),并指出它意味着一种虚拟反演策略,而无需在采样中进行显式反演。我们进一步将 我们进一步将注意力控制机制统一到文本指导编辑的无调整框架中。结合这些机制,我们提出了 无反转编辑(InfEdit),它允许对刚性和非刚性语义变化进行一致且忠实的编辑,在满足复杂修改的同时不 的情况下进行复杂的修改。通过广泛的实验,InfEdit 在各种编辑任务中表现出强大的 在各种编辑任务中表现出强大的性能,而且还能保持 无缝工作流程(在单个 A40 上的运行时间不到 3 秒)、 证明了实时应用的潜力。