近日,AI修图神器DragGAN,又迎来了史诗级升级,北大团队联合腾讯ARC Lab,将扩散模型应用在AI修图上!此前,AI修图往往在泛化能力和生成图像上有很大的短板,于是北大提出使用扩散模型,在AI修图逐渐完善后,未来Stable Diffusion画图如果有残缺部分,即可拉到DragGAN中进行重绘修正,甚至再配合Stable Animation SDK可以让人物再动起来!
AI修图
伴随着OpenAI,推出了Image GPT,语言模型应用到图像领域后,DALL-E、Stable Diffusion、MidJourney相继推出,让AI绘画迅速变得人人可用,
不过目前许多利用AIGC生成图的应用,很难像PS那样直接上手对图像修改,而是要通过prompt提示词进行修改,或是训练更换LoRA模型,或是组合SD XL1.0中稳定的扩散模型ControlNet。
北大团队则是再对DragGAN进行升级,加入他们研发扩散模型Dragon Diffusion,目前论文也公布在arXiv上,由北大张健老师团队VILLA依托于智能AIGC联合实验室,联合腾讯ARC Lab共同完成的工作。
Dragon Diffusion
尽管现有的大规模,可以根据文本生成高质量图像,但它们往往缺乏精确编辑生成真实图像的能力,Dragon Diffusion利用扩散模型可实现拖拽式操作。
比如让山动起来,或者让太阳升起来,如果手头有一个生成好的人物,当然也可以让他动起来跳篮球操!
在原生的DragGAN中,主要利用的是生成对抗模型,但其泛化生成能力并没有那么理想,于是张健老师团队将DragGAN推广到扩散模型上!
具体来说,Dragon Diffusion根据扩散模型中的特征的强对应关系,构建引导分支(guidance branch),再基于GAN对AI编辑图构建生成分支(generation branch),通过Diffusion的逆过程,找到该图像在扩散隐空间中的表示,作为两个分支的输入,为了兼顾语义和图形上的对齐,作者在这个引导策略的基础上引入了多尺度引导对齐设计。
引导分支则起来到类似于判别器(Discriminator)的作用,生成分支结构相当于GAN中的生成器(Generator)。首先引导分支会对原图像进行重建,在重建过程中将引导原图信息,注入到生成分支,生层分支利用引导信息对原图像进行编辑,同时保持主要内容与原图一致。
值得一提的是,为了保证在泛化中编辑后的图片尽量和原图保持一致,Dragon Diffusion设计了一种跨分支的self-attention机制,利用引导分支自注意力模块中的Key和Value,替换生成分支自注意力模块中的Key和Value,以此来实现特征层面的参考信息注入。
ttps://mc-e.github.io/project/DragonDiffusion/
目前,Dragon Diffusion已经开发项目主页,有极高的商用价值!同时,北大实验室预计还将推出对标Stable Diffusion的大模型!
领取专属 10元无门槛券
私享最新 技术干货