首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI修图神器升级:一键拖拽,即可精准P图!

近日,AI修图神器DragGAN,又迎来了史诗级升级,北大团队联合腾讯ARC Lab,将扩散模型应用在AI修图上!此前,AI修图往往在泛化能力和生成图像上有很大的短板,于是北大提出使用扩散模型,在AI修图逐渐完善后,未来Stable Diffusion画图如果有残缺部分,即可拉到DragGAN中进行重绘修正,甚至再配合Stable Animation SDK可以让人物再动起来!

AI修图

伴随着OpenAI,推出了Image GPT,语言模型应用到图像领域后,DALL-E、Stable Diffusion、MidJourney相继推出,让AI绘画迅速变得人人可用,

不过目前许多利用AIGC生成图的应用,很难像PS那样直接上手对图像修改,而是要通过prompt提示词进行修改,或是训练更换LoRA模型,或是组合SD XL1.0中稳定的扩散模型ControlNet。

北大团队则是再对DragGAN进行升级,加入他们研发扩散模型Dragon Diffusion,目前论文也公布在arXiv上,由北大张健老师团队VILLA依托于智能AIGC联合实验室,联合腾讯ARC Lab共同完成的工作。

Dragon Diffusion

尽管现有的大规模,可以根据文本生成高质量图像,但它们往往缺乏精确编辑生成真实图像的能力,Dragon Diffusion利用扩散模型可实现拖拽式操作。

比如让山动起来,或者让太阳升起来,如果手头有一个生成好的人物,当然也可以让他动起来跳篮球操!

在原生的DragGAN中,主要利用的是生成对抗模型,但其泛化生成能力并没有那么理想,于是张健老师团队将DragGAN推广到扩散模型上!

具体来说,Dragon Diffusion根据扩散模型中的特征的强对应关系,构建引导分支(guidance branch),再基于GAN对AI编辑图构建生成分支(generation branch),通过Diffusion的逆过程,找到该图像在扩散隐空间中的表示,作为两个分支的输入,为了兼顾语义和图形上的对齐,作者在这个引导策略的基础上引入了多尺度引导对齐设计。

引导分支则起来到类似于判别器(Discriminator)的作用,生成分支结构相当于GAN中的生成器(Generator)。首先引导分支会对原图像进行重建,在重建过程中将引导原图信息,注入到生成分支,生层分支利用引导信息对原图像进行编辑,同时保持主要内容与原图一致。

值得一提的是,为了保证在泛化中编辑后的图片尽量和原图保持一致,Dragon Diffusion设计了一种跨分支的self-attention机制,利用引导分支自注意力模块中的Key和Value,替换生成分支自注意力模块中的Key和Value,以此来实现特征层面的参考信息注入。

ttps://mc-e.github.io/project/DragonDiffusion/

目前,Dragon Diffusion已经开发项目主页,有极高的商用价值!同时,北大实验室预计还将推出对标Stable Diffusion的大模型!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OD1Fj0hUvEjZLifcBIIiqJ_w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券