前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >controlnet重大更新!FreeControl可控 T2I 生成的免训练模型

controlnet重大更新!FreeControl可控 T2I 生成的免训练模型

作者头像
疯狂的KK
发布2023-12-19 19:59:12
3120
发布2023-12-19 19:59:12
举报
文章被收录于专栏:Java项目实战

ControlNet 是一种神经网络结构,通过添加额外的条件来控制扩散模型。

不需要magic,QQ邮箱即可注册,这个效果确实不错,我感觉比 runway 好最长视频支持12S,超过pika ,复制到PC端浏览器打开,不支持微信

代码语言:javascript
复制
https://neverends.life/register?code=v4Ptww

它将神经网络块的权重复制到“锁定”副本和“可训练”副本中。

因此,使用图像对的小数据集进行训练不会破坏生产就绪的扩散模型。

“零卷积”是 1×1 卷积,权重和偏差都初始化为零。

在训练之前,所有零卷积都输出零,ControlNet 不会造成任何失真。

没有一层是从头开始训练的。你还在微调。您的原始模型是安全的。

这允许在小规模甚至个人设备上进行培训。

这也有利于合并/替换/偏移模型/权重/块/层

通过这种方式,ControlNet 可以重用标清编码器作为深度、强大、健壮和强大的骨干来学习各种控制

FreeControl

在这项工作中,我们提出了FreeControl,一种用于可控T2I的免培训方法 同时支持多个条件、体系结构和检查点的生成。FreeControl 设计了结构引导,以促进结构与引导图像的对齐,并设计外观引导,以实现 使用相同种子生成的图像之间的外观共享。FreeControl结合了分析阶段和综合阶段。在分析阶段,FreeControl 查询 T2I 模型生成低至一个种子图像,然后根据生成的图像构建线性特征子空间。在合成阶段,FreeControl在子空间中采用引导,以促进结构与引导的对齐 图像,以及使用和不使用控制生成的图像之间的外观对齐。

通过注意力和卷积特征注入进行图像到图像转换的免训练方法

ControlNet 等最新方法为用户提供了对文本到图像 (T2I) 扩散模型的细粒度空间控制。然而,辅助模块必须针对每种类型的空间条件、模型架构和检查点进行训练,这使它们与人类设计师希望在内容创建过程中传达给 AI 模型的不同意图和偏好不一致。在这项工作中,我们提出了 FreeControl,这是一种用于可控 T2I 生成的免培训方法,可同时支持多个条件、架构和检查点。FreeControl 设计了结构引导,以促进结构与引导图像的对齐,并设计外观引导,以实现使用相同种子生成的图像之间的外观共享。大量的定性和定量实验证明了 FreeControl 在各种预训练的 T2I 模型中的卓越性能。特别是,FreeControl 有助于方便地对许多不同的架构和检查点进行免训练控制,允许大多数现有免训练方法无法满足的具有挑战性的输入条件,并通过基于训练的方法实现有竞争力的综合质量。

不过可惜的是目前代码还未开源~~

实验设置。与ControlNet[59]类似,我们报告了八种条件类型(草图、法线、深度、Canny边、M-LSD线、HED边、分割掩码和人体姿势)的定性结果。我们进一步使用了几个以前看不见的控制信号作为输入条件,并将我们的方法与稳定扩散的所有主要版本(1.5、2.1和XL1.0)相结合,研究其在扩散模型架构上的推广。

处理冲突条件。最后,我们研究了空间条件与输入文本提示有微小冲突的情况。我们假设文本提示由一个概念(例如蝙蝠侠)和一种风格(例如卡通)组成,并将冲突的情况与其对齐的版本进行对比。具体而言,冲突案例包括(a)概念和风格可行结合的文本提示;以及(b)从没有文本概念的真实图像导出的空间条件(即,边缘图)。对应的对齐大小写包含类似的文本提示,但使用了来自具有相同概念的真实图像的空间条件。我们使用一组预先训练和定制的模型,将这些案例输入到ControlNet、T2I Adapter和FreeControl中。图7显示了结果。我们无需训练的FreeControl始终如一地生成适合中等身材的高质量图像-

结论:

我们提出了FreeControl,这是一种用于在许多条件下对任何T2I扩散模型进行空间控制的无训练方法。FreeControl利用了预训练的T2I模型的特征空间,方便了对许多架构和检查点的方便控制,允许各种具有挑战性的输入条件,而大多数现有的无训练方法都无法满足这些条件,并通过基于训练的方法实现了有竞争力的合成质量。一个限制是,FreeCon-torl依赖于DDIM反演过程来提取制导图像的中间特征,并在合成阶段计算额外的梯度,导致推理时间增加。我们希望我们的发现和分析能够为可控的视觉内容创作提供线索。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 赵KK日常技术记录 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档