最初的 ControlNet 主要用于线稿上色、图像风格化、可控姿态的人体生成等任务。
如今各路网友脑洞大开,使用 ControlNet 做出了创意二维码、将文字自然地融入照片等趣味效果。
ControlNet 并没有改变 SD 模型的 VAE、CLIP 文本编码器和 UNet 结构,而是在这个方案的基础上多加了一些东西。 ControlNet 作为一个即插即用的插件,训练过程应该避免影响到 SD 模型的部分。 固定 SD 权重可以减少一半以上的可学习参数,这么做能节省计算资源。
主要思路:
第一,根据你要使用的控制方法,在你的数据集上生成这些控制条件,比如提取图像边缘轮廓或者提取人体姿态点。
第二,按照标准的 SD 模型训练流程进行训练,UNet 的输入包括带噪声的潜在表示、时间步 t 的编码、prompt 文本表征和 ControlNet 的控制信号。
标准 SD 训练过程中使用无分类器引导,一般有 10% 的概率会将训练的 prompt 设置为空字符串。而 ControlNet 的训练中,这个概率是 50%!
这是为了让 SD 模型在预测噪声时,有更多信号源自 ControlNet 的控制信号,而不是 prompt 文本表征。说到底,还是为了加强控制。
在训练 ControlNet 时,针对每一种控制条件需要单独完成。这里的控制条件可以是轮廓线(Canny、HED 等),也可以是法线、深度图等。所以,在 Hugging Face 中我们可以找到 20 余种不同的 ControlNet 模型权重。下一讲我们会探讨这些权重的使用方式。