01：初见Stable Diffusion，一键玩转AI绘画

原创

叫我阿柒啊

修改于 2024-06-25 07:58:20

3163

修改于 2024-06-25 07:58:20

文章被收录于专栏：AI绘画之路入门到放弃之路

前言

在摩托车追焦群看到了机甲风的AI照片，觉得甚是炫酷。偶然看到了Stable Diffusion实现AI绘画的文章，所以就从一个使用者的角度，来开始学习Stable Diffusion。

我理解的AI绘画，会涉及卷积网络以及数学的知识。我深知自己几斤几两，所以不求甚解，学完知道Stable Diffusion是什么，有哪些组件以及组件功能。到后来如何安装使用Stable Diffusion实现AI绘画，这就是我的个人小目标。

关于Stable Diffusion

我是在家里的电脑上安装完Stable Diffusion Webui之后，从博客再到官方文档学习的Stable Diffusion的原理。虽然说webui封装了Stable Diffusion，底层模型对于用户透明，使用者不用再通过编码的方式去调用API使用模型。

但是webui上的组件、参数，我个人觉得还是研究一下比较有意思。当你以后和别人谈论起这个技术的时候，可以用自己的理解去互相交流。

在学习初期，晚上回家通过copy模板化的参数去实践。白天就学习Stable Diffusion的基本概念，以及实践中遇到的一些问题。

Stable Diffusion是什么

首先，Stable Diffusion属于一个被称作扩散模型的深度学习模型，而且是一个生成模型，用来生成与训练中看到的类似的新数据，这里的数据指的是图像。

Stable Diffusion是一个生成AI图片的潜在扩散模型（Latent diffusion model）。扩散模型有很多，例如OpenAI的DALL-E模型，Google的Imagen模型。

Stable Diffusion能干什么

文生图（txt2img）：用的最多的就是文生图，根据输入的文本提示（text prompt），来生成相应的风格图片。
图生图（img2img）：输入一张图片，然后根据输入的文本提示（text prompt），就可以得到另一张图片。可以实现图片细节的优化、图片风格转变等。如图：

照片编辑：可以修复老的或者残缺的照片。
制作视频：比如AI换脸。

在后面研究Stable Diffusion的过程中，只对1和2的文生图和图生图进行深入学习。

为什么要选择Stable Diffusion

上面提到过，扩散模型或者说AI绘画技术那么多，为什么要选择Stable Diffusion？

Stable Diffusion同样作为扩散模型，优势在于Latent，在学习Stable Diffusion原理的过程中，总是围绕着latent。部分扩散模型在图像空间（Image Space）进行运算，而上面提到的Imagen和DALL-E扩散模型都在像素空间（Pixel Space）中，来使模型更快。

如果模型在图像空间和像素空间进行的，一个512×512的图像，有三个颜色通道（红绿蓝），就是一个786432维度的空间，个人电脑上GPU是不可能提供足够的计算能力。

但是Stable Diffusion会将图片进行编码（encode），然后放到一个4×64×64的潜在空间（Letent Space）计算，这也就是为什么普通的个人电脑可以运行Stable Diffusion的原因。换句话说：不是我不选择其他的，是选择了也用不了。

如何使用Stable Diffusion

我在学习Stable Diffusion的过程中，看到官网提供了很多online的免费网站（例如：Playground AI、Dream Studio等）可以去使用AI绘画功能，但是很可惜都是在外网，所以访问不了。

而国内的一些基本上都是需要充值才能使用。所以对于大部分人来说，自己动手搭建一套Stable Diffusion是比较最佳方案。

Stable Diffusion部署后，如果想直接使用还是有些难度的。国内一名大佬秋葉aaaki提供了Stable Diffusion的集成客户端/安装包，同时基于Stable Diffusion部署后，如果想直接使用还是有些难度的。

国内一名大佬秋葉aaaki基于开源Stable Diffusion WebUi，简称AUTOMATIC1111，集成了Stable Diffusion的客户端/安装包，同时基于只要配置环境、下载之后，就可以一键使用启动器傻瓜式运行。所以对使用者来说，甚至不了解Stable Diffusion，都可以使用。

所以大部分人，学到这里就可以去下载Stable Diffusion WebUi，去玩AI绘画了。