您可以在PC上本地安装稳定扩散,但典型的过程涉及使用命令行安装和使用的大量工作。对我们来说幸运的是,稳定扩散社区已经解决了这个问题。以下是安装使用图形用户界面在本地运行的稳定扩散版本的方法!
目录
什么是稳定扩散?
运行此版本的稳定扩散需要什么?
如何使用 GUI 安装稳定的扩散
首先安装 Python
安装 Git 并下载 GitHub 存储库
下载所有检查点
如何使用具有GUI的稳定扩散生成图像
如何遮罩您创建的图像以上色
如何修复“CUDA 内存不足”错误
什么是稳定扩散?
稳定扩散是一种 AI 模型,可以从文本提示生成图像,或者使用文本提示修改现有图像,就像 MidJourney 或 DALL-E 2 一样。它于 2022 年 8 月由 Stability.ai 首次发布。它能理解数千个不同的单词,可以用来创建几乎任何你的想象力可以以任何风格变出的任何图像。
不过,有两个关键区别是稳定扩散与大多数其他流行的AI艺术生成器区分开来:
它可以在您的PC上本地运行
这是一个开源项目
相关稳定地扩散将本地 AI 艺术生成带到您的 PC 中
最后一点确实是这里的重要问题。传统上,稳定扩散是通过命令行界面安装和运行的。它有效,但它可能很笨拙,不直观,对于本来会感兴趣的人来说,这是一个重要的进入障碍。但是,由于它是一个开源项目,社区迅速为其创建了一个用户界面,并开始添加自己的增强功能,包括优化以最大限度地减少视频RAM(VRAM)的使用并内置升级和屏蔽。
运行此版本的稳定扩散需要什么?
这个版本的稳定扩散是由 Stability.ai 创建和维护的主存储库(存储库)的一个分支。它有一个图形用户界面(GUI) - 使其比只有命令行界面的常规稳定扩散更容易使用,以及一个将自动处理大部分设置的安装程序。
警告:与往常一样,请注意您在 GitHub 上找到的第三方软件分支。我们已经使用它一段时间了,没有任何问题,成千上万的其他人也是如此,所以我们倾向于说它是安全的。幸运的是,与开源项目的一些分支相比,这里的代码和更改很小。
这个分支还包含各种优化,应该允许它在具有较少RAM的PC上运行,内置升级和使用GFPGAN,ESRGAN,RealESRGAN和CodeFormer的面部功能,以及屏蔽。遮罩是一件大事——它允许您有选择地将 AI 图像生成应用于图像的某些部分,而不会扭曲其他部分,这个过程通常称为修复。
硬盘上至少有 10 GB 的可用空间
具有6 GB RAM的NVIDIA GPU(尽管您也许可以使4 GB工作)
运行 Windows 11、Windows 10、Windows 8.1 或 Windows 8 的电脑
The WebUI GitHub Repo, by AUTOMATIC1111
Python 3.10.6(较新的版本和大多数旧版本也应该没问题)
稳定地扩散官方检查点(注意 v1.5 检查点!
GFPGAN v1.4 检查点
您可能需要的任何其他ESRGAN模型。您可以根据需要使用任意数量或数量。
如何使用 GUI 安装稳定的扩散
安装过程已大大简化,但在使用安装程序之前,您仍需要手动执行几个步骤。
首先安装 Python
您应该做的第一件事是安装存储库作者推荐的 Python 版本 3.10.6。前往该链接,滚动到页面底部,然后单击“Windows安装程序(64位)”。
单击您下载的可执行文件并按照提示进行操作。如果您已经安装了Python(并且您肯定安装了),只需单击“升级”。否则,请按照建议的提示进行操作。
注意:确保将 Python 3.10.6 添加到 PATH 中,如果你有这样的选项。
安装 Git 并下载 GitHub 存储库
您需要在 Windows 上下载并安装 Git,然后才能运行稳定扩散安装程序。只需下载 64 位 Git 可执行文件,运行它,并使用推荐的设置,除非您有特定的想法。
接下来,您需要从 GitHub 存储库下载文件。单击绿色的“代码”按钮,然后单击菜单底部的“下载ZIP”。
在文件资源管理器或首选文件存档程序中打开 ZIP 文件,然后将内容提取到所需的任何位置。请记住,文件夹是运行稳定扩散所需的文件夹。此示例将它们提取到 C:\目录,但这不是必须的。
注意:确保你不会意外地将“stable-diffusion-webui-master”拖到另一个文件夹而不是空白区域——如果你这样做,它会放到那个文件夹中,而不是你想要的父文件夹。
下载所有检查点
您需要几个检查点才能使其正常工作。第一个也是最重要的是一个稳定的扩散检查点。您需要创建一个帐户来下载检查点,但该账户不需要太多 - 他们只需要一个姓名和电子邮件地址,您就可以开始了。
注意:检查点下载为几千兆字节。不要指望它能立即完成。
将“sd-v1-4.ckpt”复制并粘贴到“C:\stable-diffusion-webui-master\models\Stable-diffusion”文件夹中,然后右键单击“sd-v1-4.ckpt”并点击重命名。在文本字段中键入“model.ckpt”,然后按 Enter。 非常确定它是“model.ckpt”——否则这将不起作用。
注意:重命名功能是 Windows 11 上的图标。
您还需要下载GFPGAN检查点。我们使用的存储库的作者要求 GFPGAN v1.4 检查点。向下滚动页面,然后单击“V1.4 模型”。
将该文件“GFPGANv1.4.pth”放入“stable-diffusion-webui-master”文件夹中,但不要重命名它。“stable-diffusion-webui-master”文件夹现在应该包含以下文件:
您还可以根据需要下载任意数量的ESRGAN检查点。它们通常打包为 ZIP 文件。下载后,打开ZIP文件,然后将“.pth”文件解压缩到“models/ESRGAN”文件夹中。下面是一个示例:
ESRGAN模型倾向于提供更具体的功能,因此请选择几个吸引您的模型。
现在,您只需要双击“webui-user.bat”文件,该文件位于主“stable-diffusion-webui-master”文件夹中。将出现一个控制台窗口,并开始获取所有其他重要文件,构建Python环境并设置Web用户界面。它将看起来像这样:
注意:预计第一次运行此操作至少需要几分钟。它需要从互联网上下载一堆东西。如果它似乎在一个步骤中挂起了不合理的长时间,只需尝试选择控制台窗口并按 Enter 键。
完成后,控制台将显示:
Running on local URL: http://127.0.0.1:7860 To create a public link, set `share=True` in `launch()`
如何使用具有GUI的稳定扩散生成图像
好的,您已经安装了稳定扩散的WebUI变体,并且您的控制台告诉您它“在本地URL:http://127.0.0.1:7860 上运行”。
注意:这到底是什么意思,发生了什么?127.0.0.1 是本地主机地址 — 您的计算机为自己提供的 IP 地址。此版本的稳定扩散在本地 PC 上创建一个服务器,该服务器可通过其自己的 IP 地址访问,但前提是您通过正确的端口 7860 进行连接。
打开浏览器,在地址栏中输入“127.0.0.1:7860”或“localhost:7860”,然后按 Enter 键。您将在 txt2img 选项卡上看到以下内容:
如果您以前使用过稳定扩散,您将熟悉这些设置,但以下是最重要选项含义的简要概述:
提示:要创建的内容的说明。
画家的托盘按钮: 将随机艺术样式应用于提示。
采样步骤: 在收到输出之前将优化图像的次数。通常越多越好,但收益递减。
采样方法: 控制如何处理采样的基础数学。您可以使用其中任何一个,但euler_a和 PLMS 似乎是最受欢迎的选项。您可以在本文中阅读有关PLMS的更多信息。
恢复面部:使用GFPGAN尝试修复不可思议或扭曲的面部。
批次计数: 要生成的图像数。
批量大小: “批次”的数量。将此值保持在 1,除非您有大量的 VRAM。
CFG规模: 稳定扩散将如何仔细地遵循您给出的提示。较大的数字意味着它非常谨慎地遵循它,而较小的数字则赋予它更多的创作自由。
宽度: 要生成的图像的宽度。
高度: 要生成的图像的宽度。
种子: 为随机数生成器提供初始输入的数字。将其保留为 -1 以随机生成一个新种子。
让我们根据提示生成五张图像:“神奇森林中的高原奶牛,35 毫米胶片摄影,清晰”,看看我们使用 PLMS 采样器、50 个采样步骤和 5 的 CFG 比例得到什么。
提示:如果您的作业花费的时间太长,您可以随时点击“中断”按钮停止生成。
输出窗口将如下所示:
注意:您的图像会有所不同。
顶部中间的图像是我们稍后将用于尝试遮罩的图像。除了个人喜好之外,这个特定的选择并没有真正的理由。抓取您喜欢的任何图像。
选择它,然后单击“发送到 Inpaint”。
如何遮罩您创建的图像以上色
修复是一个很棒的功能。通常稳定扩散用于根据提示创建整个图像,但修复允许您有选择地生成(或再生)图像的一部分。这里有两个关键选项:涂装蒙版、不涂漆蒙版。
Inpaint 蒙版将使用提示在您突出显示的区域内生成影像,而未蒙版的 Inpaint 将执行完全相反的操作 — 仅保留遮罩的区域。
我们将首先介绍一些关于 Inpaint 蒙版的信息。按住左键单击在图像上拖动鼠标,您会注意到图像顶部出现一个白色图层。画出要替换的区域的形状,并确保将其完全填充。你不是在盘旋一个区域,而是在整个区域蒙面。
提示:如果您只是向现有图片添加某些内容,尝试使蒙版区域与您尝试创建的近似形状对齐会很有帮助。例如,当您想要一个圆时,遮罩三角形形状会适得其反。
让我们以我们的高原牛为例,给他一顶厨师帽。遮罩一个大约与厨师帽形状相当的区域,并确保将“批量大小”设置为大于 1。您可能需要多个才能获得理想的结果。
此外,您应该选择“潜在噪音”而不是“填充”、“原始”或“无潜在”。当您想在场景中生成一个全新的对象时,它往往会产生最佳结果。
注意:你会注意到帽子的左边缘已经删除了他的部分角。发生这种情况是因为“蒙版模糊”设置有点太高了。如果您在图像中看到类似内容,请尝试减小“蒙版模糊”值。
提示:厨师帽设置:上漆遮罩、潜在扩散、CFG 9.5、降噪强度 0.75、采样步骤 = 50、采样方法 = Euler_A
好吧 - 也许厨师的帽子不是你的高地奶牛的正确选择。你的高地奶牛更喜欢 20 世纪初的氛围,所以让我们给他一顶圆顶礼帽。
提示:肠帽设置:涂漆遮罩、潜在扩散、CFG 9.5、降噪强度 0.75、采样步骤 = 50、采样方法 = Euler_A
多么积极。
当然,您也可以使用“不遮罩的 Inpaint ”执行完全相反的操作。它在概念上是相似的,只是您定义的区域是相反的。不是标记要更改的区域,而是标记要保留的区域。当您想要将小对象移动到其他背景上时,它通常很有用。
如何修复“CUDA 内存不足”错误
您制作的图像越大,需要的视频内存就越多。您应该尝试的第一件事是生成较小的图像。稳定地扩散在256×256处产生良好的图像,尽管非常不同。
如果您渴望在没有 512×512 图像问题的计算机上制作更大的图像,或者您遇到各种“内存不足”错误,则对配置进行一些更改应该会有所帮助。
在记事本或您想要的任何其他纯文本编辑器中打开“webui-user.bat”。只需右键单击“webui-user.bat”,单击“编辑”,然后选择记事本。标识显示 的行。这就是您将放置命令以优化稳定扩散运行方式的地方。set COMMANDLINE_ARGS=
如果您只是想制作巨大的图片,或者您在 GTX 10XX 系列 GPU 上的 RAM 不足,请先尝试一下。它将看起来像这样:--opt-split-attention
然后单击“文件>保存”。或者,您可以按键盘上的 Ctrl+S。
如果仍然遇到内存错误,请尝试添加到命令行参数列表 (COMMANDLINE_ARGS)。--medvram
如果前面的命令没有帮助,您可以添加以尝试修复其他内存问题。还有一种替代方案可能会进一步减少VRAM的使用,但我们无法证明它是否真的有效。--always-batch-cond-uncond--medvram --lowvram
添加用户界面是使每个人都可以使用这些人工智能驱动工具的关键一步。可能性几乎是无穷无尽的,即使快速浏览一下致力于人工智能艺术的在线社区,也会向您展示这项技术的强大程度,即使在起步阶段也是如此。当然,如果您没有游戏电脑,或者您不想担心设置,您可以随时使用在线 AI 艺术生成器之一。请记住,您不能假设您的条目是私有的。
领取专属 10元无门槛券
私享最新 技术干货