首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI绘画:Stable Diffusion Web UI(三)基础使用教程

基于Stable Diffusion Web UI项目,感谢各位大大的无私奉献

前两篇内容:

AI绘画:Stable Diffusion Web UI之插件及模型安装

AI绘画:Stable Diffusion Web UI本地搭建之Windows

有需要的的小伙伴可以在合集中查看。

前面两篇说了如何在本地搭建Stable Diffusion Web UI以及如何安装插件及模型,这次记录一下WEB UI最基本的使用。主要是以文生图/txt2img为主。

如果按照我前面的教程做了汉化,那么这个界面理解起来就比较容易了。

:checkpoint模型

此处是选择我们安装的checkpoint模型,以前是ckpt格式,现在大部分是safetensors格式。这个格式相比ckpt,就是突出个safe,如果你不能使用safetensors格式,那么就是Web UI的版本太低了,git pull就OK。在WebUI运行中安装了新模型,需要点击右侧蓝色刷新按钮或者重启UI(Reload UI)。

关于checkpoint

大概分为CHECKPOINT TRAINED以及CHECKPOINT MERGE,分别是别人训练好的和融合好的,它是大型模型,里面集合了模型参数、权重等,因此出图的的风格、画风已经相对固定。

好处就是可以直接拿来用,缺点就是想要再去微调十分麻烦,于是有了后面的lora、embedding等模型。这些属于附加模型,应用在checkpoint模型上,可以轻易对其进行微调,而且容易训练,十分方便。

:功能栏

文生图/txt2img:功能单一,只需要输入prompt,就可以生成画作,但是很多时候并不符合期望....

图生图/img2img:相比文生图可控性更强,毕竟有个图片打底。有很多功能,例如根据线稿绘图、修复、修补原图、扩展原图等;

附加功能/Extras:好像就是放大图像用的

上面三个功能是有关联性的,比如:使用文生图创建一个大体满意的的图像,然后到图生图完善细节,最后放大出图,完美。

图像信息/PNG info:如果原图在出图时保存了生成信息,那么把原拖进来就可以看到各种参数,对于C站那些留图不留种的十分友好;

后面的merger以及train都是训练的内容,我没啥研究因此不先涉及;

再后面的是我安装的插件界面,最后面就是UI的设置以及扩展插件界面。

:prompt/文生图、图生图

提示框分为正面提示(prompt)和反面提示(Negative prompt)。

a.正面提示:

对于想要得到的图像内容进行描述。Stable Diffusion更容易理解booru提示词,booru应该是个图片数据库,里面包含了各种图片的关键词,这些关键词我们就可以拿来用作prompt。所以prompt一般以词的形式出现,而不是句子。

权重:

一般的,prompt越靠前权重越大,意思就是ai对这个词越敏感,在出图中表现为对这个词优先还原。可以通过语法来调节权重,表现形式为(单词:数字),数字通常在0~2之间。

如high quality默认权重是1;(high quality)和(high quality:1.1)是等效的,圆括号不加数字表示*1.1倍,((high quality))==(high quality:1.21),不建议嵌套括号,看着难受不说,还可能会造成混乱。同样的还有方括号不加数字,表示/1.1,[high quality]==(high quality:0.91)。直接选中词然后按ctrl+即可快速增加和减少权重,会表现为(high quality:数字)的形式。

总结一下:

high quality 权重1;(high quality:1.5) 权重1.5;(high quality:0.8) 权重0.8;

(high quality:1.1)==(high quality)

(high quality:1.21)==((high quality)) 不建议

(high quality:0.91)==[high quality]

Web UI没有花括号{}表示法。

还有更复杂的分步[关键词1:关键词2:数字]、嵌套[关键词1|关键词2]、融合关键词1|关键词2等等,等我搞懂再补充....

顺序与内容:

前面说过,越靠前的词权重越大,因此对于内容的描述,尽量按照一定的顺序来,可以减少很多错误尝试。比如,按照画质,艺术风格,主体,细节,姿势,背景的顺序,只写必要的词、相似的放在一起等等。

说到这个毕竟我不是专业的,很难看出图好不好,所以还是参考专家的话吧

https://stable-diffusion-art.com/prompt-guide/

翻译一下:

另外需要补充的一点,除非是基础模型,一般训练好的模型都有一些隐藏设置,比如说Trigger Words会自动触发一些固定风格,或者是会自动舍弃一些prompt,具体模型还是要具体分析,不能一概而论。

不知道怎么写也没关系,网上总是不缺大神。一个是安装SD Web UI的tag补全插件,一个是网友自建的咒语网站。

https://github.com/DominikDoom/a1111-sd-webui-tagcomplete.git  补全

https://www.wujieai.com/tag-generator

https://wolfchen.top/tag/               咒语生成器

b.反向提示:

反向提示就是描述你不想在图中出现的东西。

我的建议是一开始只写基础的,如lowres,worst quality, low quality,后面再根据图中出现的错误添加,比如出现多余的手指、腿等,就添加extra fingers,extra legs。

:参数设置

采样器 /Sampling method:

选择采样算法,我没怎么尝试,都是看别人用什么我就用什么。这里节选查资料时看到的解释:

采样迭代步数 /Sampling Steps

生成图片的迭代步数,每多一次迭代都会给 AI 变更靠近prompt。更高的步数需要花费更多的计算时间,步数越大,图像细节越多,但是和采样器相关联,详见上图。

分辨率(宽度和高度)

吃显存,虽然说分辨率越大细节越多,即使硬件跟得上,也不建议设置过大。因为我们使用的模型可能就是在小分辨率下训练的,如果设置得到过大,会有极高的几率出现各种畸形。尤其不建议横图比例,基本必出畸形,保持正方形或者竖图即可,横图可以使用图生图的inpating功能。

同时应根据需要出图的内容设置,比如头像或者半身照,默认512即可;七分或者全身可以考虑768或者1024。

如果实在是想要高分辨率,就可以使用采样器下方的高分辨率修复功能。这个同样要选择高清算法,如果对原始图很满意,这个地方直接无或者在重绘强度调整到0.3以下,还是那个原因,高分重绘很容易畸形。

生成批次和生成数量/Batch count、 Batch size

批次不同细节不同,需要计算时间;生成数量是指的每批同时生成的图片数量,吃显存。

提示词引导系数/CFG Scale

就是留给AI自由发挥的空间。越大,越靠近prompt;越小,越奔放。

图像生成种子/seed

-1表示每一次都是随机种子;种子一致,参数一致,模型一致,应该再加上个GPU一致,理论上就能生成一模一样的图片。

对生成图片不满需要修改时,要保持种子一致,才会保持大体的构图一致。

面部修复、无缝贴图、高分辨率修复

面部修复这个基本可以直接忽略;无缝贴图就是生成一个瓷砖;高分修复上面说过,这个很吃显存。

:我也不知道这个叫什么

这里主要说一下左侧的斜箭头以及中间的可选附加模型。

斜箭头是自动填充,点击会自动填充上一次出图的prompt、参数;另一个作用上一篇讲过了,就是如果我们复制了别人的Generation Data,可以直接粘贴在prompt框里,然后点击小箭头,别人的prompt、参数就会自动填充到我们的界面里。

可选附加模型用于输入prompt,点击以后下方会多出一栏菜单,里面是我们安装的各种附加模型。

只需要点击一下,就会生成对应模型权重1的tag,直接修改即可,不用再手动输入。

:输出栏

此处会显示预览以及成品,不用多说。

下方第一个文件夹按钮,是打开输出目录,只能在服务端打开;

保存按钮是保存当前图像,如果有多个,可以用第三个按钮打包下载;

后面分别是将当前图像发送到图生图界面和附加功能界面。

求点赞O(∩_∩)O哈哈~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230324A0ABXC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券