有奖:语音产品征文挑战赛火热进行中> HOT
随着深度学习和计算机视觉的进步,AI 绘画逐渐成为了可能。通过大量的数据训练和复杂的算法模型,AI 可以学习艺术家的绘画风格,并生成以假乱真的艺术作品。这种技术的突破,使得 AI 能够模仿各种绘画风格,从古典到现代,从印象派到抽象艺术,尽显无限创造力。
本期我们以 AI 绘画开源作品 Stablediffusion 为例进行讲解,简称 SD,但是 SD 目前最大的问题还是显存占用问题,特别是个别视频插件,包括最近出的Stability videoAI,更是将显存占到了极限,再加上4090的禁售,这对硬件玩家很不友好,那么可以考虑将您的 AI 绘画 应用部署到 腾讯云,结合GPU 服务器达到线上使用的效果,使用 COS 对象 存储您的图片。

AI 绘画三件套

以 Stable diffusion 为例:



稳定扩散(Stable Diffusion)是一种用于图像生成的人工智能模型,它基于扩散过程。扩散过程是指,将一个图像经过多次迭代,逐渐变得模糊、扩散的过程。在这个过程中,图像的细节信息会逐渐消失,只保留下整体的结构信息。稳定扩散这个名字来源于这个过程的稳定性,即在扩散过程中,模型能够学习到图像的稳定特征,从而生成具有较高质量的图像。
稳定扩散模型通常使用生成对抗网络(GAN)进行训练。GAN 由两个部分组成:生成器和判别器。生成器负责生成图像,判别器负责判断图像是真实图像还是生成的图像。在训练过程中,生成器和判别器互相对抗,生成器试图生成更真实的图像以欺骗判别器,判别器则试图识别出真实图像和生成图像。通过不断的迭代训练,生成器能够提高生成图像的质量。
U-Net 是一种特殊的生成对抗网络结构,它主要用于图像生成任务。U-Net 的结构呈“U”形,它将生成器和判别器都拆分成两个部分,分别位于“U”形的两端。其中,一端的生成器负责生成低分辨率的图像,另一端的生成器负责生成高分辨率的图像。判别器也同样分为两部分,分别对应低分辨率和高分辨率的生成器。 U-Net 之所以有效,是因为它采用了一种称为“跳跃连接”的技术。跳跃连接允许低分辨率生成器直接获取高分辨率生成器的输出,从而帮助低分辨率生成器更好地学习到高分辨率图像的细节信息。通过这种方式,U-Net 能够生成高质量、高分辨率的图像。




AI 绘画生成原理

当我们想要构建一幅脑海中的画面,我们先构思画面来书写提示词,下面我们会专门介绍关于提示词部分的书写,然后由模型解析文本,反推汉字或者文本到Clip 学习,接着由 U-Net 端到端的生成图片,然后由 VAE 来上色,那么一个简单的绘画流程就完成了,这个图片由噪点逐步变为清晰的过程,我们称之为扩散。
其中 clip 一共有12层,2表示在倒数第二层停止处理,通常不能超过6,当参考层的深度浅且在这个阶段就被跳过时,传递的信息量也会减少,最终以不准确的信息噪声影响生成的图像,以认为 Clip Skip 和 CFG Scale 之间没有相互作用,它们是完全不同的东西。



当向平静的湖面扔了一个小石子,水波纹向周边扩散最终恢复平静的过程,我们称之为稳定扩散,在图像生图原理中扩散过程是指,将一个图像经过多次迭代,逐渐变得模糊、扩散的过程。在这个过程中,图像的细节信息会逐渐消失,只保留下整体的结构信息。稳定扩散这个名字来源于这个过程的稳定性。




AI 绘画提示词

文生图:根据文本提示生成图像。
图生图:根据提供的图像作为范本、结合文本提示生成图像。
提示词由主题人物,元素,背景,灯光等多个维度构成,提示词对于 prompt 属于小维度,在 prompt 维度包含文本对话提示词,AI 绘画提示词等,但遵循原则是统一标准,大部分的画面或者效果是可以通过提示词实现的。
注意:
提示词不能包含换行符(非绝对),逗号分割除外。




提示词语法

() 强调更多
[] 强调较少
{} 是 NAI 对 () 的“实现”
<> 用于嵌入小数指定 (1:1.5) 的数量
(eye) 在最终结果中会比 [eye] 有更多的权重
(eye:1.4) 会比正常情况多增加约 40%
(eye:0.6) 会减少约 40 % 这也可以对某个地方增加画面的权重
([提示]:[数字小于 1]) = [使用此语法] 2 of {} = 1 of (),准确率 <1%

通常的 AI 绘画都要依靠于硬件,对于显卡的要求显存,内存都有相当高的要求,以 Stablediffusion 为例,基础部署流程同云服务器部署步骤一样显卡建议 N 卡即英伟达的显卡,显存建议12G以上,固态建议2T,与主板兼容读写速度更佳。
1. 显卡配置要求为 N 卡优先,适配程度高,CPU 与主板要求不高,但需要跟显卡适配,运行过程温度较高,所以散热需要跟上,需要 ATX3.0 电源或者850以上(针对90系列显卡),可以物理降温,空调拉倒最低。
本地部署步骤,下面有一键安装包无需任何操作,不需要准备任何环境,但基础环境需要自己准备,方便后续使用。(优先有 N 卡的,其次 1060/ti 的)
2. 苹果电脑需要系统在12.1+。
3. 使用笔记本也可以,所有的 N 卡在低配环境下可以使用 CPU 跑图,但是建议您使用 N 卡。




AI 绘画提示词步数与 CFG 之间的关系

低 CFG:图片糊、看起来雾蒙蒙的,色彩对比弱,构图也比较差,总之,图片结构未定型。
高 CFG:图片对比度非常强,色彩非常饱和,甚至会过饱和,颜色和结构失调,正常情况下不会超过6,实际测试超过6虽然也会出现正常图片,但不建议超过2。





腾讯云大模型图像创作引擎

1. 进入 大模型图像创作引擎控制台,勾选请先阅读并同意相关协议后,单击立即开通
2. 服务开通后,单击界面右上角接口文档,在出现弹窗后,单击在线调试,进入调试界面。



3. 调试界面分为参数区和代码区。



4. 选择离自己近的大区,并填写正向反向提示词。



5. 单击星号可以跳转到参数说明。



6. 填入自己想要的风格,我选择赛博朋克风格113,其他参数如果不清晰可以不填写。参数接口文档请参见 智能文生图风格列表
7. 成功响应后会返回图片的 base64 内容,我们需要二次解析,代码方面进行接口解析即可,可以改变 Rsp 的类型为 URL,即可返回图片 URL。



import base64
import requests
def png_to_base64(file_path):
with open(file_path, "rb") as image_file:
encoded_string = base64.b64encode(image_file.read())
return encoded_string
# 图像Base64信息
image_base64 =png_to_base64(r'')

# API端点URL
url = "png-info"

# 构造请求参数
payload = {
"image": image_base64
}

# 发送POST请求
response = requests.post(url, json=payload)

# 打印请求响应
print(response.text)
8. 腾讯云智能图像创作平台 (tencent.com) 分为在线体验的两个版本 ,分别为智能文生图和智能图生图。



9. 只需要输入简单的正向反向提示词即可实现自己想要的画面,选择合适的风格,我们这里选择插图风格。









10. 现在我们开始体验智能图生图功能,不输入任何提示词便可以转换为日系动漫风格。






11. 输入提示词:一位睿智的老人,穿着中国传统服装,表情庄重,凝视远方,(最佳质量,4k,8k,杰作:1.2),超精细,(逼真,写实,写真:1.37),雾山景观,寺庙建筑,戏剧性的天空,生动的色彩,金色的阳光,(概念艺术,历史插图,史诗艺术),忧郁的心。



12. 图片生成效果如下图:





AI 绘画行业案例

目前已知的在实际生活中能够受到 AI 绘画影响最深的几个行业:
1. AI 原画师
2. 广告与设计
3. 游戏原画师/设计师
4. 室内设计与建筑行业
5. 创意设计 Logo 设计
6. AI 漫画小说视频等

AI 绘画设计案例





Logo 二创







工业风格/室内设计/室内饰品




创意字体 原子组件 字母 light flow



电商出图