00:00
各位小伙伴们大家好,接下来我们来看一下stableion简介这一章节的内容,那在这一章节当中,我们首先来给大家去介绍一下stableion的相关概念,那在这相关概念这一章节当中哈,我们会给大家去介绍一下四个与stableion息息相关的内容,那这四个内容它们之间呢,有着千丝万缕的联系,但又各有不同,我们要使用stableion来进行图像生成,那需要我们去把这四个概念给它区分清楚,才能让我们更好的去使用stableion模型。好,那首先我们就给大家来看一下这四个具体的概念是什么,那在这里我们首先来看第一个概念叫做什么呢?扩散模型,那它的英文名称是DeFion model,也就是我们前面给大家介绍过的图像生成算法,当中的第三个算法。那DeFion model它的一个处。
01:00
理过程,也说它的一个处理方式哈,是诶,假设我有一个清晰的图片,那在这个清晰的图片当中,我去添加噪声,随着我添加噪声的步数的增加,我会由一个清晰的图片啊到一个纯噪声,那图像生成的过程呢,就是从这个纯噪声我一步一步去噪,然后到一个清晰图像的过程,那我们在进行图像生成的时候,也是说基于扩散模型来进行图像生成的时候,就是这样的一个过程,也说从扩散过程的逆过程当中,从纯噪声一步步的进行去噪,去获取一个逼真图片的过程,这是我们的扩散模型,那前面我们给大家介绍过哈,那这个扩散模型它有一个很大的问题,就是在这里你的图片这一个很高维度的数据,那在这个数据上,我去进行去噪增加噪声的时候,是不是计算量是比较大的呀,所以在这里这个扩散模型哈,在进。
02:00
形图像生成的时候,它需要的计算资源就比较高一些,所以在这里我们需要去对扩散模型进行一下改进,那改进之后的就是我们这个潜在扩散模型,那潜在扩散模型跟扩散模型的一个不同就是我现在不直接在原图向上添加噪声,那去噪的时候我也不再是使用一个跟原图像相同大小的这样随机噪声来进行去噪,而是使用一个更低维度的,那我怎么去获取这个更低维度的信息来生成我们的图片呢?我们来看一下啊,这个图是经典的潜在扩散模型的它的一个处理过程,那在这里我们通过这个图来给大家去分析一下潜在扩散模型如何来进行图像生成。在这里呢,把这个图给它分成两部分,那这两部分呢?哎,我们这样子来分一下,就是上面这一部分是一块,然后呢,下面没有画框的这一部分是一部分啊就是把这个整个流程图分成上下两部分,首先我们来看这个上面这一部分,那上面这一部分就是刚刚在介绍扩散模型的时候,向图片当中添加噪声的那个过程,也说扩散过程的正向过程,然后在这大家来看一下啊,在整个过程当中,首先我有一个XX是什么?诶,就是你的图片啊,原始的清晰的图片,那这个清晰的图片我先经过什么呢?诶经过一个编码器,诶这是一个编码器哈,那编码器之后我就获取到了一个什么一个特征,那这个特征大家来想一想,相对于我原始的图片,它的维度要怎么样,要小得多得多,然后在这里面,我们在添加噪声的时候就。
03:50
都从这个特征上来添加噪声,那大家看一下,这就是我们的什么I process,也是说一个添加噪声的过程,那随着你步数添加的增多,哎,那这时候我就获取到一个什么,哎,噪声的这样的一个特征,那在接下来生成图片的时候,大家想想我是不是就这个过程的逆过程了,也说我在有噪声的特征上去噪,去噪完之后获取到了一个特征,再进行解码来获取一个清晰的图片,那获取图片的那一部分就是我们下面这一部分啊,没有框起来的这一部分,然后下面我们来看啊,这个大家看这个地方是不是添加噪声的特征啊,那这个特征哎,就变成了我去生成图片的输入啊,这是一个噪声啊,是一个纯噪声,然后在这我进行图片生成的时候,不仅需要噪声,我还需要什么,需要一些condition,也就是一些条件信息那。
04:50
这些条件可以是什么呢?可以是我们的语音信息,可以是文本,可以是我们的图片,你如果是文声图,那这里就是文本,如果你是图生图,哎,那就是图片,那如果你要进行图像修复,图像深度的生成,哎,那你可以把这些信息啊,以文本的形式告诉我们的网络,然后这时候大家看啊,反向过程的输入就有了两个,一个是我们添加噪声之后的这个ZT,也是我们的特征,那这个特征大家可以理解成就是一个纯噪声,然后还有一个你要进行什么任务的这样输入的一个条件,那这个条件我要进行一下编码,也说进行一下嵌入之后,然后我要统一的送入到我的扩散过程的反过程当中去,那在这里大家来看一下啊,我送进去之后,那这一部分,也就说我们在这里这一块。
05:43
中间这一块就是一个去噪的过程,那在这去噪的时候,我们用什么来去噪的,大家看用什么?用unit网络,也就是说我们在图像分割当中有一个比较经典的网络结构,就是unit,那在这里我们对输入的噪声进行去噪的时候,就用这个unit网络来完成,当然这个unit网络当中,大家看一下这里我们是一块一块的什么呀?
06:06
这是什么?交叉注意力,也就说我们在构建unit网络的时候,使用的是这个交叉注意力机制来构建我们的unit网络,然后通过这个unit网络对输入的噪声啊,输入的条件来进行去噪,去噪之后,然后最终获取一个什么呢?最终获取一个哎,没有噪声的特征,那这是我们在这里这个去噪的过程,大家看一下在这个去噪的过程当中,我是不是获取到了这个特征,但我真正需要的并不是这特征,我是一个什么,还是一个图片,那这时候我要获取我最终的图片数大小呢?是不是要对这个特征做什么解码,所以这个特征送到解码器当中之后,然后再来获取我们最终生成的图片,好,那这就是我们在这里这个潜在扩散模型,它的处理过程啊好,那下面大家来想一下这个潜在扩散过程和我们原始的这个扩散模型,它的区别是什么,诶是。
07:06
不是,就是在扩散之前,我们需要把图片进行编码,扩散过程是对你编码之后,也就是说降维之后的那个特征来进行扩散的,所以你的计算量会减小很多,然后再进行扩散过程的反过程的时候,我是不是也是在对这个特征来做呀,所以相对于我们原始的扩散模型,它的计算资源的要求就会降低很多,这是我们这个潜在扩散模型的一个内容,那现阶段我们在做图像生成的时候,一般情况下都是基于这个潜在扩散模型来进行处理的啊,这是我们在这里这个叫做诶潜在扩散模型它的一个内容,好,那这个潜在扩散模型我们就给大家介绍这些,然后下面我们再来看第三个概念叫做什么呢?叫做SD模型,也就是我们说的stable diion,那这个stableion呢,又是在潜在扩散模型的基础上进行了改进。然后我们刚刚说。
08:06
把潜在扩散模型的时候,你是不是可以输入一些条件啊,那这些条件当中你可以输入文本,那输入文本的时候是不是也是把文本的特征送进去啊,也说文本你要做嵌入,那这个嵌入的时候呢?哎,我可以采用不同的方式来进行嵌入,那stable diion相对于我们的潜在扩散模型的一个变化就是它是使用改进之后的clip模型来进行词嵌入的啊,这是我们的stableion,另外这个stableion它在进行命名的时候,大家要注意一下,这个stable它是从stableability AI这个公司哈来进行冠名的,也就是说这个模型是由stbleability AI这个公司开发出来的啊,那这个背景我们稍后再给大家去说,大家只要知道SD模型是在潜在扩散模型上进行了改进之后获取的结果,好,那这是我们的第三个概念,Stable。
09:06
好,那现在大家来想一想啊,在这个stableion模型当中,我们包含很多信息,包含我们的编码器、解码器,扩散过程当中你的unit的去噪,然后还有你的condition,那大小我们的代码是不是就很多,那我要如果去执行这个过程的话,是不是就很麻烦?所以在这里我们就有了什么呢?Stableion web就是在stableion模型的基础上,我们添加了外部的界面,也就说我们有了什么网页端的操作界面,你不了解它背后是如何来生成的,没关系,我们只要去操作这个web UI的界面就可以来完成图像生成的过程,这就是我们在这里这四个概念,好,那下面我们再给大家来总结一下啊们这四个概念,首先看我们的扩散模型,那扩散模型的英文名称就是Di model。它就是一。
10:06
款支持图像生成的算法模型,是市面上主流的大类系列,Made journey,然后imagine stable,也就是我们去介绍的ion这个开源模型等绘画工具的底层模型。ion model是我们最底层的模型,然后model进行改进之后,也说我来减少它的计算量,就获取到了我们的什么late model也说是潜在扩散模型,那潜在扩散模型呢,是在扩散模型,也就是它before us model基础上研制出来的更高级的模型,它的特点就是生成速度更快,而且呢对计算资源和内存消耗的要求会更低。这是latent diion model,然后在latention model的基础上再进行改进,就是SD模型,也就是我们常常说到的stableion。那ble是在latent。
11:06
Model的基础上进行了改进,主要的改进点是在clip模型上来进行改进的,阿也说我的文本切入的时候,然后这个它之所以叫做stableion,是因为研发它的公司叫做tbleability AI,所以这时候这个公司进行了冠名之后就变成了stableion,那这个stableion如果我给它加一个网页端的界面,那就是stableion web UI,通过这种web UI的方式啊,不管我们有没有代码基础,我们都可以很轻松的控制这个网页界面来进行图像生成,不需要再去学习代码。诶那这是我们在这个ste这里给大家去介绍的这几个相关概念,那这几个相关概念呢,大家要区分清楚,知道他们各自是什么,有什么样的特点。好,那这个相关概念,这里我们就给大家介绍这些,我们先把视频暂停一下。接下来我们来。
12:06
看一下stable的生成背景。
我来说两句