00:00
各位小伙伴们大家好,接下来我们来看一下stable diion的处理流程,那在这里介绍stable diion的处理流程的时候,我们以文声图的流程来给大家进行说明,首先我们来到这里来看一下stableion它的整个处理流程是如何来完成的,那首先呢,我们通过这幅图先给大家来看一下它的整个过程,首先我们来看一下输入,那在这里它的输入的话呢,有两个,一个呢是高斯噪声,是随机产生的高斯噪声,还有一个是人工的提示词,那比如说这里我们的提示词是什么呢?是一个宇航员骑在马上,诶这是我们的人工的提示词,好,根据我们刚刚给大家介绍的内容呢,人工的提示词我要把它送到哪里去,要送到clip模型当中去,Clip模型当中,我们训练好了一个transformer模型,叫做test inco演说。
01:00
我们现在这个提示词要送到test encoder当中来进行词嵌入,嵌入后的结果呢,我们是一个77乘以768的这样子的一个结果特征,那这个特征我就要送到我们的DeFion模型当中去,这是我们对于提示词它的一个处理,纵入到DeFion模型当中的,除了我们的提示词之外,我们还应该有一个什么呀?高斯噪声,这个高斯噪声和文本提示词的词嵌入一起送入到我们的unit网络当中去,那unit网络就对我们在这里生成的潜在空间的噪声来进行去噪,那在这里去噪的时候,一次unit网络进行去噪,大家看一下,我就获取到了一个新的结果,那这个新的结果是我第一次去造之后的结果,那第一次去造完之后,然后大概在这里我们要怎么样,我要重复N个步骤,那如果我的N是20。
02:00
那就重复20次,那在这个20次的过程当中,我会去做什么呢?会使用schedule,也就是说我们定义好的采样算法来进行相应的处理,那第一次循环完之后获取到它,然后呢,在这里我们进行去噪,去噪之后,然后进行下一次的循环,直到循环N次,20次之后我们获取到了潜在空间的这个结果,那这个结果并不是我们所需要的最终的图片,我们要把它送到哪里去?要把它送到VE当中的解码器当中去,送到解码器中去之后,我们潜在空间的特征就会被我们转换成一个图片,这个图片就是我们在这里使用提示词生成出来的图片结果,大家看一下是不是一个宇航员骑在马上,这就是我们在这里这整个流程,那这个流程呢,我们回到讲义上来,给大家去看一下它的描述,那stableion从文本到生成。
03:00
图像的流程就是首先stable diffusion会在前空间生成随机张量,也是我们在这里说的高斯噪声,那这个高斯噪声你如果想每次都使用的一样的话,那你可以设置随机数种子哈来控制这个张量,你的随机数种子如果不发生变化的话,有时候固定为某个值的话,那你每次获取到的随机张量都是一样的。然后获取到这个随机张量之后,我们的unit会对这个随机张量来进行处理,那unit在进行处理的时候,除了这个随机较量还有文本提示,也就是我们刚刚说的人工送入进去的提示词,那我们的unit接收到这两个输入之后会预测噪声,然后预测噪声依然是一个张量,那在这个张量当中,我们减去噪声之后成为新的潜在噪声,那新的潜在噪声再送入到unit网络当中去。进行出。
04:00
理,然后生成新的结果之后再去进行去噪,然后我们重复这个过程,重复采样步骤次,应该说你设置了多少次,它就会重复多少次,那假如是20的话,那它就会重复20次,最后获取到的第20次的unit输出的结果就是我们在潜在空间当中生成的图像的特征,那对于这个特征,我要把它转换到图像空间去的话,就使用va ae的解码器来完成,Vae解码器将潜在空间的图转换为像素空间,我就获取到了最终生成的图像,那这就是我们这个staion它的整个处理流程,那大家想我们在这里是文声图,是不是是从文本生成图像,那在实际当中的时候,我们是不是还有什么呀?诶图生图对不对?那这时候你这里这个提示词,这里的数就应该改变成什么图片,也就说我现在有这样的。
05:00
图片,图片进来送到unit当中,这里有你的随机噪声,然后如果我做图像修复的话,那这一部分就是你要修复的图像,那这一部分就是如何来做修复,也是我们人工要提供给我们的模型的,这就是我们在这里这个stable的处理流程,好,那这个处理流程我们就给大家说这些,那我们把视频暂停一下。
我来说两句