今天小编分享一个开源项目,就是在NVIDIA Jetson平台上运行Stable Diffusion。
你是否曾好奇计算机是如何将文字转化为图像的呢?Stable Diffusion正是一种神秘的潜在文图扩散模型,让我们一起揭开它的神秘面纱。感谢Stability AI慷慨提供的计算资源以及LAION的支持,开发者们得以在LAION-5B数据库的子集中,基于512x512像素的图像,训练出一个潜在文图扩散模型。
这个模型有点类似于谷歌的Imagen,但又有自己的特色。它采用了一种冻结的CLIP ViT-L/14文本编码器,将模型与文字提示联系在一起。值得一提的是,研究人员的模型拥有860M的UNet和123M的文本编码器,这使得它在计算上相对轻便,能够在至少拥有10GB VRAM的GPU上运行。
大家可以自行看一下这个开源项目:
https://github.com/chitoku/stable-diffusion
小编我已经根据这个项目,成功在Jetson AGX Orin开发套件上跑起了Stable Diffusion。
看看我们生成的几个AI图吧:
(promopt:A detailed face illustration evil panda ninja panda, magic, t-shirt design, magenta, dark magic splashes, dark, ghotic, fireburn, smoke, ocean wave, colorfull , t-shirt design, in Studio Ghibli style, tetradic pastels, 3D vector art, cute and quirky, fantasy art, watercolor effect, bokeh, Adobe Illustrator, hand-drawn, digital painting, low-poly, soft lighting, bird's eye view, isometric style, retro aesthetic, character-centric, 4K resolution, photorealistic rendering, using Cinema 4D and finally having the word "Nano" at the bottom with a graffiti-like font style.)
(promopt:a samurai cat stay in under the red moon on fire, sakura trees background, tattoo design)
(promopt:A vibrant bowl of steaming Asian noodles, garnished with colorful vegetables and herbs.)
欢迎大家也试试看。