前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >中秋专题:火爆艺术圈的文本图像生成是什么?

中秋专题:火爆艺术圈的文本图像生成是什么?

作者头像
算法一只狗
发布2022-11-04 11:42:27
6900
发布2022-11-04 11:42:27
举报
文章被收录于专栏:算法一只狗算法一只狗

最近文本生成图像AI又火爆了起来,并且频频上热搜,在知乎热榜上都会看到相关的问题出现:

游戏设计师利用AI工具作画拿到一等奖:说的是美国的一位画师利用AI工具进行作画,并拿到了一等奖,从而惹来了大量的争议

由于AI图像生成软件Midjorunery的爆火,导致大量的日本画师纷纷进行抵制

而伴随着Stable Diffusion,DALLE-2,Imagen等AI文本图像生成模型的出现,作画这个行业“已死”的论调已蔓延开来。同时绘画行业,成为人们在AlphaGo出现征服围棋领域后,第二个比较担忧的领域。

在8月22日左右,AI文本生成图像圈又开源了一个比较火爆的项目:Stable Diffusion;其一推出,github累积星星数已经到达3.6k。

同时,在官方文档中介绍,这个模型能够在CPU中,几秒内生成图片。同时生成的图片,一点也不逊色于DALLE-2和Imagen等AI模型。

由于今天是中秋节,刚好我以“兔子”和“月亮”为关键词,生成的一些图片:

I want to dream of seeing the rabbit in the moon

Reddit is looking the moon.

Stable Diffusion

这个模型大体框架主要用到扩散模型,之前我也有一篇文章介绍过:

文本图像生成:谷歌Imagen硬杠OpenAI的DALL.E 2

扩散模型有两个过程,分别为扩散过程和逆扩散过程。

在扩散过程中,如上图所示从右到左,表示对图片进行加噪。这个过程符合马尔可夫过程,也即是从真实图片中不断加入噪声,最终得到噪声图片 。

而在逆扩散过程中,则需要从噪声图片 ,逐渐恢复得到原图,也就是通过训练网络,从左到右逐渐还原回

但是一般的扩散模型,需要在像素级别上进行重建任务,这样会导致训练的时候成本比较昂贵。因此这篇文章主要是把图像压缩到较低维度的潜在空间中进行表示,然后利用上下文(NLP语言),进行去噪操作。

如果大家真的想体验类似的功能,可以去Stable Diffusion地址体验

网页版:

https://beta.dreamstudio.ai/dream

Hugging Face模型网站:

https://huggingface.co/spaces/stabilityai/stable-diffusion

这两个网站,都可以体验到文本生成图片模型:

如果大家确实感兴趣,后续可以出一期部署项目的教程。

最后再给大家看看我生成的“兔子赏月图”吧,祝大家中秋节快乐,阖家安康~

我是leo,欢迎关注我的知乎/公众号“算法一只狗”,我们下期再见。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法一只狗 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档