前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E

缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E

作者头像
机器之心
发布于 2021-12-27 07:21:36
发布于 2021-12-27 07:21:36
8610
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:陈萍、小舟

模型的参数规模并不需要那么大。

从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向。现在 OpenAI 又有了新的进展——35 亿参数的新模型 GLIDE。

如下图 1 所示,GLIDE 通常会生成逼真的阴影和反射,以及高质量的纹理。此外,该模型还能够组合多个概念(例如柯基犬、领结和生日帽),同时将属性(例如颜色)绑定到这些对象。

除了从文本生成图像,GLIDE 还有图像编辑功能——使用文本 prompt 修改现有图像,在必要时插入新对象、阴影和反射,如下图 2 所示。例如,在草坪上添加斑马:

如下图 3 所示,GLIDE 的零样本生成和修复复杂场景的能力也很强。

GLIDE 还能够将草图转换为逼真的图像编辑。例如下图中「一只戴着领结和生日帽的柯基犬」从涂鸦草图转换成了逼真的图像。

上述功能是怎样实现的呢?在新模型 GLIDE 中,OpenAI 将指导扩散(guided diffusion)应用于文本生成图像的问题。首先该研究训练了一个 35 亿参数的扩散模型,使用文本编码器以自然语言描述为条件,然后比较了两种指导扩散模型至文本 prompt 的方法:CLIP 指导和无分类器指导。通过人工和自动评估,该研究发现无分类器指导能够产生更高质量的图像。

  • 论文地址:https://arxiv.org/pdf/2112.10741.pdf
  • 项目地址:https://github.com/openai/glide-text2im

该研究发现使用无分类器指导模型生成的样本既逼真又反映了广泛的现实知识。人类评估的结果表明,GLIDE 的生成结果优于 DALL-E。

此外,值得注意的是,DALL-E 的参数量是 120 亿,而 GLIDE 仅有 35 亿参数,却实现了更优的性能。我们来具体看一下 GLIDE 的模型细节。

具有 35 亿参数的文本条件扩散模型:GLIDE

OpenAI 以 64 × 64 的图像分辨率训练了一个具有 35 亿参数的文本条件扩散模型(text-conditional diffusion model ),以及一个具有 15 亿参数的文本条件上采样扩散模型(text-conditional upsampling diffusion model),该模型将图像分辨率提高到 256 × 256。对于 CLIP 指导(CLIP guidance),OpenAI 还训练了一个噪声感知 64 × 64 ViT-L CLIP 模型。

文本条件扩散模型

OpenAI 采用 Dhariwal & Nichol (2021) 提出的 ADM 模型架构,但使用文本条件信息对其进行了扩充。对于每个噪声图像 x_t 和相应的文本说明(text caption),模型对 p(xt−1|xt, caption) 进行预测。为了以文本为条件,OpenAI 首先将文本编码为 K 个 token 序列,然后将这些 token 输入到 Transformer 模型中(Vaswani 等,2017)。这个 transformer 的输出有两种用途:

  • 首先,使用最终的 token 嵌入代替 ADM 模型中的类嵌入;
  • 其次,最后一层的 token 嵌入(K 个特征向量序列)分别投影到 ADM 模型中每个注意力层,然后连接到每一层的注意力上下文。

OpenAI 采用与 DALL-E 完全相同的数据集训练模型,并且使用与 Dhariwal & Nichol (2021) 提出的 ImageNet 64 × 64 模型相同的模型架构,模型通道为 512 ,从而为模型的视觉部分生成大约 23 亿个参数。对于文本编码 Transformer,OpenAI 使用 24 个残差块,产生大约 12 亿个参数。

此外,OpenAI 还训练了一个具有 15 亿参数的上采样扩散模型,图像分辨率从 64 × 64 增加到 256 × 256 。该模型同样以文本为条件,但使用宽度为 1024 较小的文本编码器(而不是 2048 )。

无分类器指导的微调

模型初始训练完成之后,可以微调基本模型以支持无条件图像生成。训练过程与预训练完全相同,只是 20% 的文本 token 序列被替换为空序列。通过这种方式,模型保留了生成文本条件输出的能力,同时也可以无条件地生成图像。

图像修复与编辑

以前的图像修复工作存在一个缺点,即模型在采样过程中无法看到整个上下文信息。为了获得更好的生成效果,OpenAI 对模型进行了微调:微调时,随机擦除训练样本一些区域,其余部分与掩码通道一起作为附加条件信息输入模型。OpenAI 对模型架构进行了修改,增加了四个额外的输入通道:第二组 RGB 通道和一个掩码通道。在微调之前,OpenAI 将这些新通道的相应输入权重初始化为零。对于上采样模型,OpenAI 提供了完整的低分辨率图像,但对于未掩码的区域提供高分辨率图像。

CLIP 指导扩散

鉴于分类器指导和 CLIP 指导的相似性,应用 CLIP 来提高文本条件扩散模型的生成质量似乎很自然。为了更好地匹配 Dhariwal & Nichol (2021) 的分类器指导技术,OpenAI 使用图像编码器训练噪声感知 CLIP 模型,该图像编码器接收噪声图像,以 64 × 64 的分辨率训练模型。

实验结果

该研究将 GLIDE 与之前的 SOTA 模型进行了定性比较,结果如下图 5 所示。GLIDE 生成了更逼真的图像,并且无需 CLIP 重排序或挑选。

定量结果

该研究首先通过查看图像质量保真度权衡的帕累托前沿来评估无分类器指导和 CLIP 指导之间的差异。下图 6 在 64 × 64 分辨率下评估了这两种方法的零样本 MS-COCO 生成。

该研究设置的人类评估实验如下:

让人们观察两个 256 × 256 的图像,并按如下两条标准选出一个更优的图像:要么更好地匹配给定的标题,要么看起来更逼真。评估结果如下图 7 所示。

并将人类评估的结果和下表 1 的结果进行比较,然后该研究发现人类和 CLIP 指导给出的分数不一致,因此无分类器指导能够产生与人类认知一致的更高质量生成结果。

此外,研究者还将 GLIDE 与其他文本生成图像模型进行了比较,结果如下表 2 所示。GLIDE 在 MS-COCO 上获得有竞争力的 FID。

最后,该研究使用上述人类评估实验设置比较了 GLIDE 和 DALL-E ,结果如下表 3 所示。注意到 GLIDE 的训练使用与 DALL-E 大致相同的训练计算,但模型要小得多(35 亿参数 VS120 亿参数),所需采样延迟更少,并且不需要 CLIP 重排序。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
打破GANs“垄断”|OpenAI新研究:Diffusion Models 图文转换效果超越DALL-E
以前,当我们想拥有一副图像时,首先会做的就是找专业画师,将我们对图画的要求逐一描述,画师再根据需求醉墨淋漓一番。但这种方式需要耗费一定的时间和人力成本,且成果不一定尽如人意。
AI算法与图像处理
2021/12/27
1.4K0
打破GANs“垄断”|OpenAI新研究:Diffusion Models 图文转换效果超越DALL-E
OpenAI逆炼以文生图:参数缩水2/3性能却更强,还get局部编辑新技能|可试玩
大家仔细看这效果,“使用计算器的刺猬”、“星空下的狐狸”、“彩色玻璃窗风格的熊猫吃竹子”、“太空升降舱蜡笔画”:
量子位
2021/12/24
8240
OpenAI逆炼以文生图:参数缩水2/3性能却更强,还get局部编辑新技能|可试玩
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心  授权 OpenAI:DALL・E 2 就是最好的。谷歌:看下我们 Imagen 生成的柴犬? 多模态学习近来受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 的文本转图像模型 DALL・E、英伟达的 GauGAN。现在,来自谷歌的研究者也在这一方向做出了探索,提出了一种文本到图像的扩散模型 Imagen。 Imagen 结合了 Transfor
OpenCV学堂
2022/05/25
5780
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
文本生成图像这么火,你需要了解这些技术的演变
选自 Intento 作者:Grigory Sapunov 机器之心编译 机器之心编辑部 目前多模态任务成为行业热点,本文梳理了较为优秀的多模态文本图像模型:DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点,及其迭代关系。 OpenAI 最近发布了 DALL·E 2 系统,在 AI 界引发了「地震」,该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本,第一个版本是在近一年前发布的。然而,在 OpenAI 内部,DALL·E 2 背后的模型被称为 u
机器之心
2022/06/07
1.9K0
文本生成图像这么火,你需要了解这些技术的演变
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
作者|李梅、王玥 编辑|陈彩娴 文本生成图像模型界又出新手笔! 这次的主角是Google Brain推出的 Imagen,再一次突破人类想象力,将文本生成图像的逼真度和语言理解提高到了前所未有的新高度!比前段时间OpeAI家的DALL·E 2更强! 话不多说,我们来欣赏这位AI画师的杰作~ A brain riding a rocketship heading towards the moon.(一颗大脑乘着火箭飞向月球。) A dragon fruit wearing karate belt in th
AI科技评论
2022/05/25
7270
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
---- 新智元报道   编辑:LRS 【新智元导读】大艺术家重磅升级!最近OpenAI发布升级版DALL·E 2,不仅分辨率提升了4倍,准确率更高,业务也更广了:除了生成图像,还能二次创作! 2021年1月,OpenAI放了一个大招:DALL-E模型,让自然语言和图像成功牵手,输入一段不管多离谱的文本,都能生成图片! 比如经典的「牛油果形状的扶手椅」,还有新奇生物「一个长颈鹿乌龟」。 当时看着已经够神奇了吧? 时隔一年,OpenAI结合另一个多模态模型CLIP,发布了第二个版本DALL·E 2!
新智元
2022/04/11
4950
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
DALL-E发明者受访:我对其两年来产生的影响感到惊讶
选自VentureBeat 作者:Sharon Goldman 机器之心编译 编辑:袁铭怿 DALL-E 等生成式模型的「高光时刻」已经出现,作为发明者,Ramesh 表示:「我们第一次尝试这个研究方向,是想看看能有什么作为。现在想来,恍如昨日。」 OpenAI 研究员、DALL-E 发明者和 DALL-E 2 联合开发者 Aditya Ramesh(图源自 OpenAI)。 在 DALL-E 2、Stable Diffusion 和 Midjourney 出现之前,该领域仅有一篇论文,即《零样本文本到图
机器之心
2023/03/29
5110
DALL-E发明者受访:我对其两年来产生的影响感到惊讶
7 Papers & Radios | OpenAI文本生成图像新模型GLIDE;培养皿中百万人脑细胞打乒乓
本周论文包括OpenAI 文本生成图像新模型 GLIDE 用 35 亿参数媲美 DALL-E;黑客帝国「缸中之脑」有眉目了?培养皿中百万人脑细胞学会打乒乓球,仅用了 5 分钟。
机器之心
2021/12/28
6330
7 Papers & Radios | OpenAI文本生成图像新模型GLIDE;培养皿中百万人脑细胞打乒乓
使用扩散模型从文本提示中生成3D点云
虽然最近关于根据文本提示生成 3D点云的工作已经显示出可喜的结果,但最先进的方法通常需要多个 GPU 小时来生成单个样本。这与最先进的生成图像模型形成鲜明对比,后者在几秒或几分钟内生成样本。在本文中,我们探索了一种用于生成 3D 对象的替代方法,该方法仅需 1-2 分钟即可在单个 GPU 上生成 3D 模型。我们的方法首先使用文本到图像的扩散模型生成单个合成视图,然后使用以生成的图像为条件的第二个扩散模型生成 3D 点云。虽然我们的方法在样本质量方面仍未达到最先进的水平,但它的采样速度要快一到两个数量级,为某些用例提供了实际的权衡。我们在 https://github.com/openai/point-e 上发布了我们预训练的点云扩散模型,以及评估代码和模型。
3D视觉工坊
2023/04/29
1.2K0
使用扩散模型从文本提示中生成3D点云
DALL-E 2的工作原理原来是这样!
CLIP+修改版GLIDE双管齐下。 作者 | Ryan O'Connor 编译丨王玥 编辑 | 陈彩娴 OpenAI的模型DALL-E 2于本月初发布,刚一亮相,便在图像生成和图像处理领域卷起了新的风暴。 只需要给到寥寥几句文本提示,DALL-E 2就可以按文本指示生成全新图像,甚至能将毫不相关的物体以看似合理的语义方式组合在一起。 比如用户输入提示“一碗汤是另一个次元的入口”后,DALL-E 2便生成了以下的魔幻图片。 “一碗汤是另一个次元的入口” 图源:https://openai.com/dal
AI科技评论
2022/04/21
1.3K0
DALL-E 2的工作原理原来是这样!
OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作
机器之心报道 机器之心编辑部 在令人叹为观止方面,OpenAI 从不令人失望。 去年 1 月 6 日,OpenAI 发布了新模型 DALL·E,不用跨界也能从文本生成图像,打破了自然语言与视觉次元壁,引起了 AI 圈的一阵欢呼。 时隔一年多后,DALL·E 迎来了升级版本——DALL·E 2。 与 DALL·E 相比,DALL·E 2 在生成用户描述的图像时具有更高的分辨率和更低的延迟。并且,新版本还增添了一些新的功能,比如对原始图像进行编辑。 不过,OpenAI 没有直接向公众开放 DALL·E 2。
机器之心
2022/04/08
1K0
OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作
简洁、生动,图解「老画师」DALL-E 2的工作原理
选自assemblyai 作者:Ryan O'Connor 机器之心编译 编辑:蛋酱 效果惊艳的 DALL-E 2,到底是怎么工作的? 2022 年 4 月初,OpenAI 的开创性模型 DALL-E 2 登场,为图像生成和处理领域树立了新的标杆。只需输入简短的文字 prompt,DALL-E 2 就可以生成全新的图像,这些图像以语义上十分合理的方式将不同且不相关的对象组合起来,就像通过输入 prompt「a bowl of soup that is a portal to another dimensi
机器之心
2022/04/24
1.3K0
简洁、生动,图解「老画师」DALL-E 2的工作原理
2022年AI顶级论文 —生成模型之年(上)
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 过去十年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知。 2012年,在ImageNet图像识别挑战赛中,一种神经网络模型(AlexNet)首次展现了明显超越传统方法的能力。 2016年,AlphaGo在围棋这一当时人们认为其复杂性很难被人工智能系统模拟的围棋挑战赛中战胜了世界冠军。 2017年,Google的Ashish Vaswani等人提出了 Transformer 深度学习新模型
AiCharm
2023/05/15
4660
2022年AI顶级论文 —生成模型之年(上)
DALL·E-2是如何工作的以及部署自己的DALL·E模型
DALL·E-2可以通过自然语言的描述创建现实的图像。Openai发布了dall·e-2的Beta版。在本文中,我们将仔细研究DALL·E-2的原始研究论文,并了解其确切的工作方式。由于并没有开放源代码, Boris Dayma等人根据论文创建了一个迷你但是开源的模型Dall·E Mini(命名为Craiyon),并且在craiyon.com上提供了一个DEMO。
deephub
2022/11/11
3.1K0
DALL·E-2是如何工作的以及部署自己的DALL·E模型
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
---- 新智元报道   编辑:LRS 【新智元导读】谷歌带着更强大的图像生成模型来了,依然Transformer! 最近谷歌又发布了全新的文本-图像生成Muse模型,没有采用当下大火的扩散(diffusion)模型,而是采用了经典的Transformer模型就实现了最先进的图像生成性能,相比扩散或自回归(autoregressive)模型,Muse模型的效率也提升非常多。 论文链接:https://arxiv.org/pdf/2301.00704.pdf 项目链接:https://muse-mod
新智元
2023/02/24
8440
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研
基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。
中杯可乐多加冰
2024/04/21
1.3K0
文本生成图像工作简述1--概念介绍和技术梳理
基于深度学习的机器学习方法已经在语音、文本、图像等单一模态领域取得了巨大的成功,而同时涉及到多种输入模态的多模态机器学习研究有巨大的应用前景和广泛的研究价值,成为了近年来的研究热点。
中杯可乐多加冰
2024/04/18
5260
OpenAI新研究:扩散模型在图像合成质量上击败BigGAN,多样性还更佳
新模型在ImageNet512×512上实现了3.85FID,甚至在每个样本只有25次正向传递的情况下,其生成图像质量可匹敌DeepMind提出的BigGAN。
AI科技评论
2021/05/20
4.5K0
图像、视频生成大一统!MSRA+北大全华班「女娲」模型怒刷8项SOTA,完虐OpenAI DALL-E
前脚刚推出取得了40多个新SOTA的Florence「佛罗伦萨」吊打CLIP,横扫40多个SOTA。
新智元
2021/11/29
8851
图像、视频生成大一统!MSRA+北大全华班「女娲」模型怒刷8项SOTA,完虐OpenAI DALL-E
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
机器之心报道 机器之心编辑部 人工智能 DALLE 善于画出各种神奇图像的原因在于——它不说人话。 「我们发现 DALLE-2 似乎有一个隐藏的词汇表,用于生成各种荒谬描述内容的图像。例如,Apoploe vesrreaitais 似乎是指鸟类,而 Contarra ccetnxniams luryca tanniounons 有时指虫子。我们发现这些 prompt 通常在孤立的情况下是一致的,但有时也是组合的,」研究人员写道。 DALL-E 生成的各种诡异图片在社交网络上刷屏已经持续了一段时间,有关为什么
机器之心
2022/06/02
1.1K0
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
推荐阅读
打破GANs“垄断”|OpenAI新研究:Diffusion Models 图文转换效果超越DALL-E
1.4K0
OpenAI逆炼以文生图:参数缩水2/3性能却更强,还get局部编辑新技能|可试玩
8240
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
5780
文本生成图像这么火,你需要了解这些技术的演变
1.9K0
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
7270
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
4950
DALL-E发明者受访:我对其两年来产生的影响感到惊讶
5110
7 Papers & Radios | OpenAI文本生成图像新模型GLIDE;培养皿中百万人脑细胞打乒乓
6330
使用扩散模型从文本提示中生成3D点云
1.2K0
DALL-E 2的工作原理原来是这样!
1.3K0
OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作
1K0
简洁、生动,图解「老画师」DALL-E 2的工作原理
1.3K0
2022年AI顶级论文 —生成模型之年(上)
4660
DALL·E-2是如何工作的以及部署自己的DALL·E模型
3.1K0
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
8440
文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研
1.3K0
文本生成图像工作简述1--概念介绍和技术梳理
5260
OpenAI新研究:扩散模型在图像合成质量上击败BigGAN,多样性还更佳
4.5K0
图像、视频生成大一统!MSRA+北大全华班「女娲」模型怒刷8项SOTA,完虐OpenAI DALL-E
8851
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
1.1K0
相关推荐
打破GANs“垄断”|OpenAI新研究:Diffusion Models 图文转换效果超越DALL-E
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文