前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >英伟达又一个GAN!PoE-GAN,AI绘图细节拉满,看完直接沸腾了!

英伟达又一个GAN!PoE-GAN,AI绘图细节拉满,看完直接沸腾了!

作者头像
AI算法与图像处理
发布2022-04-06 14:04:48
9000
发布2022-04-06 14:04:48
举报
文章被收录于专栏:AI算法与图像处理

大家好,我是 阿潘~

最近已经入职新公司了,开启 965 的生活,也开始做新的项目了。最近在适应新环境,不过我依然会努力分享有趣的前沿成果哈。过年的时候,收到小伙伴的私信,说多分享一些实战的内容,以后我也会多多总结一些常见的坑,和大家一起学习成长。

回归正题,今天跟大家分享一篇英伟达的最新成果

提出了一个新的生成对抗网络 (PoE-GAN) 框架,该框架可以合成以多种输入模式或其任何子集为条件的图像。即可以文本 + 分割、文本 + 草图或分割 + 草图等等合成高质量的图像结果。

论文标题:

Multimodal Conditional Image Synthesis with Product-of-Experts GANs

论文、代码和主页链接:

http://arxiv.org/abs/2112.05130

https://deepimagination.cc/PoE-GAN/

摘要

现有的条件图像合成框架基于单一模态中的用户输入生成图像,例如文本、分割、草图或样式参考。它们通常无法在可用时利用多模式用户输入,这降低了它们的实用性。为了解决这一限制,我们提出了专家产品生成对抗网络 (PoE-GAN) 框架,该框架可以合成以多种输入模式或其任何子集为条件的图像,甚至是空集。PoE-GAN 由专家产品生成器和多模态多尺度投影判别器组成。通过我们精心设计的训练方案,PoE-GAN 学会了合成高质量和多样性的图像。除了提高多模态条件图像合成的最新技术水平外,PoE-GAN 在单模态条件下进行测试时也优于现有的最佳单模态条件图像合成方法。

生成效果:

解读

Product-of-Experts

我们的目标是训练一个单一的生成模型,该模型可以捕获以任意模态子集为条件的图像分布。在本文中,我们考虑了四种不同的模式,包括文本、语义分割、草图和样式参考。直观地说,每个输入模态都会增加一个合成图像必须满足的约束。满足所有约束的图像集合是集合的交集,每个集合都满足一个单独的约束。如下图所示,我们通过假设联合条件概率分布与单条件概率分布的乘积成比例来对此进行建模。在此设置下,要使产品分布在某个区域具有高密度,则每个单独的分布都需要在该区域具有高密度,从而满足每个约束。这也被称为 product-of-experts。

Generator Design

下图展示了我们的生成器的架构。我们将每种模态编码为一个特征向量,然后使用专家产品在 Global PoE-Net 中进行聚合。解码器使用 Global PoE-Net 的输出生成图像,并跳过分割和草图编码器的连接。

生成器架构。查看论文获取架构的更多细节。

Discriminator Design

我们提出了一种多模态投影判别器,它将投影判别器推广到处理多个条件输入。与计算图像嵌入和条件嵌入之间的单个内积的标准投影判别器不同,我们为每个输入模态计算一个内积并将它们加在一起以获得最终损失。

标准投影判别器(左)和本文的多模态投影判别器(右)之间的比较。

Results

当使用单一输入模态进行测试时,PoE-GAN 优于以前专门为该模态设计的 state-of-the-art方法,例如分割到图像的方法(SPADE、OASIS)和文本到图像的合成方法 (DF-GAN,DM-GAN + CL)。

当以任意模态子集为条件时,PoE-GAN 可以产生不同的输出图像。下面我们展示了来自 PoE-GAN 的随机样本,这些样本基于风景图像数据集上的两种模式(文本 + 分割、文本 + 草图和分割 + 草图)。

下面我们展示了来自 PoE-GAN 的随机样本,这些样本基于两种模式,包括样式参考(分割 + 样式、文本 + 样式和草图 + 样式)。

在没有输入模式的情况下,PoE-GAN 成为无条件生成模型。以下是由 PoE-GAN 无条件生成的未经处理的样本。

好的,今天的分享就到这里

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI算法与图像处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Multimodal Conditional Image Synthesis with Product-of-Experts GANs
  • 摘要
  • 解读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档