动态 | DeepMind 发布 VQVAE-2,图片生成效果超越 BigGAN

AI 科技评论按,近日,DeepMind 的研究人员宣布,VQVAE-2 问世了!

VQ-VAE 是 Vector Quantised-Variational Auto Encoder 的简写,此次的 VQ-VAE2 是 DeepMind 基于第一代 VQ-VAE 研究出来的改进模型。相关的论文已被 ICLR2019 接收为口头报告论文,DeepMind 研究员 Suman Ravuri 做了精彩的现场演讲。

论文 ARIXV 链接:http://arxiv.org/abs/1906.00446

论文摘要如下:

我们探讨了矢量量化变分自动编码(VQ-VAE)模型在大规模图像生成中的应用。为此,我们对VQ-VAE 中使用的自回归先验进行了缩放和增强,目的是生成比以前具有更高相关度和保真度的合成样本。我们使用简单的前馈编解码器网络,这让我们的模型对于编码\解码速度至关重要的应用非常有用。此外,VQ-VAE 仅仅只需要在压缩潜在空间中对自回归模型进行采样,这比在像素空间中的采样在速度上快一个数量级,对于大型图像尤其如此。我们证明了一个 VQ-VAE 的多尺度层次组织,加上强大的先验潜在代码,能够在多种数据集(如 ImageNet)上生成质量与最先进的生成对抗网络相媲美的样本,同时不受 GAN 的已知缺点,如模式崩溃、多样性的缺乏等的影响。

DeepMindAI 的这一研究表明,当用于训练分类器(数据增强)时,GAN 生成在看起来真实的样本的能力有限。初始分数与分类表现呈负相关。

论文的三位作者之一,DeepMind 的研究人员 Aaron van den Oord 在 twitter 上表示,这是一个在分层压缩潜在空间中的强大自回归模型,在创建示例时,任何模式中都没有遇到崩溃问题。

更多示例和细节如下:

他们使用一个分层的 VQVAE,将图像压缩成一个潜在空间,相对于 ImageNet 来说,这个空间要小 50 倍,相对于 FFHQ 面来说,这个空间要小 200 倍。PixelCNN 仅对最新的产品进行建模,使其能够将其能力用于全局结构和最明显的特征上。

他们 256 像素的两级 ImageNet VQVAE 中的样本如下:

结果,他们发现,这些样本在多样性方面比竞争对手的方法生成的样本要好得多。

对于百万像素的人脸(1024x1024),他们使用了三级 VQVAE 模型。

更多的样本和高分辨率未压缩图像可以在这里找到:https://t.co/EGaUMHA7FN?amp=1

感兴趣的童鞋可以下载相关论文,开始愉快地学习吧~

本文分享自微信公众号 - AI科技评论(aitechtalk)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习、深度学习

快速人体姿态估计--Pose Proposal Networks

本文使用 YOLO + bottom-up greedy parsing 进行人体姿态估计

25520
来自专栏思谱云汇人工智能

人工智能大大减少了全球贸易中的语言障碍

近年来,机器学习和人工智能迅速出现,为提高商业效率带来了希望。与此同时,研究人员几乎没有发现任何证据支持劳动生产率和经济活动因此取得的进展。

11330
来自专栏大数据智能实战

AllenNLP系列文章之五:语义角色标注

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.n...

32940
来自专栏深度学习思考者

ImageNet Classification with Deep Convolutional Neural Networks笔记(摘要版)

Contents 1.全部架构 2.降低过拟合 3.学习细节 4.结果 5.讨论

10810
来自专栏漫漫深度学习路

neural turing machine:神经图灵机tensorflow源码注释

版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/...

14620
来自专栏机器学习、深度学习

实时车道检测--A Novel Vision-Based Framework for Real-Time Lane Detection

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/...

21120
来自专栏机器学习、深度学习

目标检测--SqueezeDet 用于自动驾驶的实时目标检测网络

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.n...

19130
来自专栏AI人工智能

机器学习VS 编程,二者的最大区别是什么?

有些人认为人工智能和机器学习的本质不过是大肆运用if语句,或者说编程知识罢了,建议说这话的人最好能拿出详细证据证明。本文将对比两个概念,并解释从事这两个领域的专...

12320
来自专栏机器学习、深度学习

二值网络--XNOR-Net: ImageNet Classification Using Binary Convolutional

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.n...

10520
来自专栏机器学习、深度学习

目标检测--R-FCN: Object Detection via Region-based Fully Convolutional Networks

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.n...

13520

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励