什么!你竟然还不懂变分自编码机?这个16岁的OpenAI天才实习生讲得可透彻了

编译 | AI科技大本营(rgznai100)

参与 | 史天,胡永波,鸽子

我的天啊,这些少年们,让身为多年程序猿,却还在吃草的我们,情何以堪,情何以堪...AI哥也只剩下最后一点自信了,那就是...

说点正事......那个......

你知道啥叫变分自编码机吗?

你知道为啥你需要懂变分自编码机呢?

你知道如何以最快的速度搞懂变分自编码机吗?

啥也不说了,还是让这位16岁的天才少年讲给你听吧。

Kevin Frans是加州Palo Alto的一名高中生,他年级轻轻便已写出两篇论文,并且对生成式模型颇有研究。他的成名作是一个名为deepcolor的项目。

现在,他正在以实习生的身份在OpenAI做强化学习方面的研究。

本文是Kevin Frans用自己写的实例来讲解变分自编码机,对于自编码机与变分自编码机的工作原理、使用变分自编码机时的优缺点,他都做了特别细心的解释,是了解变分自编码机不可多得的一篇好文。

下面,我们就来看看这个高中生的实力到底有几何:

我曾经讲解过一次生成式对抗网络(GAN),谈的是用它来生成逼真图像的一个简单例子。

但这中间有些问题,即单纯使用GAN存在两大不利因素。

首先,这里的图像生成自某些随机的噪点。如果你想生成的是一张特定细节的图像,除了遍历初始噪点的整个分布范围,你没有别的办法来找出它们的值。

其次,生成式对抗模型只能区分出图像的“真”、“假”。你没有办法强制它所生成猫图必须看起来像猫。这就造成了一个问题,就是它所生成的图像不是参照真实的物体,而是参照的他们在图片中的样子,风格上不会特别写实。

如何解决这两个问题呢?

我会在本文中介绍另一种神经网络——变分自编码机,来解决这两个问题。

什么是变分自编码机?

要理解变分自编码机(VAE),我们要先从一个简单的网络开始,一步一步添加部件。

描述神经网络的常见方法,是把它解释成我们想要建模的功能的某种近似。然而,它们还能被理解为储存信息的某种数据结构。

假设有一个由数层解卷积层构成的神经网络,我们把输入设定为单位向量,然后训练该网络去降低其与目标图像之间的均方误差。这样,该图像的“数据”就包含在神经网络当前的参数之中了。

现在,我们用多张图像来尝试这一步骤。此时,输入不再是单位向量,而要改用独热向量。比如,输入 [1, 0, 0, 0] 可能是生成一张猫的图像,而输入 [0, 1, 0, 0] 则可能生成一张狗的图像。这是可行的,不过这样我们只能存储最多4张图像。让网络记住更多的图像则要使用更长的向量,同时也意味着越来越多的参数。

为此,我们需要使用实向量,而非独热向量。我们可以把它视为某个图像所对应的编码,比如用向量 [3.3, 4.5, 2.1, 9.8] 来表示猫的图像,而用向量 [3.4, 2.1, 6.7, 4.2] 来表示狗的图像,这就是 编码/解码 这一术语的来源。这一初始向量便是我们的潜在变量。

像我前面那样随机选择潜在变量,明显是个糟糕的做法。在自编码机中,我们加入了一个能自动把原始图像编码成向量的组件。上述解卷积层则能把这些向量“解码”回原始图像。

这样,我们的模型终于到了一个能有用武之地的阶段。根据需要,我们可以用尽可能多的图像来训练网络。如果保存了某张图像的编码向量,我们随时就能用解码组件来重建该图像,整个过程仅需一个标准的自编码机。

不过,这里我们想要的是构建一个生成式模型,而非仅仅是“记忆”图像数据的模糊结构。除了像前面那样从已有图像中编码出潜在向量,我们还不知道如何创造这些向量,也就无法凭空生成任何图像。

这里有个简单的办法。我们给编码网络增加一个约束,迫使它所生成的潜在向量大体上服从于单位高斯分布。该约束条件使得变分自编码机不同于标准自编码机。

现在,生成新的图像就变得容易了:我们只需从单位高斯分布中采样出一个潜在向量,并将其传到解码器即可。

实际操作中,我们需要仔细权衡网络的精确度与潜在变量在单位高斯分布上的契合程度。

神经网络可以自行决定这里的取舍。对于其中的误差项,我们归纳出独立的两种:生成误差,用以衡量网络重构图像精确度的均方误差;潜在误差,用以衡量潜在变量在单位高斯分布上的契合程度的KL散度。

generation_loss = mean(square(generated_image - real_image)) latent_loss = KL-Divergence(latent_variable, unit_gaussian) loss = generation_loss + latent_loss

为了优化KL散度,我们要用到重新参数化的一个简单技巧:生成一个均值向量一个标准差向量,而非直接生成实值向量。

我们的KL散度计算就变成这样:

# z_mean and z_stddev are two vectors generated by encoder network latent_loss = 0.5 * tf.reduce_sum(tf.square(z_mean) + tf.square(z_stddev) - tf.log(tf.square(z_stddev)) - 1,1)

在计算解码网络的误差时,我们只需从标准差中取样,再加上均值向量,就能得到我们的潜在向量:

samples = tf.random_normal([batchsize,n_z],0,1,dtype=tf.float32) sampled_z = z_mean + (z_stddev * samples)

除了能让我们生成随机的潜在变量,该约束还能提高VAE网络的泛化能力。

形象地说,我们可以把潜在变量视为数据的变换系数。

在[ 0, 10 ]的区间内,假定你有一系列的实数-名称对,一个实数代表一个物体的名字。例如,5.43表示苹果,5.44表示香蕉。当有人给你数字5.43时,你肯定知道他们是在谈论苹果。本质上,采用这一方式可以编码无限多的信息,毕竟[ 0, 10 ]之间的实数是有无数个。

然而,如果每当有人给告诉你一个新数字,它的高斯噪点也会增加一个时,情况会变成怎样?比如说,你收到数字是5.43,其原始数值则应在[4.4 ~ 6.4]之间,那其他人所说的真实数字就有可能是5.44(香蕉)。

所增噪点的标准差越大,其均值变量所能传递的信息就越少。

用此相同的逻辑,我们就能在编码器和解码器之间传递潜在变量。对原始图像的编码越有效,我们在高斯分布上所能取样的标准差就越大,直至为1(标准正态分布)。

这一约束迫使编码器变得非常高效,从而能创造出信息丰富的潜在变量。它所提升的泛化能力,让我们随机生成或从非训练图像编码而来的潜在变量,在解码时将能产生更好的结果。

VAE的效果有多好?

我在MNIST手写数据集上做了一些测试,从中可以看出变分自编码机的效果有多好。

左:第1世代,中:第9世代,右:原始图像

看起来很不错!在我那没有显卡的笔记本上运行15分钟后,它就生成了一些很好的MNIST结果。

VAE的优点:

由于它们所遵循的是一种 编码-解码 模式,我们能直接把生成的图像同原始图像进行对比,这在使用GAN时是不可能的。

VAE的不足:

由于它是直接采用均方误差而非对抗网络,其神经网络倾向于生成更为模糊的图像。

也有一些需要结合VAE和GAN的研究工作:采用相同的 编码器-解码器 配置,但使用对抗网络来训练解码器。

研究详情参考论文 https://arxiv.org/pdf/1512.09300.pdf http://blog.otoro.net/2016/04/01/generating-large-images-from-latent-vectors/

本文代码 https://github.com/kvfrans/variational-autoencoder https://jmetzen.github.io/2015-11-27/vae.html

原文链接 http://kvfrans.com/variational-autoencoders-explained/

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2017-08-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

距离和相似性度量在机器学习中的使用统计

作者:daniel-D 来源:http://www.cnblogs.com/daniel-D/p/3244718.html 在机器学习和数据挖掘中,...

43230
来自专栏深度学习之tensorflow实战篇

贝叶斯的概率推到,朴素贝叶斯分类器及Python实现

在了解贝叶算法前:要有一定的概率与数理统计基础以及注意事项 条件概率 首先,理解这两个公式的前提是理解条件概率,因此先复习条件概率。 P(A|B)=P(AB...

39060
来自专栏机器学习算法与Python学习

Machine Learning -- Bayesian network

链接地址:http://www.dataguru.cn/thread-508373-1-1.html 0 引言 事实上,介绍贝叶斯定理、贝叶斯方法、贝叶斯推断的...

47660
来自专栏AI科技大本营的专栏

16岁 OpenAI 天才实习生 Kevin Frans:变分自编码机

本文是 Kevin Frans 用自己写的实例来讲解变分自编码机,对于自编码机与变分自编码机的工作原理、使用变分自编码机时的优缺点,他都做了特别细心的解释,是了...

63900
来自专栏杨熹的专栏

深度学习与自然语言处理 主要概念一览CS224d-Day 1:

---- CS224d-Day 1: 要开始系统地学习 NLP 课程 cs224d,今天先来一个课程概览。 课程一共有16节,先对每一节中提到的模型,算法,工...

383110
来自专栏技术随笔

[透析] 卷积神经网络CNN究竟是怎样一步一步工作的?

37560
来自专栏机器之心

教程 | 如何使用变分自编码器VAE生成动漫人物形象

选自Medium 作者:Wuga 机器之心编译 参与:Geek Ai、李泽南 变分自编码器(VAE)与生成对抗网络(GAN)经常被相互比较,其中前者在图像生成上...

66560
来自专栏人工智能

基于神经网络的图像压缩技术

(本文由软件工程师 Nick Johnston 和 David Minnen 发布)

958120
来自专栏用户2442861的专栏

如何识别图像边缘?

文字识别、车牌识别、人脸识别都是它的应用。但是,这些都算初级应用,现在的技术已经发展到了这样一种地步:计算机可以识别出,这是一张狗的照片,那是一张猫的照片。

17320
来自专栏大数据挖掘DT机器学习

如何做特征选择

1.数据挖掘与聚类分析概述 数据挖掘一般由以下几个步骤: (l)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果,也就选择了这项工作...

43550

扫码关注云+社区

领取腾讯云代金券