前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【技术】动手实现会写数字的神经网络—半监督学习和生成式对抗网络介绍

【技术】动手实现会写数字的神经网络—半监督学习和生成式对抗网络介绍

作者头像
AiTechYun
发布2018-04-17 12:06:48
1.2K0
发布2018-04-17 12:06:48
举报
文章被收录于专栏:ATYUN订阅号

在1889年,梵高画了这个美丽的艺术品:星月夜。如今,我的GAN模型只使用20%的标签数据,学会了画MNIST数字!它是怎么实现的?让我们动手做做看。

半监督学习

大多数深度学习分类器需要大量的标签样本才能很好地泛化,但获取这些数据是的过程往往很艰难。为了解决这个限制,半监督学习被提出,它是利用少量标记数据和大量未标记数据的分类技术。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用时,可以显著提高学习准确性。在半监督学习中,GAN(生成式对抗网络)表现出了很大的潜力,其中分类器可以用很少的标签数据取得良好的表现。

GAN的背景

GAN是深度生成模型的一种。它们特别有趣,因为它们没有明确表示数据所在空间的概率分布。而是通过从中抽取样本,提供了一些不直接与这种概率分布不直接相关的方法。

普通GAN架构

GAN的基本原理是在两个“玩家”之间建立一场比赛:

  • 生成器(G):取随机噪声z作为输入并输出图像x。它的参数被调整以让它产生的假图像从判别器中获得高分。
  • 判别器(D):获取图像X作为输入,并输出一个反映了它对于这是否是真实图像的信心得分。它的参数被调整为:当有真实图像馈送时反馈高分,并且发生器馈送假图像时会反馈低分。

现在,让我们来稍微讨论一下GAN最重要的应用之一,半监督学习。

直觉

普通判别器架构只有一个输出神经元用于分类R / F概率(对/错)。我们同时训练两个网络并在训练完成后丢弃判别器,因为它仅用于改进发生器。

对于半监督任务,除了R / F神经元之外,判别器现在将具有10个用于MNIST数字分类的神经元。而且,这次他们的角色会改变,我们可以在训练后丢弃生成器,其唯一目标是生成未标记的数据以提高判别器的性能。

现在判别器成为了11个类的分类器,其中1个神经元(R / F神经元)代表假数据输出,另外10个代表具有类的实际数据。你必须牢记以下几点:

  • 当来自数据集的真的无监督(或者说标签)数据被馈送时,要保证R / F神经元输出标签= 0
  • 当来自发生器的假的无监督数据被馈送时,要保证R / F神经元输出标签= 1
  • 当真实有监督数据被馈送时,要保证R / F输出标签= 0并且相应的标签输出= 1

不同数据来源的组合将有助于判别器的分类更精确。

架构

现在我们动手进行编码。

判别器

下面的架构与DCGAN 论文中提出的架构类似。我们使用跨卷积(strided convolutions)来减少特征向量的维度,而不是任何池化层,并且为所有层应用一系列的leaky_relu,dropout和BN来稳定学习。输入层和最后一层中BN被舍弃(为了特征匹配)。最后,我们执行全局平均池化(Global Average Pooling)以取得特征向量空间维度上的平均值。这可以将张量维度压缩为单个值。在扁平化了特征之后,为了多类输出增加一个11个类的稠密层和softmax激活函数。

代码语言:javascript
复制
def discriminator(x, dropout_rate= 0., is_training= True, reuse= False):
代码语言:javascript
复制
   # input x -> n+1 classes
代码语言:javascript
复制
   with tf.variable_scope('Discriminator', reuse= reuse):
代码语言:javascript
复制
     # x = ?*64*64*1
代码语言:javascript
复制
代码语言:javascript
复制
     #Layer 1
代码语言:javascript
复制
     conv1= tf.layers.conv2d(x,128, kernel_size= [4,4], strides= [2,2],
代码语言:javascript
复制
                             padding= 'same', activation= tf.nn.leaky_relu, name= 'conv1')# ?*32*32*128
代码语言:javascript
复制
     #No batch-norm for input layer
代码语言:javascript
复制
     dropout1= tf.nn.dropout(conv1, dropout_rate)
代码语言:javascript
复制
代码语言:javascript
复制
     #Layer2
代码语言:javascript
复制
     conv2= tf.layers.conv2d(dropout1,256, kernel_size= [4,4], strides= [2,2],
代码语言:javascript
复制
                             padding= 'same', activation= tf.nn.leaky_relu, name= 'conv2')# ?*16*16*256
代码语言:javascript
复制
     batch2= tf.layers.batch_normalization(conv2, training= is_training)
代码语言:javascript
复制
     dropout2= tf.nn.dropout(batch2, dropout_rate)
代码语言:javascript
复制
代码语言:javascript
复制
     #Layer3
代码语言:javascript
复制
     conv3= tf.layers.conv2d(dropout2,512, kernel_size= [4,4], strides= [4,4],
代码语言:javascript
复制
                             padding= 'same', activation= tf.nn.leaky_relu, name= 'conv3')# ?*4*4*512
代码语言:javascript
复制
     batch3= tf.layers.batch_normalization(conv3, training= is_training)
代码语言:javascript
复制
     dropout3= tf.nn.dropout(batch3, dropout_rate)
代码语言:javascript
复制
代码语言:javascript
复制
     # Layer 4
代码语言:javascript
复制
     conv4= tf.layers.conv2d(dropout3,1024, kernel_size=[3,3], strides=[1,1],
代码语言:javascript
复制
                              padding='valid',activation= tf.nn.leaky_relu, name='conv4')# ?*2*2*1024
代码语言:javascript
复制
     # No batch-norm as this layer's op will be used in feature matching loss
代码语言:javascript
复制
     # No dropout as feature matching needs to be definite on logits
代码语言:javascript
复制
代码语言:javascript
复制
     # Layer 5
代码语言:javascript
复制
     # Note: Applying Global average pooling       
代码语言:javascript
复制
     flatten= tf.reduce_mean(conv4, axis= [1,2])
代码语言:javascript
复制
     logits_D= tf.layers.dense(flatten, (1 + num_classes))
代码语言:javascript
复制
     out_D= tf.nn.softmax(logits_D)    
代码语言:javascript
复制
   return flatten,logits_D,out_D

发生器

发生器架构旨在模仿判别器的空间输出。使用部分跨卷积来增加表示的空间维度。噪声的四维张量的输入z被馈送,它经过转置卷积,relu,BN(输出层除外)和dropout操作。最后,tanh激活将输出图像映射到(-1,1)范围内。

代码语言:javascript
复制
def generator(z, dropout_rate= 0., is_training= True, reuse= False):
代码语言:javascript
复制
    # input latent z -> image x
代码语言:javascript
复制
    with tf.variable_scope('Generator', reuse= reuse):
代码语言:javascript
复制
      #Layer 1
代码语言:javascript
复制
      deconv1= tf.layers.conv2d_transpose(z,512, kernel_size= [4,4],
代码语言:javascript
复制
                                         strides= [1,1], padding= 'valid',
代码语言:javascript
复制
                                        activation= tf.nn.relu, name= 'deconv1')# ?*4*4*512
代码语言:javascript
复制
      batch1= tf.layers.batch_normalization(deconv1, training= is_training)
代码语言:javascript
复制
      dropout1= tf.nn.dropout(batch1, dropout_rate)
代码语言:javascript
复制
代码语言:javascript
复制
      #Layer 2
代码语言:javascript
复制
      deconv2= tf.layers.conv2d_transpose(dropout1,256, kernel_size= [4,4],
代码语言:javascript
复制
                                         strides= [4,4], padding= 'same',
代码语言:javascript
复制
                                        activation= tf.nn.relu, name= 'deconv2')# ?*16*16*256
代码语言:javascript
复制
      batch2= tf.layers.batch_normalization(deconv2, training= is_training)
代码语言:javascript
复制
      dropout2= tf.nn.dropout(batch2, dropout_rate)
代码语言:javascript
复制
代码语言:javascript
复制
      #Layer 3
代码语言:javascript
复制
      deconv3= tf.layers.conv2d_transpose(dropout2,128, kernel_size= [4,4],
代码语言:javascript
复制
                                         strides= [2,2], padding= 'same',
代码语言:javascript
复制
                                        activation= tf.nn.relu, name= 'deconv3')# ?*32*32*256
代码语言:javascript
复制
      batch3= tf.layers.batch_normalization(deconv3, training= is_training)
代码语言:javascript
复制
      dropout3= tf.nn.dropout(batch3, dropout_rate)
代码语言:javascript
复制
代码语言:javascript
复制
      #Output layer
代码语言:javascript
复制
      deconv4= tf.layers.conv2d_transpose(dropout3,1, kernel_size= [4,4],
代码语言:javascript
复制
                                        strides= [2,2], padding= 'same',
代码语言:javascript
复制
                                        activation= None, name= 'deconv4')# ?*64*64*1
代码语言:javascript
复制
      out= tf.nn.tanh(deconv4)
代码语言:javascript
复制
    return out

模型损失

我们首先通过将实际标签附加为零来准备整个批次的扩展标签。这样做是为了在标记数据馈送时,R / F神经元的输出为0。未标记数据的判别器损失可以被认为是一个二元sigmoid损失,通过将R / F神经元输出为1声明假图像,而真实图像输出为0。

代码语言:javascript
复制
### Discriminator loss ###
代码语言:javascript
复制
   # Supervised loss -> which class the real data belongs to   
代码语言:javascript
复制
   temp= tf.nn.softmax_cross_entropy_with_logits_v2(logits= D_real_logit,
代码语言:javascript
复制
                                                 labels= extended_label)
代码语言:javascript
复制
   # Labeled_mask and temp are of same size = batch_size where temp is softmax cross_entropy calculated over whole batch
代码语言:javascript
复制
代码语言:javascript
复制
   D_L_Supervised= tf.reduce_sum(tf.multiply(temp,labeled_mask))/ tf.reduce_sum(labeled_mask)
代码语言:javascript
复制
代码语言:javascript
复制
   # Multiplying temp with labeled_mask gives supervised loss on labeled_mask
代码语言:javascript
复制
   # data only, calculating mean by dividing by no of labeled samples
代码语言:javascript
复制
代码语言:javascript
复制
   # Unsupervised loss -> R/F   
代码语言:javascript
复制
   D_L_RealUnsupervised= tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(
代码语言:javascript
复制
           logits= D_real_logit[:,0], labels= tf.zeros_like(D_real_logit[:,0], dtype=tf.float32)))
代码语言:javascript
复制
代码语言:javascript
复制
   D_L_FakeUnsupervised= tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(
代码语言:javascript
复制
           logits= D_fake_logit[:,0], labels= tf.ones_like(D_fake_logit[:,0], dtype=tf.float32)))
代码语言:javascript
复制
代码语言:javascript
复制
   D_L= D_L_Supervised+ D_L_RealUnsupervised+ D_L_FakeUnsupervised

发生器损失是fake_image损失与特征匹配损失的组合,前者错误的将R / F神经元输出断言为0,后者惩罚训练数据上一组特征的平均值与生成样本中这组特征的平均值之间的平均绝对误差

代码语言:javascript
复制
             ### Generator loss ###               
代码语言:javascript
复制
# G_L_1 -> Fake data wanna be real
代码语言:javascript
复制
代码语言:javascript
复制
G_L_1= tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(
代码语言:javascript
复制
        logits= D_fake_logit[:,0],labels= tf.zeros_like(D_fake_logit[:,0], dtype=tf.float32)))
代码语言:javascript
复制
代码语言:javascript
复制
# G_L_2 -> Feature matching
代码语言:javascript
复制
data_moments= tf.reduce_mean(D_real_features, axis= 0)
代码语言:javascript
复制
sample_moments= tf.reduce_mean(D_fake_features, axis= 0)
代码语言:javascript
复制
G_L_2= tf.reduce_mean(tf.square(data_moments-sample_moments))
代码语言:javascript
复制
代码语言:javascript
复制
G_L= G_L_1+ G_L_2

训练

训练图像从[batch_size,28,28,1]调整为[batch_size,64,64,1]以适应发生器和判别器架构。计算损失,准确性和生成样本,并观察每个周期的改进。

代码语言:javascript
复制
for epochin range(epochs):
代码语言:javascript
复制
  train_accuracies, train_D_losses, train_G_losses= [], [], []
代码语言:javascript
复制
  for itin range(no_of_batches):
代码语言:javascript
复制
代码语言:javascript
复制
  batch= mnist_data.train.next_batch(batch_size, shuffle= False)
代码语言:javascript
复制
  # batch[0] has shape: batch_size*28*28*1        
代码语言:javascript
复制
  batch_reshaped= tf.image.resize_images(batch[0], [64,64]).eval()
代码语言:javascript
复制
  # Reshaping the whole batch into batch_size*64*64*1 for disc/gen architecture
代码语言:javascript
复制
  batch_z= np.random.normal(0,1, (batch_size,1,1, latent))
代码语言:javascript
复制
  mask= get_labeled_mask(labeled_rate, batch_size)
代码语言:javascript
复制
代码语言:javascript
复制
  train_feed_dict= {x : scale(batch_reshaped), z : batch_z,
代码语言:javascript
复制
                              label : batch[1], labeled_mask : mask,
代码语言:javascript
复制
                               dropout_rate :0.7, is_training :True}
代码语言:javascript
复制
  #The label provided in dict are one hot encoded in 10 classes
代码语言:javascript
复制
代码语言:javascript
复制
  D_optimizer.run(feed_dict= train_feed_dict)
代码语言:javascript
复制
  G_optimizer.run(feed_dict= train_feed_dict)
代码语言:javascript
复制
代码语言:javascript
复制
  train_D_loss= D_L.eval(feed_dict= train_feed_dict)
代码语言:javascript
复制
  train_G_loss= G_L.eval(feed_dict= train_feed_dict)
代码语言:javascript
复制
  train_accuracy= accuracy.eval(feed_dict= train_feed_dict)
代码语言:javascript
复制
代码语言:javascript
复制
  train_D_losses.append(train_D_loss)
代码语言:javascript
复制
  train_G_losses.append(train_G_loss)
代码语言:javascript
复制
  train_accuracies.append(train_accuracy)
代码语言:javascript
复制
代码语言:javascript
复制
  tr_GL= np.mean(train_G_losses)
代码语言:javascript
复制
  tr_DL= np.mean(train_D_losses)
代码语言:javascript
复制
  tr_acc= np.mean(train_accuracies)      
代码语言:javascript
复制
代码语言:javascript
复制
  print ('After epoch: '+ str(epoch+1)+ ' Generator loss: '
代码语言:javascript
复制
                       + str(tr_GL)+ ' Discriminator loss: ' + str(tr_DL)+ ' Accuracy: ' + str(tr_acc))
代码语言:javascript
复制
代码语言:javascript
复制
  gen_samples= fake_data.eval(feed_dict= {z : np.random.normal(0,1, (25,1,1, latent)), dropout_rate :0.7, is_training :False})
代码语言:javascript
复制
  # Dont train batch-norm while plotting => is_training = False
代码语言:javascript
复制
  test_images= tf.image.resize_images(gen_samples, [64,64]).eval()
代码语言:javascript
复制
  show_result(test_images, (epoch+ 1), show= True, save= False, path= '')

结论

由于GPU的限制,训练已完成5个周期和20%的 labeled_rate。想要获得更好的结果,建议使用较小的label_rate的训练更多周期。

完整代码:https://github.com/raghav64/SemiSuper_GAN/blob/master/SSGAN.py

训练结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 半监督学习
  • 直觉
  • 架构
    • 判别器
    • 模型损失
    • 训练
    • 结论
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档