文章/答案/技术大牛

发布

如何1行BN“批规范化”提高训练速度准确率，有深度学习5层网络比较源码

文章来源：企鹅号 - ANGTK昂钛客

卷首语：

首先，笔者在这里祝大家新年快乐！！！今天我们来探讨的问题是BN层在TensorFlow中的实现，以实践为主，理论方面会跳过一些不易被理解的部分，让大家可以快速搭建并投入使用。

在文章的最后我也会给出相应的效果对比，犹豫要不要学习的读者可以先看看最后在做决定～

在训练模型时，我们经常会在一些需要调整的参数上浪费时间：学习率，学习衰减率，正则……

况且即便我们调整了很多次参数，也未必见得可以提高模型的训练效果，甚至还有可能产生梯度消失等等一系列令人头疼的问题。

但是，这种现象在Inception-v2中就已经发生了改变。在Inception模型升级时引入了一种新的网络层“Batch Normalization”

比较官方的公式，不懂的读者可以直接忽略

为了降低学习难度，笔者在这里给出一个精简的公式：

BN公式

下面，让我们对公式逐一地进行分解（注：有微积分基础的读者想必就不用我多说了，可以跳过理论这段）

均值与方差

均值（mean）：

首先，让我们假设一数组：X = [1,2,3,4,5]

mean = 数组和/数量

mean = （1+2+3+4+5）/5

mean = 3

方差（variance）：

让我们继续使用上一数组X

variance = （X12+ X22+…+ Xn2）/ n

variance = （12+ 22 + 32 + 42 + 52）/ 5

variance = （1 + 4 + 9 + 1 6 + 2 5 ）/ 5

variance = 45 / 5

variance = 9

内部参数

x:输入进行计算的张量

axes:需要计算的维度

name:命名

keep_dims:是否保持维度

TensorFlow实现

缩放与偏移

在公式中，我们可以将“缩放”与“偏移”理解为两组可被训练的Weights

缩放（scale）：

在定义scale时一般初始化为0，维度必须和mean的一致

TensorFlow实现

偏移（offset）：

定义offset的情况和scale基本一致，但要注意的是offset一般情况下初始化为1

TensorFlow实现

按照上面所讲的，公式中的内容我们已经解析完全，接下来我们只需要套用一个现成的函数：

TensorFlow实现

神来一笔：Variance_epsilon

在上面的函数中，我们将“输入”“均值”“方差”“偏移”“缩放”都添加了进去，最后还有个参数：variance_epsilon = 0.001

这个参数的作用在官方解释为：A small float number to avoid dividing by 0.

大概的意思就是需设定一个浮点数用来避免除以产生的梯度爆炸

虽然在方差被除等于零是几率很小的事，可在几十层甚至几百层的神经网络里，计算量也要大的惊人，根据墨菲定律：会出错的事总会出错

滑动平均与滑动方差

注：BN层在训练与测试时所用的滑动平均和滑动方差不同

申请滑动平均与滑动方差（这里就应该不用我多叙述了，纯基础范围，不太理解的可以去找一下关于滑动平均的博文）：

TensorFlow实现

计算滑动平均与滑动方差：

TensorFlow实现

存储优化参数：

TensorFlow实现

如此一来，在进行网络训练时，将is_training设为True;测试网络时设为False即可。

精简代码

在前文中我们写了很多行代码才实现了BN层的基本功能。

但是，我们完全可以用一行代码进行！

下面三种函数都可以实现BN层，因为都是封装好的函数，有兴趣的读者完全可以自行测试。

TensorFlow实现

最后，让我们对比一下有无BN层的效果：

笔者为了让效果看起来更明显，基础学习率设定成了0.99，在实际的训练过程中请根据情况适当修改。

关于BN算法，笔者直接采用Slim封装好的Batch_norm（）函数。

对比模型是一个五层的卷积网络，在MNIST数据集上进行迭代1000次训练。

损失函数，优化函数以及训练过程

全连接层

加入了BN算法的五层CNN模型，我在这里使用的是Slim工具包封装好的Batch_norm函数

加入了BN算法的训练效果

接下来，我们将所有的slim.batch_norm进行删除，训练效果如下

不添加BN算法的训练效果

可以看出添加了BN算法的模型不论是学习速度还是稳定性都要高于不添加BN算法的模型。

但要明白，现在只采用MNIST数据集，有兴趣的读者大可在自己的模型中添加BN层，在Cifar-10等数据集上的效果会更佳明显一些。

卷尾语：我爱学习学习爱我...笔者这个新年过的...啧...一言难尽，一定要注意食量啊注意食量！！！

最后，如果需要代码或者想跟小编联系，一起讨论学习。欢迎大家在下方评论进行留言，喜欢记得添加关注哦！！！

发表于: 2018-02-222018-02-22 11:03:15
原文链接：http://kuaibao.qq.com/s/20180222A0A0FJ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

如何1行BN“批规范化”提高训练速度准确率，有深度学习5层网络比较源码

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐