深度学习系列教程（八）TensorFlow 中的正则化方法

企鹅号小编

发布于 2018-01-04 10:58:14

9740

发布于 2018-01-04 10:58:14

文章被收录于专栏：人工智能

"玩转TensorFlow与深度学习模型”系列文字教程，本周带来TensorFlow 中的正则化方法！

大家在学习和实操过程中，有任何疑问都可以通过学院微信交流群进行提问，有导师和助教、大牛为您解惑答疑哦。（入群方式在文末）

第八篇的教程主要介绍-TensorFlow 中的正则化方法，包括：

过拟合简介

常用正则化用法

过拟合介绍

在对正则化的方法进行介绍之前，首先解释以下什么是过拟合。过拟合（overfitting）一般是指模型能够在训练数据集上得到越来越好的结果，但是在测试数据上的表现反而变差的现象，导致这种现象发生的原因一般是模型结果过于复杂，使得模型能够很好地描述训练数据，但是却丧失了泛化能力，对于没有参加训练的数据存在较大的误差。对于过拟合，欠拟合和模型容量的关系可以参见下图。

常用正则化方法

机器学习与深度学习中的一个核心问题就是如何使得一个模型或者算法能够有较好的泛化能力，即除了训练数据，我们希望模型在新产生的数据上的表现也尽可能的好，深度学习中有很多算法目标在于降低模型的test error，不过付出的代价就是有可能使得training error有所上升。这类策略统一叫做正则化（Regularizations）。

Parameter Norm Penalties

假设原来的损失函数为：

现在定义新的损失函数

当表示范数的时候，就叫做Parameter Norm Penalties，

Parameter Norm Penalties 是一类常见的简单的正则化方法，主要分为L1正则化和L2正则化两种。一般情况我们只选用权重的范数作为penalty，而不对偏置进行正则化。

范数的计算公式：

L2 范数正则化

如果取（二分之一L2范数的平方）则叫做L2范数正则化。对于权重进行求导可以得到：

在每一步梯度下降中可以得到：

可以看到在每一步对权重进行更新的时候会对权重乘上一个小于1的常数。因此这种方法也叫做weight decay 。

L2 范数正则化的意义如下图所示：

假设w有两个元素w1，w2，虚线是，实线是，为使得J取得最小值的w,为使得最小的w的取值。可以看到，J对于w在垂直方向上的移动更为敏感（梯度更大），而在水平方向上则没有那么敏感，从结果上来说，L2正则化对于对梯度影响较大的值的影响较小，对于对梯度没有太大影响的值会使得它更加接近于零。

在TensorFlow中使用：

L2_loss = alpha * tf.norm(W,2) **2+ loss

L1 范数正则化

当我们定义时，变为如下形式：

这时使用的就是L1正则化（LASSO）:

从结果上来讲，增加L1 penalty会使得权重矩阵更加的稀疏(大部分的值为0)

在TensorFlow中使用：

L1_loss = alpha * tf.norm(W,1) + loss

Early Stopping

Early Stopping 也是深度学习过程之中常用的一种避免过拟合的方式。

如上图所示，当模型的容量足够大可以对训练任务进行过拟合的时候，一般随着训练的进行，training error是会平稳地下降的，但是validation error开始的时候会下降，但是到后期又会逐渐上升，这也就是说我们可以通过在validation error 较低的时候停止训练来得到一个泛化能力比较好的模型，这时的参数不是模型训练过程中最新的参数，而是在训练过程之中的某一套参数，这种策略叫做early stopping。

通过下图可以看出 Early Stopping 对于参数筛选的作用与使用Parameter Norm Penalties有时是类似的。左图是使用early stopping，右图是使用L2 norm。