深度学习系列教程(八)TensorFlow 中的正则化方法

"玩转TensorFlow与深度学习模型”系列文字教程,本周带来TensorFlow 中的正则化方法!

大家在学习和实操过程中,有任何疑问都可以通过学院微信交流群进行提问,有导师和助教、大牛为您解惑答疑哦。(入群方式在文末

第八篇的教程主要介绍-TensorFlow 中的正则化方法,包括:

过拟合简介

常用正则化用法

过拟合介绍

在对正则化的方法进行介绍之前,首先解释以下什么是过拟合。过拟合(overfitting)一般是指模型能够在训练数据集上得到越来越好的结果,但是在测试数据上的表现反而变差的现象,导致这种现象发生的原因一般是模型结果过于复杂,使得模型能够很好地描述训练数据,但是却丧失了泛化能力,对于没有参加训练的数据存在较大的误差。对于过拟合,欠拟合和模型容量的关系可以参见下图。

常用正则化方法

机器学习与深度学习中的一个核心问题就是如何使得一个模型或者算法能够有较好的泛化能力,即除了训练数据,我们希望模型在新产生的数据上的表现也尽可能的好,深度学习中有很多算法目标在于降低模型的test error,不过付出的代价就是有可能使得training error有所上升。这类策略统一叫做正则化(Regularizations)。

Parameter Norm Penalties

假设原来的损失函数为:

现在定义新的损失函数

当表示范数的时候, 就叫做Parameter Norm Penalties,

Parameter Norm Penalties 是一类常见的简单的正则化方法,主要分为L1正则化和L2正则化两种。一般情况我们只选用权重的范数作为penalty,而不对偏置进行正则化。

范数的计算公式:

L2 范数正则化

如果取(二分之一L2范数的平方)则叫做L2范数正则化。对于权重进行求导可以得到:

在每一步梯度下降中可以得到:

可以看到在每一步对权重进行更新的时候会对权重乘上一个小于1的常数。因此这种方法也叫做weight decay 。

L2 范数正则化的意义如下图所示:

假设w有两个元素w1,w2,虚线是,实线是,为使得J取得最小值的w,为使得最小的w的取值。可以看到,J对于w在垂直方向上的移动更为敏感(梯度更大),而在水平方向上则没有那么敏感,从结果上来说 ,L2正则化对于对梯度影响较大的值的影响较小,对于对梯度没有太大影响的值会使得它更加接近于零。

在TensorFlow中使用:

L2_loss = alpha * tf.norm(W,2) **2+ loss

L1 范数正则化

当我们定义时,变为如下形式:

这时使用的就是L1正则化(LASSO):

从结果上来讲,增加L1 penalty会使得权重矩阵更加的稀疏(大部分的值为0)

在TensorFlow中使用:

L1_loss = alpha * tf.norm(W,1) + loss

Early Stopping

Early Stopping 也是深度学习过程之中常用的一种避免过拟合的方式。

如上图所示,当模型的容量足够大可以对训练任务进行过拟合的时候,一般随着训练的进行,training error是会平稳地下降的,但是validation error开始的时候会下降,但是到后期又会逐渐上升,这也就是说我们可以通过在validation error 较低的时候停止训练来得到一个泛化能力比较好的模型,这时的参数不是模型训练过程中最新的参数,而是在训练过程之中的某一套参数,这种策略叫做early stopping。

通过下图可以看出 Early Stopping 对于参数筛选的作用与使用Parameter Norm Penalties有时是类似的。左图是使用early stopping,右图是使用L2 norm。

Dropout

dropout 可以看作是同时训练多个模型,这看起来是个不可能完成的任务,因为每个模型都是一个大型的神经网络,训练和测试模型都十分的耗费资源,dropout提供了一种能够在不耗费过多资源的情况下近似训练和使用成指数级个模型的方法。

具体步骤如下:

梯度下降的过程中对于每一个mini-batch,我们对输入和隐含层中的每个单元根据预先设置好的概率进行随机抽样,生成掩码,掩码为1则保留,为0则舍去;

训练完成后将权重乘以保留单元的概率p,或者在训练过程中将每个单元的输出乘以1/p,进行训练;

最终使用模型的时候使用整个网络,不进行dropout。

dropout 网络示意图,一个简单的网络可以看作是有多个子网络构成的:

TensorFlow中使用Dropout:

TensorFlow在使用的时候已经对训练过程中的输出进行了放缩,所以不需要额外地进行处理了,x是dropout层的输入,p是每个单元保留的概率,注意仅仅在训练过程中使用dropout,在使用模型的时候要将p设置为1.,表示全部都进行保留,即不使用dropout。

本文来自企鹅号 - 天学网人工智能学院媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏智能算法

入门 | 一文简述深度学习优化方法----梯度下降

从很大程度上来说,深度学习实际上是在解决大量烦人的优化问题。神经网络仅仅是一个非常复杂的函数,包含数百万个参数,这些参数代表的是一个问题的数学解答。以图像分类为...

1323
来自专栏技术翻译

用数学方法解密神经网络

在本文中,我们将讨论简单神经网络背后的数学概念。其主要目的是说明在建立我们自己的人工智能模型时,数学是如何发挥巨大作用的。

1250
来自专栏智能算法

结合Scikit-learn介绍几种常用的特征选择方法(上)

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型...

8596
来自专栏大数据挖掘DT机器学习

线性判别分析LDA(Linear Discriminant Analysis)

1. 问题 之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟...

4544
来自专栏数据科学与人工智能

【算法】随机梯度算法

小编邀请您,先思考: 1 随机梯度下降算法怎么理解? 2 随机梯度下降算法有哪些变体? ? 随机梯度下降算法是深度学习中最常用的算法。算法就是不停地寻找某个节点...

42314
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 6 - 解锁梯度下降算法

上一篇 5 TF轻松搞定线性回归,我们知道了模型参数训练的方向是由梯度下降算法指导的,并使用TF的封装tf.train.GradientDescentOpti...

4236
来自专栏机器学习算法工程师

一文看懂常用的梯度下降算法

作者:叶 虎 编辑:祝鑫泉 一 概述 梯度下降算法(Gradient Descent Optimization)是神经网络模型训练最常用的优化算法。对于深...

44210
来自专栏大数据挖掘DT机器学习

机器学习中防止过拟合的处理方法

我们都知道,在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independently and...

3355
来自专栏企鹅号快讯

神经网络模型求解思路总结

《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来...

2188
来自专栏机器之心

Dropout可能要换了,Hinton等研究者提出神似剪枝的Targeted Dropout

作者:Aidan N. Gomez、Ivan Zhang、Kevin Swersky、Yarin Gal、Geoffrey E. Hinton

781

扫码关注云+社区