深度学习—带动量的SGD相关参数

带动量的sgd如下图所示:

image.png

一、weight decay(权值衰减)的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度,其最终目的是防止过拟合。在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。 二、momentum是梯度下降法中一种常用的加速技术。对于一般的SGD,其表达式为 w=w-alph*f'(x)(梯度)沿负梯度方向下降。而带momentum项的SGD则写生如下形式:

image.png

x=x+v

其中beta即momentum系数,通俗的理解上面式子就是,如果上一次的momentum

与这一次的负梯度方向是相同的,那这次下降的幅度就会加大,所以这样做能够达到加速收敛的过程。 三、normalization batch normalization的是指在神经网络中激活函数的前面 按照特征进行normalization,这样做的好处有三点: 1、提高梯度在网络中的流动。Normalization能够使特征全部缩放到[0,1],这样在反向传播时候的梯度都是在1左右,避免了梯度消失现象。 2、提升学习速率。归一化后的数据能够快速的达到收敛。 3、减少模型训练对初始化的依赖。

基于128D匹配求解的人脸识别 在数据量增大时,如何优化时间: 是不是可以对库内的数据进行排序。。。排序后的结果呈现一定的规律!使新的数据到来时可以较快地确定其在数据库接近数据的位置,这样可以节省运算时间。在可能的范围内进行检索匹配。 或是以随机的方式进行查找,在查找到一个时,向上向下继续搜索 具有一定的方向性,从而找到一个局部最优解或是一个较优解,并给出结论。 部分转自知乎:作者:陈永志 链接:https://www.zhihu.com/question/24529483/answer/114711446

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习自然语言处理

【机器学习】今天想跟大家聊聊SVM

之前我在自己的简书上写过SVM,可是当时写的只是皮毛(主要是现在忘了O.O),那么现在想再次拾起的原因是什么呢?

1113
来自专栏AI深度学习求索

目标检测(CVPR2017):Feature Pyramid Networks

(a)使用图像金字塔构建特征金字塔网络:每个图像尺度上的特征都是独立计算的,速度缓慢。

1953
来自专栏量子位

图像分类入门,轻松拿下90%准确率 | 教你用Keras搞定Fashion-MNIST

这篇教程会介绍如何用TensorFlow里的tf.keras函数,对Fashion-MNIST数据集进行图像分类。

4381
来自专栏AILearning

【Scikit-Learn 中文文档】新异类和异常值检测 - 无监督学习 - 用户指南 | ApacheCN

中文文档: http://sklearn.apachecn.org/cn/stable/modules/outlier_detection.html 英文文...

9747
来自专栏人工智能

基于TensorFlow生成抽象纹理

来源:otoro 编译:weakish 编者按:Google Brain机器学习开发者hardmu使用TensorFlow,基于CPPN网络生成了许多有趣的高分...

5648
来自专栏深度学习与数据挖掘实战

数据科学家工具箱|xgboost原理以及应用详解

作者:雪伦_

1692
来自专栏DT乱“码”

TensorFlow实现卷积神经网络

1.卷积神经网络简介 卷积神经网络(convolutional neural network, CNN),最早是19世纪60年代,生物学家对猫视觉皮层研究发...

3129
来自专栏深度学习自然语言处理

机器学习之多层感知机理论与实践

阅读大概需要10分钟 作者 Lefteris 翻译 bluepomelo 编辑 zenRRan 有修改 原文链接 http://blog.refu.co/?p=...

4724
来自专栏SeanCheney的专栏

《Scikit-Learn与TensorFlow机器学习实用指南》 第13章 卷积神经网络

(第一部分 机器学习基础) 第01章 机器学习概览 第02章 一个完整的机器学习项目(上) 第02章 一个完整的机器学习项目(下) 第03章 分类 第...

891
来自专栏机器之心

教程 | 用数据玩点花样!如何构建skim-gram模型来训练和可视化词向量

4386

扫码关注云+社区

领取腾讯云代金券