趣谈深度学习核心----激活函数

作者:詹晓辉

编辑:王抒伟

当你在苦扒图像处理方法得时候

他在用深度学习

当你在干瞪切片像素得时候

他在用深度学习

当你在愁思小偷是谁得时候

他在用深度学习

当你拥堵在北二环得时候

。。。

现在来扒扒深度学习网络心脏

激活函数

全篇概述:

深度学习在训练的过程中常常要用到激活函数

“说,目的是啥?”

“目的是为了让多层网络之间进行非线性变换”

“如果不用呢?”

“不用的话,多层的线性网络的表达能力与单层网络的表达能力是一样的,要不就没意思了”

TA 说:

在使用tensorflow的过程中我发现它提供了以下几个函数: sigmoid、tanh、elu、relu等。

“还等啥啊,赶紧给我讲”

听老衲给施主絮絮叨叨、

咱竹板这么一打啊,别的咱不夸,夸一夸激活函数呐!

函数一: sigmoid

分析:

从图像中我们可以看出当我们输入的数据非常小或非常大时它的值是0或者1那么它的梯度很小趋近于0。

在反向传播中,这个局部梯度会与整个代价函数关于该单元输出的梯度相乘,结果会接近为 0。此时相当于没有信号传到神经元,权重不会更新。

还有一个问题是:sigmoid的值总是为正值。

如果输入都是正值那么梯度总为正或负这会导致训练的时候呈现Z字形梯度下降。

函数二:Tanh

双曲正切tanh读作/tæntʃ/

有着对比精神,可以看到tanh函数其实是sigmoid函数的变形

同样的tanh函数也存在饱和的问题,不过tanh函数的值经过原点

并且函数值在(-1,1)之间的不同于sigmoid值总是为正值或负值

函数三:Relu

Relu(Rectified Linear Units)读 /'relju/

f(u) = max ( 0, u )

可以看到反向传播的时候梯度要么是0要么不变,所以梯度衰减很小,经过很多层也不会减弱.收敛的速度会比tanh和sigmoid快。

不过有个缺点是当x<0时 f '(x)=0 (z) (这里是导函数为零)所有负梯度到这都变成0,且这个神经元有可能再也不被激活,神经元的梯度永远都是0.

函数四:Elu

Elu函数是sigmoid和relu的结合体。

当x<0时,跟relu不一样的函数值趋近于-1,使elu能够对输入具有更强的鲁棒性

当下x>0时线性部分能够缓解梯度消失,Elu的输出均值是接近于0的,因此它的收敛会更快。

本文函数都是深度学习常用的激活函数当然还有其它的,大家可以维基百科!

原文发布于微信公众号 - 机器学习算法全栈工程师(Jeemy110)

原文发表时间:2017-09-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

黑猿大叔-译文 | TensorFlow实现Batch Normalization

原文:Implementing Batch Normalization in Tensorflow(https://r2rt.com/implementing-...

4768
来自专栏ACM算法日常

第十二篇:《机器学习之神经网络(实战篇)》

774
来自专栏Petrichor的专栏

深度学习: Faster R-CNN 网络

网络结构有两种,一种是将ZFNet(扔掉了尾端的全连接层)拿来用,另一种则是将VGG拿来用(扔掉了尾端的全连接层)。论文中给出的是第一种(绿框内为拿来用的那部分...

4094
来自专栏技术随笔

深度学习 — 反向传播(BP)理论推导"BP" Math Principle前向传播反向传播应用实例Reference

4766
来自专栏CVer

风格迁移三部曲(一)之普通风格迁移

风格迁移(Style Transfer)是一个很有意思的任务,通过风格迁移可以使一张图片保持本身内容大致不变的情况下呈现出另外一张图片的风格。风格迁移三步曲将绍...

1220
来自专栏专知

理解多层CNN中转置卷积的反向传播(附代码)

1K2
来自专栏TensorFlow从0到N

【译】TensorFlow实现Batch Normalization

原文:Implementing Batch Normalization in Tensorflow 来源:R2RT 译者注:本文基于一个最基础的全连接...

6896
来自专栏Bingo的深度学习杂货店

使用Keras实现生成式对抗网络GAN

生成式对抗网络(GAN)自2014年提出以来已经成为最受欢迎的生成模型。本文借鉴机器之心对 2014 GAN 论文的解读,在本机运行该Keras项目。 传送门:...

6254
来自专栏决胜机器学习

机器学习(十一) ——神经网络基础

机器学习(十一)——神经网络基础 (原创内容,转载请注明来源,谢谢) 一、概述 神经网络,可以理解为输入的内容,经过一系列的内部的处理,得到输出的假设函数。简...

3636
来自专栏人工智能

深入机器学习系列12-高斯混合模型

高斯混合模型   现有的高斯模型有单高斯模型()和高斯混合模型()两种。从几何上讲,单高斯分布模型在二维空间上近似于椭圆,在三维空间上近似于椭球。在很多情况下,...

2329

扫码关注云+社区