《深度学习》第6章

努力在北京混出人样

发布于 2019-02-18 14:53:37

4360

发布于 2019-02-18 14:53:37

文章被收录于专栏：祥子的故事

chapter6

Deep Feedforward Networks

6.1-6.3节主要讲的是前向神经网络，前言主要讲为什么要用神经网络；6.1节举例说明线性的无法解释XOR学习，非线性的可以很好解释，引出神经网络的介绍；6.2节讲述基于梯度的学习；6.3节说的是隐藏层，主要是介绍不同的激活函数。

3层神经网络结构图

输入变量xx,经过一层层的传递 输出层:采用f(x;θ)f(x;\theta)来刻画。 输入层：f(1)f^{(1)} 隐藏层:f(2)f^{(2)} 输出层：f(3)f^{(3)}

函数经过复合后得到：f(x;θ)=f(3)(f(2)f(1)(x))f(x;\theta)=f^{(3)}(f^{(2)}f^{(1)}(x))

使用上面的复合函数来逼近f∗(x)f^{*}(x)

神经网络是非线性的，如何来描述呢？

类似于Logistic回归、线性回归是线性模型，有容易拟合、可靠、凸优化等性质，缺点在于任意两个变量之间缺乏交互的作用，无法阐述之间的联系。

如何将线性模型转化为非线性模型呢？这里使用一个非线性函数ϕ(x)\phi(x)对输入变量进行映射。下面关于ϕ(x)\phi(x)的选择有3个技巧：

kernel machine.问题是训练效果好，测试效果差；
采用手动调整的方式来学习ϕ(x)\phi(x)。
采用深度学习的策略来学习。模型：f(x;θ,ω)=ϕ(x;θ)Tωf(x;\theta,\omega)=\phi(x;\theta)^{T}\omega

6.1 XOR,简称异或

数学表达式：a⨂b=(¬a∩b)∪(a∩¬b)a \bigotimes b = (\neg a \cap b) \cup (a \cap \neg b)

特点是：a与b相同时，结果为0；a与b不同时结果为1。

X1	X2	结果
1	0	1
1	1	0
0	0	1
0	1	0

它的均方误（MSE）损失函数为：

J(θ)=14∑x∈X(f∗(x)−f(x;θ))2J(\theta) = \frac{1}{4} \sum_{x\in X} (f^{*}(x) - f(x;\theta))^{2}

坐标轴上的分布，左边是XOR的结果如果f(x;θ)f(x;\theta)是一个线性函数，表达式f(x;ω,b)=xT omega+bf(x;\omega , b) = x^{T} \ omega + b 。从左边的图知道，x1=0x1 = 0时，XOR结果随x2x2增加而增加；x1=1x1= 1时，XOR结果随x2x2增加而减少。显然线性的无法来表示。

6.2 基于梯度的学习：采用梯度的方法来对代价函数进行优化

代价函数

采用交叉熵来定义训练数据与模型的预测数据的代价函数。

交叉熵:

∑XPlogPQ\sum_{X} P log \frac {P} {Q}

用于评价P与Q的相似度

输出元

高斯元输出 sigmoid 元的伯努利分布 定义： y^=σ(ωTh+b)\hat{y} = \sigma (\omega^{T} h + b) σ(x)=11+exp(−x)\sigma (x) = \frac {1}{1 + exp(-x)} softmax

定义：z=WTh+ｂz = W^{T} h + ｂ softmax(z)i=｛zi｝∑jexp(zj)softmax(z)_{i} = \frac｛z_{i}｝ {\sum_{j} exp(z_{j})}

两边取对数后变换为： log(softmax(z)i)=zi−log(∑jexp(zj)) log(softmax(z)_{i}) = z_{i} - log(\sum_{j} exp(z_{j}))

6.3隐藏层：主要讲述了几种激活函数。定义：z=WTx+ｂz = W^{T} x +ｂ

g(z)=max0,zg(z) = max{0,z}
g(z)=σ(z)g(z) = \sigma (z)
g(z)=tanh(x)g(z) = tanh(x)
h=cos(Wx+ｂ)h = cos(Wx +ｂ)
radial basis function hi=exp(−1σ2i∥∥W:,i−x∥∥2)h_{i} = exp(-\frac{1}{\sigma_{i} ^{2}} \left \| W_{:,i} - x \right \| ^{2})
softpuls: g(a)=ζ(a)=log(1+ea)g(a) = \zeta (a) = log(1+e^{a})
hard tanh : g(a)=max(−1,min(1,a))g(a) = max(-1,min(1,a))

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2016年05月29日，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

神经网络

登录后参与评论

0 条评论

热度