原文链接:https://juejin.im/post/5d46816e51882560b9544ac1
我们以房价预测的案例来说明一下,把房屋的面积作为神经网络的输入(我们称之为?),通过一个节点(一个小圆圈),最终输出了价格(我们用?表示)。其实这个小圆圈就是一个单独的神经元,就像人的大脑神经元一样。如果这是一个单神经元网络,不管规模大小,它正是通过把这些单个神经元叠加在一起来形成。如果你把这些神经元想象成单独的乐高积木,你就通过搭积木来完成一个更大的神经网络。
神经网络与大脑关联不大。这是一个过度简化的对比,把一个神经网络的逻辑单元和右边的生物神经元对比。至今为止其实连神经科学家们都很难解释,究竟一个神经元能做什么。
这要从逻辑回归讲起,我们都知道逻辑回归的目标函数如下所示:
z=θ0+θ1X1+θ2X2z=\theta_0+\theta_1X_1+\theta_2X_2z=θ0+θ1X1+θ2X2
a=g(z)=11+e−za=g(z)=\frac{1}{1+e^{-z}}a=g(z)=1+e−z1
我们用网络来表示,这个网络就叫做感知器:
如果在这个感知器的基础上加上隐藏层,就会得到下面我们要说的神经网络结构了。
神经网络的一般结构是由输入层、隐藏层(神经元)、输出层构成的。隐藏层可以是1层或者多层叠加,层与层之间是相互连接的,如下图所示。
一般说到神经网络的层数是这样计算的,输入层不算,从隐藏层开始一直到输出层,一共有几层就代表着这是一个几层的神经网络,例如上图就是一个三层结构的神经网络。
**解释隐藏层的含义:**在一个神经网络中,当你使用监督学习训练它的时候,训练集包含了输入?也包含了目标输出?,所以术语隐藏层的含义是在训练集中,这些中间结点的准确值我们是不知道到的,也就是说你看不见它们在训练集中应具有的值。
假设对下图进行分类,圆圈为一类,红叉叉为另一类,如果用线性切分的话无论如何都不能把它们进行分开。
这时,引入神经网络(2层神经网络),包含一个隐藏层,在隐藏层中,分别得到了P1和P2的图形,P1这条线以上的部分都是红叉叉,P2这条线以下的部分都是红叉叉,两个神经元就有2条线性直线。从隐藏层到输出层要做的事情就是把这两条直线给合并起来,就会得到h(x)的图形,也就是说P1以上的空间交上P2以下的空间就是红叉叉的分类,其余空间分类为圆圈。这就使得原本不能够线性切分变成非线性切分了。
如果隐藏层更加复杂的话,就能够完美的实现复杂平面样本点分布的划分(类似于抠图),如下图所示:
如下图所示。用圆圈表示神经网络的计算单元,逻辑回归的计算有两个步骤,首先你按步骤计算出?,然后在第二 步中你以 sigmoid 函数为激活函数计算?(得出?),一个神经网络只是这样子做了好多次重复计算。
其中的一个神经元计算如下图所示:
向量化计算,如果你执行神经网络的程序,用 for 循环来做这些看起来真的很低效。所以接下来我们要做的就是把这四个等式向量化。向量化的过程是将神经网络中的一层神经元参数纵向堆积起来,例如隐藏层中的?纵向堆积起来变成一个(4,3)的矩阵,用符号?[1]表示。另一个看待这个的方法是我们有四个逻辑回归单元,且每一个逻辑回归单元都有相对应的参数——向量?,把这四个向量堆积在一起,你会得出这 4×3 的矩阵。
上面公式表示的是一个样本的向量化计算,那么多样本向量化计算其实就是在上面公式的基础上再增列数,每一列相当于一个样本。
在神经⽹络中,通常需要随机初始化模型参数。下⾯我们来解释这样做的原因。
假设输出层只保留⼀个输出单元o1(删去o2和o3以及指向它们的箭头),且隐藏层使⽤相同的激活函数。如果将每个隐藏单元的参数都初始化为相等的值,那么在正向传播时每个隐藏单元将根据相同的输⼊计算出相同的值, 并传递⾄输出层。在反向传播中,每个隐藏单元的参数梯度值相等。因此,这些参数在使⽤基于梯度的优化算法迭代后值依然相等。之后的迭代也是如此。
在这种情况下,⽆论隐藏单元有多少, 隐藏层本质上只有1个隐藏单元在发挥作⽤。因此,正如在前⾯的实验中所做的那样,我们通常将神经⽹络的模型参数,特别是权重参数,进⾏随机初始化。
有两种初始化方法:
在隐层接一个线性变换后 ,再接一个非线性变换(如sigmoid),这个非线性变换叫做传递函数或者激活函数。上面的例子用的都是逻辑回归的Sigmoid激活函数,如果还不明白激活函数在哪,可以看下面这幅图。
a=g(z)=11+e−za=g(z)=\frac{1}{1+e^{-z}}a=g(z)=1+e−z1 g(z)′=ddzg(z)=α(1−α)g(z)^{'}=\frac{d}{dz}g(z)=\alpha(1-\alpha)g(z)′=dzdg(z)=α(1−α)
a=g(z)=tanh(z)=ez−e−zez+e−za=g(z)=tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}a=g(z)=tanh(z)=ez+e−zez−e−z g(z)′=ddzg(z)=1−(tanh(z))2g(z)^{'}=\frac{d}{dz}g(z)=1-(tanh(z))^2g(z)′=dzdg(z)=1−(tanh(z))2 sigmoid函数和tanh函数两者共同的缺点是,在?特别大或者特别小的情况下,导数的梯度或者函数的斜率会变得特别小,最后就会接近于 0,导致降低梯度下降的速度。
a=max(0,z)a=max(0,z)a=max(0,z) g(x)′={0ifz<01ifz>0undefinedifz=0 g(x){'}=\left\{ \begin{aligned} 0 & & if z < 0 \\ 1 & & if z > 0 \\ undefined & & if z =0 \end{aligned} \right. g(x)′=⎩⎪⎨⎪⎧01undefinedifz<0ifz>0ifz=0 这有一些选择激活函数的经验法则: 如果输出是 0、1 值(二分类问题),则输出层选择 sigmoid 函数,然后其它的所有单 元都选择 Relu 函数。
之前,我们的激活函数都是接受单行数值输入,例如 Sigmoid 和 ReLu 激活函数,输入一个实数,输出一个实数。Softmax 激活函数的特殊之处在于,因为需要将所有可能的输出归一化,就需要输入一个向量,最后输出一个向量。 hardmax 函数会观察?的元素,然后在?中最大元素的位置放上 1,其它位置放上 0,Softmax 所做的从?到这些概率的映射更为温和。 Softmax 回归将 logistic 回归推广到了两种分类以上。
如果你使用线性激活函数或者没有使用一个激活函数,那么无论你的神经网络有多少层一直在做的只是计算线性函数,所以不如直接去掉全部隐藏层。在我们的简明案例中,事实证明如果你在隐藏层用线性激活函数,在输出层用 sigmoid 函数,那么这个模型的复杂度和没有任何隐藏层。的标准 Logistic 回归是一样的。
在这里线性隐层一点用也没有,因为这两个线性函数的组合本身就是线性函数,所以除非你引入非线性,否则你无法计算更有趣的函数,即使你的网络层数再多也不行。
正向传播(forward-propagation)是指对神经网络沿着从输入层到输出层的顺序,依次计算并存储模型的中间变量(包括输出)。
逻辑回归的计算步骤:所以回想当时我们讨论逻辑回归的时候,我们有这个正向传播步骤,其中我们计算?,然后?,然后损失函数?。 正向传播类似,计算z[1]z^{[1]}z[1],a[1]a^{[1]}a[1],再计算z[2]z^{[2]}z[2],a[2]a^{[2]}a[2],最后得到loss function。
xwb}⇒z=wTx+b⇒a=σ(z)⇒L(a,y) \left. \begin{aligned} x \\ w \\ b \end{aligned} \right\}\Rightarrow{z}=w^Tx+b\Rightarrow{a=\sigma(z)}\Rightarrow{L(a,y)}xwb⎭⎪⎬⎪⎫⇒z=wTx+b⇒a=σ(z)⇒L(a,y)
反向传播(back-propagation)指的是计算神经网络参数梯度的方法。总的来说,反向传播依据微积分中的链式法则,沿着从输出层到输入层的顺序,依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。
由正向传播经过所有的隐藏层到达输出层,会得到一个输出结果OLO_LOL,然后根据这个OLO_LOL带入loss funcation中,利用SGD算法进行最优化求解,其中每次梯度下降都会使用一次BP来更新各个网络层中的参数值,这就是BP回传误差的意思。
你可以把训练集分割为小一点的子集训练,这些子集被取名为 mini-batch,假设每一个子集中只有 1000 个样本,那么把其中的? (1)到? (1000)取出来,将其称为第一个子训练集,也叫做 mini-batch,然后你再取出接下来的 1000 个样本,从? (1001)到? (2000),然后再取 1000个样本,以此类推。
在训练集上运行 mini-batch 梯度下降法,你运行 for t=1……5000,因为我们有5000个各有 1000 个样本的组,在 for 循环里你要做得基本就是对? {?}和? {?}执行一步梯度下降法。
其中1<n<m,m表示整个训练集大小。
优缺点:
首先,如果训练集较小,直接使用 batch 梯度下降法,这里的少是说小于 2000 个样本。一般的 mini-batch 大小为 64 到 512,考虑到电脑内存设置和使用的方式,如果 mini-batch 大小是 2 的?次方,代码会运行地快一些。
端到端学习(end-to-end)是一种解决问题的思路,与之对应的是多步骤解决问题,也就是将一个问题拆分为多个步骤分步解决,而端到端是由输入端的数据直接得到输出端的结果。
就是不要预处理和特征提取,直接把原始数据扔进去得到最终结果。
特征提取包含在神经网络内部,所以说神经网络是端到端的网络。
优点:
通过缩减人工预处理和后续处理,尽可能使模型从原始输入到最终输出,给模型更多可以根据数据自动调节的空间,增加模型的整体契合度。
缺点
现有的深度学习开源平台主要有 Caffe, PyTorch, MXNet, CNTK, Theano, TensorFlow, Keras, fastai等。
平台 | 优点 | 缺点 |
---|---|---|
TensorFlow | 1.功能很齐全,能够搭建的网络更丰富。2.支持多种编程语言。3.拥有强大的计算集群。4.谷歌支持5.社区活跃度高。6.支持多GPU。7.TensorBoard支持图形可视化。 | 1.编程入门难度较大。2.计算图是纯 Python 的,因此速度较慢3.图构造是静态的,意味着图必须先被「编译」再运行 |
Keras | 1.Keras是TensorFlow高级集成APi2.Keras是一个简洁的API。 可以快速帮助您创建应用程序。3.代码更加可读和简洁。4.Keras处于高度集成框架。 5.社区活跃。 | 1.Keras框架环境配置比其他底层框架要复杂一些。2.虽然更容易创建模型,但是面对复杂的网络结构时可能不如TensorFlow。3.性能方面比较欠缺。 |
Pytorch | 1.它可以在流程中更改体系结构。2.训练神经网络的过程简单明了。3.可以使用标准 Python 语法编写 for 循环语句。4.大量预训练模型 | 1.不够TensorFlow全面,不过未来会弥补。2.PyTorch部署移动端不是很好。 |
MXNet | 1.支持多语言。2.文档齐全。3.支持多个GPU。4.清晰且易于维护的代码。5.命令式和符号式编程风格之间进行选择。 | 1.不被广泛使用。2.社区不够活跃。3.学习难度大一些。 |
目前从招聘来说,公司使用TensorFlow的占大多数,毕竟TensorFlow的社区、性能、部署方面都是很强的,所以之后写的实例代码都使用TensorFlow来完成。
在图像分类的情景中,softmax分类器输出可以是一个图像类别的离散值,和线性回归不同的是,softmax输出单元从一个变成了多个。
softmax回归和线性回归一样将输入特征与权重做线性叠加。与线性回归的一个主要不同在于,**softmax回归的输出值个数等于标签里的类别数。**下图是用神经网络描绘了softmax回归,也是一个单层神经网络,由于每个输出 o1,o2,o3o_1,o_2,o_3o1,o2,o3 的计算都要依赖于所有的输入 x1,x2,x3,x4x_1,x_2,x_3,x_4x1,x2,x3,x4 ,softmax回归的输出层也是一个全连接层。
o1=x1w11+x2w21+x3w31+x4w41o_1=x_1w_{11}+x_2w_{21}+x_3w_{31}+x_4w_{41}o1=x1w11+x2w21+x3w31+x4w41
o2=x1w12+x2w22+x3w32+x4w42o_2=x_1w_{12}+x_2w_{22}+x_3w_{32}+x_4w_{42}o2=x1w12+x2w22+x3w32+x4w42
o3=x1w13+x2w23+x3w33+x4w43o_3=x_1w_{13}+x_2w_{23}+x_3w_{33}+x_4w_{43}o3=x1w13+x2w23+x3w33+x4w43
o4=x1w14+x2w24+x3w34+x4w44o_4=x_1w_{14}+x_2w_{24}+x_3w_{34}+x_4w_{44}o4=x1w14+x2w24+x3w34+x4w44
一个简单的办法是将输出值 oio_ioi 当做预测类别是i的置信度,并将值最大的输出所对应的类别作为预测输出。例如,如果 o1,o2,o3o_1,o_2,o_3o1,o2,o3 分别为0.1 ; 10 ; 0.1,由于 o2o_2o2 最大,那么预测类别为2。
然而,直接使用输出层的输出会有两个问题:
softmax运算解决了以上两个问题。它通过下面的公式将输出值变换成值为正且和为1的概率分布:
softmax(oi)=exp(oi)∑i=1nexp(oi)softmax(o_i)=\frac{exp(o_i)}{\sum_{i=1}^{n}exp(o_i)}softmax(oi)=∑i=1nexp(oi)exp(oi)
我们已经知道,softmax运算将输出变换成一个合法的类别预测分布。实际上,真实标签也可以用类别分布表达:
对于样本i,我们构造向量 y(i)∈Rqy^{(i)}\in_{}R^qy(i)∈Rq ,使其第 y(i)y^{(i)}y(i) 个元素为1,其余为0。这样我们的训练目标可以设为使预测概率分布 y^(i)\hat{y}^{(i)}y^(i) 尽可能接近真实的标签概率 y(i)y^{(i)}y(i)。
想要预测分类结果正确,我们其实并不需要预测概率完全等于标签概率,而平方损失则过于严格。改善这个问题的一个方法是使用更适合衡量两个概率分布差异的测量函数。其中,交叉熵(cross entropy)是一个常用的衡量方法:
H(y(i),y^(i))=−∑j=1qyj(i)logy^j(i)=−logy^y(i)(i)H(y^{(i)},\hat{y}^{(i)})=-\sum_{j=1}^{q}y_j^{(i)}log{\hat{y}}_j^{(i)}=-log{\hat{y}}_{y^{(i)}}^{(i)}H(y(i),y^(i))=−j=1∑qyj(i)logy^j(i)=−logy^y(i)(i)
其中带下标的 yj(i)y_j^{(i)}yj(i) 是向量 y(i)y^{(i)}y(i) 中非 0 即 1 的元素。也就是说,交叉熵只关心对正确类别的预测概率,因为只要其值足够大,就可以确保分类结果正确。即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。
作者:@mantchs GitHub:https://github.com/NLP-LOVE/ML-NLP