从线性分类器到卷积神经网络

前言本文涉及的分类器(分类方法)有:线性回归逻辑回归(即神经元模型)神经网络(NN)支持向量机(SVM)卷积神经网络(CNN)从神经元的角度来看,上述分类器都可以看成神经元的一部分或者神经元组成的网络结构。各分类器简述逻辑回归说逻辑回归之前需要简述一下线性回归。

图1单变量的线性回归图1中描述了一个单变量的线性回归模型:蓝点代表自变量x的分布——显然x呈现线性分布。于是我们可以用下面的式子对其进行拟合,即我们的目标函数可以写成:从单变量到多变量模型,需要将变成向量,同时权重也需要变成向量。而一般线性回归的损失函数会用欧氏距离来进行衡量,即常说的最小二乘法,单个样本的损失函数可以写成:而逻辑回归,可以简单理解成线性回归的结果加上了一个sigmoid函数。

图2sigmoid函数图像从本质上来说,加上sigmoid函数的目的在于能够将函数输出的值域从映射到之间,于是可以说逻辑回归的输出能够代表一个事件发生的概率。逻辑分类的目标函数和单样本损失函数是:这里为何要使用一个复杂的损失函数这构造了一个凸函数,而如果直接使用最小二乘进行定义,损失函数会变成非凸函数。实际上逻辑回归模型虽然名字带有回归,实际上一般用于二分类问题。

图3逻辑回归模型,即单个的神经元模型神经网络(NeuralNetwork,简称NN)逻辑回归的决策平面是线性的,所以,它一般只能够解决样本是线性可分的情况。如果样本呈现非线性的时候,我们可以引入多项式回归。

图4多项式回归解决样本线性不可分的情况,图片来自AndrewNg的MachineLearning课程的课件其实,多项式回归也可以看成是线性回归或者逻辑回归的一个特例——将线性回归或者逻辑回归的特征转化为等非线性的特征组合,然后对其进行线性的拟合。

图5带一个隐层的神经网络模型如图5所示,每个圆圈都是一个神经元(或者说是一个逻辑回归模型)。所以神经网络可以看成“线性组合-非线性激活函数-线性组合-非线性激活函数…”这样的较为复杂网络结构,它的决策面是复杂的,于是能够适应样本非线性可分的情况。另一方面,图5中中间一列的橙色神经元构成的层次我们成为隐层。

图6L-SVM本质上是最大分类间隔的线性分类器同为线性分类器的拓展,逻辑回归和L-SVM有着千丝万缕的关系,AndrewNg的课件有一张图很清晰地把这两者的代价函数联系起来了(见图7)。

图7L-SVM和逻辑回归的代价函数对比,SVM的有一个明显的转折点由于L-SVM是线性分类器,所以不能解决样本线性不可分的问题。于是后来人们引入了核函数的概念,于是得到了K-SVM(K是Kernel的意思)。从本质上讲,核函数是用于将原始特征映射到高维的特征空间中去,并认为在高为特征空间中能够实现线性可分。

图8Kernel能够对特征进行非线性映射(图片frompluskid)SVM比起神经网络有着以下的优点:代价函数是凸函数,存在全局最优值。

图9LeNet5的网络结构示意图图中的Convolutions对应了上一段说的S-元,Subsampling对应了上一段中说的C-元。对于Convolution层的每个神经元,它们的权值都是共享的,这样做的好处是大大减少了神经网络的参数个数。对于Sampling层的每个神经元,它们是上一层Convolution层的局部范围的均值(或者最大值),能够有效地提供局部的平移和旋转不变性。

图11deconvnet的思想是将网络的输出还原成输入CNN样例3DeepPoseDeepPose的贡献在于它对CNN使用了级联的思想:首先,可以用第一层CNN大致定位出人物的关节位置,然后使用反复使用第二层神经网络对第一层网络进行微调,以达到精细定位的目的。从另外一个角度,这个工作也说明了,CNN不仅能够应付分类问题,也能够应付定位的问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180914A0QXR000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券