线性回归的函数如下:
逻辑回归则是通过对线性回归做次转换,来达到目的。其公式如下:
为什么需要转换函数? 转换函数的主要作用是提供一种非线性的建模能力。如果没有转换函数,那么Logistic Regression就变成了仅能够表达线性映射的Linear Regression,此时即便有再多的隐藏层,其整个网络跟单层神经网络也是等价的。
转换函数的性质?
从目前来看,常见的转换函数多是分段线性和具有指数形状的非线性函数。常用的转换函数有三种:
线性回归单变量的损失函数是所有点到线的距离(欧式距离)之和,我们只要找出最小化该距离的w和b即可:
我们将E分别对w和b求导,得到:
另令上述两个式子为0,即可求出w和b的最优解:
更一般的情况是样本由d个属性描述,也就是多元线性回归。此时w是一个向量,我们可以把b放入w中统一考虑。那么此时的损失函数为:
将E对w求导:
同样的,令上述式子为0可得:
实际中{ X }^{ T }X经常不是可逆矩阵,此时可以得到多个w都可使得损失函数最小,选择哪个为输出由机器学习算法的归纳偏好决定。
啰啰嗦嗦讲了一大堆线性回归损失函数的一系列求解过程。如果我们用同样的求解欧式距离的方式作为逻辑回归的损失函数,行不行? 假设我们用sigmoid转换函数:
由于f(x)是一个非线性函数,导致{ E }_{ (w,b) }不是一个凸函数,存在很多极小值点,我们并不能保证它会收敛到全局最小值。
既然欧式距离不行,那有没有其他的式子可以?在说出逻辑回归的损失函数之前,我们先聊下最大似然估计。 先举例解释下最大似然估计:假设有两个外形一样的箱子,第一个箱子中有99个白球和1个黑球,第二个箱子中有99个黑球和1个白球。从箱子中拿出一个白球,问这个白球是从那个箱子中拿出的? 人们的第一印象是该球最像从第一个箱子取出的,这个推断符合人们的经验认识。“最像”就是“最大似然”之意,这种想法就是最大似然原理。
最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
<font color=red>重要前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件),且有充分的训练样本。</font>
假设有个数据集:
似然函数(linkehood function):联合概率密度函数P(D|\theta )称为相对于D的θ的似然函数。
极大似然估计就是求使得出现该组样本的概率最大的θ值:
实际中为了便于分析,定义了对数似然函数:
我们知道逻辑回归的函数式如下:
转化后为:
若将y视为类后验概率,则上述式子可重写为:
于是我们可以通过极大似然法估计w和b。给定数据集,对率回归模型最大化对数似然估计:
即令每个样本属于其真实值标记的概率越大越好。令\beta =(w,b),\chi =(x;1),则{ w }^{ T }x+b可简写为{ \beta }^{ T }\chi 。对应到我们的逻辑回归则只有这两种情况{ p }{ 1 }(\chi ;\beta )={ p }(y=1|\chi ;\beta ),{ p }{ 0 }(\chi ;\beta )={ p }(y=0|\chi ;\beta )=1-{ p }_{ 1 }(\chi ;\beta )。则上述的似然项可重写为:
因此最大化l(w,b)等价于最小化下面的式子:
因此逻辑回归的损失函数如下:
稍微解释下:当y=1时,如果此时f(x)=1,则单对这个样本而言的cost=0,表示这个样本的预测完全准确。那如果所有样本都预测准确,总的cost=0,达到了最优值。但是如果此时预测的概率f(x)=0,那么cost→∞,也就是此处的w和b对cost函数来说是一个很大的惩罚项。 当y=0时,推理过程跟上述完全一致,不再解释。
1、https://blog.csdn.net/u014595019/article/details/52562159 2、https://blog.csdn.net/zengxiantao1994/article/details/72787849