逻辑回归

文章来源：企鹅号 - mchman

接上一章，细心的同学可能会发现，最小二乘法算误差，用的是点到直线的竖直距离，为什么不用垂直距离呢？

如果用了垂直距离，此时cost函数会发生变化，最终得到的a、b会有所不同，实际上用点到直线的距离用的更多一些，大家可以自己尝试一下

由此可见，对同样的数据集，用最小二乘法算误差（Cost function），可以拟合出一条直线；用点到直线的距离算误差，可以拟合出宁外一条直线；这2条直线哪条的效果更好？不知道，不同的数据分布特征有不同的答案（这就是为什么机器学习的可解释性查的原因）。在实际的应用中，进一步衍生出了SVM（计算边界距离），按照上面的思路去学习SVM一点也不难，也是宁外一种Cost function。

看到这里，估计你会有种感觉：机器学习的核心就是找到合适的Cost Function啊！是的，不仅要找出来，还要能尽量简单的能算出来。

可能还有宁外一个疑问，为什么要用最小二乘法来算误差呢？它一定是最好的吗？我也有这个疑问，到现在也没有完全释疑，网上有个说法我直接copy过来：

这篇文章在"WHY DO WE LOVE THE MSE?"中说，MSE：

1. 它简单。

2. 它提供了具有很好性质的相似度的度量。例如：

1）它是非负的;

2）唯一确定性。只有x=y的时候，d(x,y)=0；

3）它是对称的，即d(x,y)=d(y,x)；

4）符合三角性质。即d(x,z)

3. 物理性质明确，在不同的表示域变换后特性不变，例如帕萨瓦尔等式。

4. 便于计算。通常所推导得到的问题是凸问题，具有对称性，可导性。通常具有解析解，此外便于通过迭代的方式求解。

5. 和统计和估计理论具有关联。在某些假设下，统计意义上是最优的。

这段话比较重要，要细细理解，不然后面会看的有点糊涂：在线性回归中，Y的输出是连续型变量，假设前提是误差符合高斯分布，所以采用了最小二乘法作为损失函数。下面我们会看到，在一些分类问题中，由于Y的输出是离散型（0,1..），误差分布符合伯努利分布，所以损失函数换成了极大似然估计。这里面有几个知识点要自行baidu一下（伯努利分布、极大似然估计）

下面进入正题，逻辑回归

逻辑回归，虽然叫回归，但解决的实际是“分类”问题。常常说机器学习主要是用来做“分类”和“预测”，线性回归主要用来解决预测，输入x，输出y，x和y都是连续型变量。

对于分类问题，y并非是连续型变量，比如二分类问题，y的取值要么是0，要么是1，我们需要在此基础上引入一个函数，把ax+b映射到[0,1]这样的空间，于是就引入了logistic函数（也称为：sigmoid函数， relu函数也能起到类似作用）：

图形中的横左边是:θt*x

似然函数：

转换为对数：

损失函数：

利用前面的知识（最小二乘法分别对a和b求偏导）进行迭代训练，目标是让J(θ)的取值最小，J(θ)对每个θj求偏导数，然后进行梯度下降更新每个θj：

α为步长，是一个常数可自行设置，比如：0.5，xi是训练样本中的输入特征值，yi是人工标注值，取值为（0,1）

举例：根据睡眠、注意力、血压、反应来判断一个人是否是亚健康状态

traning-set：

按照上面的步骤，算一下θ0~θ4试试看：

θT*x=θ0+θ1*x1+θ2*x2+θ3*x3+θ4*x4

没有一个输入法能方便的输入数学公式，打公式太麻烦了，凑合看吧，欢迎反馈!

----逻辑回归很基础，也很重要，这里忽略了L1、L2正则化部分，因为无助于理解逻辑回归的核心原理，后续可以自行在补充。下一篇再讲讲softmax和交叉熵

发表于: 2018-05-282018-05-28 20:05:00
原文链接：https://kuaibao.qq.com/s/20180528G1NHX900?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

逻辑回归

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐