统计学习之逻辑回归

文章来源：企鹅号 - R软件与生态学数据分析

又是一个月左右没写了，没别的，除了忙就是累，毕竟是业余爱好，现在接着进行统计学习的分类数据处理，首先是逻辑回归。

上一章的内容是关于线性回归定量分析的内容，但在很多情况下，响应变量 Y 属于定性数据，本章节的内容则是关于定性数据的分析，主要是三种流行的分析方法，分别为：逻辑回归（logistic regression），线性判别分析(linear discriminant analysis)，K 最临近算法（K-nearest neighbors）。

这个很好理解，我们举例说明就可以了，假定观测值也即观测值有三种，分别为：obs1，obs2以及obs3。我们可以将其解码为定量变量处理：

但是这种方法有一个顺序的问题，即我可以按照其他顺序进行编码，例如：

而如果使用不同的顺序，显而易见得到的模型是不同的。如果使用线性回归，这将导致很多问题。

5.2 逻辑回归

假定我们的观测值有两个类别： “是” 和 “否”，逻辑回归并非直接模拟响应变量 Y，二是模拟 Y 最终属于某个类别的可能性。

假定我们使用最简单的 0，1 来编码响应变量，那么使用逻辑回归，怎么来拟合 p(X)=Pr(Y=1|x) 与 X 之间的关系？使用逻辑方程如下：

其拟合，我们使用最大似然估计的方法，后面会详细介绍。

将方程重组后我们可以得到：

左边的比值我们称之为事件的 odds，实际为默认事件发生的概率，显而易见该值取值范围在 0 ~ ∞ ，接近于 0 是表示默认事件几乎不可能发生，接近于 1 时则表明极有可能发生。在上述方程两侧取对数，则有：

此时方程的左边我们就称之为 log-odds 或 logit 。此时方程的右边为我们熟

悉的线性关系，但右侧 X 每增加一个单位，左侧则增加 e^β1 ，原因很简单，我

们的 p(X) 和 X 并非简单的直线关系，但这个变化给我们带来了很多方便。

5.2.1 估计回归系数

尽管使用非线性拟合也可以求解逻辑回归的参数，但我们通常使用更加通用

的最大似然估计，简言之，也就是找到一个最合适的β0 和β1 ，使求得的 p(x i )

尽可能的接近所有的单个观测的默认状态。

求解的函数被成为似然函数：

对 β0 和β1 求解即为得到似然函数的最大值。

具体求解过程我们可以不用头疼，因为统计软件会帮我们做，我们来看一下他的预测，这个其实和线性回归相似，他的零假设为:

如果 p 值足够小，我们就可以用上文提到的公式做预测。

5.3 多元逻辑回归

上面讲到的只是最简单的情况，也就是仅考虑变量 X 有两种观测值，我们用来预测。如同线性回归存在多元线性回归，我们的逻辑回归仍然有多元逻辑回归，也就是我们最开始举例的时候，我们可能有两个以上的编码，即：

在上面的学习过程中或许很多童鞋想问，我如果不只是求 Pr(Y = obs1|X)，我还同时要求 Pr(Y = obs2|X)以及剩余的可能性 1 - Pr(Y = obs1|X) - Pr(Y = obs2|X)，那该如何操作，这个是可以操作的，但我们通常使用下面要讲的判别分析来进行，此处不再展开。

就是这些内容：

发表于: 2018-08-192018-08-19 11:27:26
原文链接：https://kuaibao.qq.com/s/20180819G0HHDS00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

统计学习之逻辑回归

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐