统计学习之逻辑回归

又是一个月左右没写了,没别的,除了忙就是累,毕竟是业余爱好,现在接着进行统计学习的分类数据处理,首先是逻辑回归。

上一章的内容是关于线性回归定量分析的内容,但在很多情况下,响应变量 Y 属于定性数据,本章节的内容则是关于定性数据的分析,主要是三种流行的分析方法,分别为:逻辑回归(logistic regression),线性判别分析(linear discriminant analysis),K 最临近算法(K-nearest neighbors)。

这个很好理解,我们举例说明就可以了,假定观测值也即观测值有三种,分别为:obs1,obs2以及obs3。我们可以将其解码为定量变量处理:

但是这种方法有一个顺序的问题,即我可以按照其他顺序进行编码,例如:

而如果使用不同的顺序,显而易见得到的模型是不同的。如果使用线性回归,这将导致很多问题。

5.2 逻辑回归

假定我们的观测值有两个类别: “是” 和 “否”,逻辑回归并非直接模拟响应变量 Y,二是模拟 Y 最终属于某个类别的可能性。

假定我们使用最简单的 0,1 来编码响应变量,那么使用逻辑回归,怎么来拟合 p(X)=Pr(Y=1|x) 与 X 之间的关系?使用逻辑方程如下:

其拟合,我们使用最大似然估计的方法,后面会详细介绍。

将方程重组后我们可以得到:

左边的比值我们称之为事件的 odds,实际为默认事件发生的概率,显而易见该值取值范围在 0 ~ ∞ ,接近于 0 是表示默认事件几乎不可能发生,接近于 1 时则表明极有可能发生。在上述方程两侧取对数,则有:

此时方程的左边我们就称之为 log-odds 或 logit 。此时方程的右边为我们熟

悉的线性关系,但右侧 X 每增加一个单位,左侧则增加 e^β1 ,原因很简单,我

们的 p(X) 和 X 并非简单的直线关系,但这个变化给我们带来了很多方便。

5.2.1 估计回归系数

尽管使用非线性拟合也可以求解逻辑回归的参数,但我们通常使用更加通用

的最大似然估计,简言之,也就是找到一个最合适的β0 和β1 ,使求得的 p(x i )

尽可能的接近所有的单个观测的默认状态。

求解的函数被成为似然函数:

对 β0 和β1 求解即为得到似然函数的最大值。

具体求解过程我们可以不用头疼,因为统计软件会帮我们做,我们来看一下他的预测,这个其实和线性回归相似,他的零假设为:

如果 p 值足够小,我们就可以用上文提到的公式做预测。

5.3 多元逻辑回归

上面讲到的只是最简单的情况,也就是仅考虑变量 X 有两种观测值,我们用来预测。如同线性回归存在多元线性回归,我们的逻辑回归仍然有多元逻辑回归,也就是我们最开始举例的时候,我们可能有两个以上的编码,即:

在上面的学习过程中或许很多童鞋想问,我如果不只是求 Pr(Y = obs1|X),我还同时要求 Pr(Y = obs2|X)以及剩余的可能性 1 - Pr(Y = obs1|X) - Pr(Y = obs2|X),那该如何操作,这个是可以操作的,但我们通常使用下面要讲的判别分析来进行,此处不再展开。

就是这些内容:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180819G0HHDS00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券