前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >logistic回归:从生产到使用【上:使用篇】

logistic回归:从生产到使用【上:使用篇】

作者头像
数说君
发布2018-03-28 16:01:31
1.3K0
发布2018-03-28 16:01:31
举报
文章被收录于专栏:数说工作室数说工作室

logistic回归:从生产到使用【上:使用篇】

前面介绍过几个算法,如KNN、决策树等(在微信公众号“数说工作室”中回复“jrsj”查看,不要引号),都可以用若干个“属性变量”来预测一个“目标变量”,如银行用客户的性别、收入、教育等情况来预测这个客户是否可能流失,再比如上一期说到的朴素贝叶斯在供应链金融里的应用,即用一个企业的规模、资产投资率、以及该企业与这条供应链上下游的关系等“属性变量”,来推测这家企业的还款风险:

本文要介绍的Logistic回归模型,也是其中一种方法,它用回归模型的形式来预测某种事物的可能性,并且使用优势(Odds)来考察“某事物发生的可能性大小”。目前被广泛应用于银行的风险分析、医学疾病研究等等。

本篇【上:使用篇】着重于它的模型内容和意义,结尾处附上一个建模指南,如果只是模型的使用者,只需要知道使用这个模型,知道结果代表什么,用它的结果,不需要知道参数是如何拟合的,那么本篇足够用了。如果想要知道logistic模型的拟合方法以及编程实现,那么请期待【下:生产篇】吧。

本篇的大纲如下:

Logistic回归:从生产到使用【上:使用篇】

1. Logistic回归模型的基本形式

2. logistic回归的意义

(1)优势

(2)优势比

(3)预测意义

3. 多分类变量的logistic回归

(1)无序多分类logistic回归

(2)有序多分类:比例优势模型

(3)有序多分类:偏比例优势模型

4.附:Logistic回归模型建模指南

1. logistic回归模型基本形式

回归模型,大部分想到的是线性模型,在数说君的《概率论-上帝的赌术》第五话中介绍过(在微信公众号“数说工作室”中回复“gll5”查看,不要引号)。

但如果y是一个取值范围在0-1的变量怎么办?比如我们想建立X1=收入、X2=年龄与银行客户是否流失Y(0=不流失、1=流失)的模型怎么办?

我们可以构建一个X1、X2与“流失概率”的回归模型,P{Y=1}表示流失概率,模型的形式为:

P{Y=1} =X1 + X2 + e

但是,由于概率必须使得X再怎么增加,P{Y=1}也不能超过1,此时,需要设计一个机制,让X1 + X2 + e的范围稳定在0-1之间,并且在X与P{Y=1}存在正相关的时,X越大,P{Y=1}就越接近于1。

Sigmoid函数正提供了这样一个转化机制,它的形式如下:

这个函数可以将z的值映射到0-1上,当z为0时,Sigmoid函数值为0.5,随着z增大,对于的Sigmoid值为1,而随着z的减少,Sigmoid值将逼近0,对应关系如下图:

我们将这种转化机制用数学式子表示出来

至此,我们就推导出了logistic模型的基本形式,这个模型把普通的线性模型

Y=f(x)

变成了

的形式,这个变换也叫做logit变换,或许此名就是“log it”的意思。

2. logistic回归的意义

(1)优势

Logistic模型中,Y是一个二分类变量,仍然以客户是否流失为例,P{Y=1}是流失的概率,那么P{Y=1}/P{Y=0}就是流失的概率与不流失的概率之比,称

为优势(odds),记为

OD=odds=P{Y=1}/P{Y=0}

下图表示了优势的意义:

因此,logistic模型又记为:

回到客户流失的例子,X1=收入、X2=年龄,如果模型为

X1=5000,X2=30时候,OD=1.2,“流失”的概率是“不流失”概率的1.2倍。

(2)优势比

我们再来研究一下系数的意义,仍以客户流失为例,我们假设在其余变量不变的情况下,X1的值从V变动到V+1:

仍以客户流失为例,模型为:

那么回归系数-0.001的意义为:

1、收入增加一个单位,客户流失,其优势OD的对数减少0.001。

2、收入所导致的优势比对数为-0.001。

(3)预测意义

Logistic模型是用概率来预测事件发生的可能性,仍然以客户流失为例,对于模型

当X1=5000,X2=30时候,OD=1.2,即P{Y=1}=0.545,即这位年龄30、收入5000的客户流失的概率为0.545,其概率大于50%,判定此人很可能会流失。

3. 多分类变量的logistic回归

有的朋友问了,我现在的变量Y不是两分类这么简单,比如下图表示的情况:

这个时候就要用到多分类变量的logistic模型。

当然除了这个方法外,对于有序的多分类变量,也可以将Y的三个取值合并成两个,如把0、1合并代表“未流失”,或者把1、2合并代表“实际上的流失”,当然,分类多了就不太好合并了。

(1)无序多分类logistic回归

无序多分类,即因变量Y的分类大于2个,且之间不存在等级关系,以图中客户流失为例,假设Y表示客户的状态为:

Y=0表示客户不流失、Y=1表示客户转向竞争对手A、Y=2表示客户转向竞争对手B

可以看出,这三个分类的是平行的,没有等级递增或者递减关系。此时需拟合广义logistic模型。模型形式如下图所示:

写一个具体的例子,假设我们现在模拟出来这个例子的无序logistic模型为:

那么对于一个X1=5000,X2=30的人来说,

g1(x)=0.69;g2(x)=-0.3

由此可得,

P{Y=0}=0.26;P{Y=2}=0.53;P{Y=3}=0.21

即,logistic模型预测,一个收入5000、年龄30的人,其不流失的概率为0.26,流向竞争对手A的概率为0.53,流向竞争对手B的概率为0.21,故认为该客户会流失,且流向竞争对手A。

(2)有序多分类:比例优势模型

有序多分类,即因变量Y的分类多于2个,且之间存在等级关系,假设Y表示客户的状态为:

Y=0客户未流失;Y=1客户准流失;Y=2客户流失

这三个类的流失性有明显的递增关系,此时需要拟合“比例优势模型”(proportional odds model),且同时要做“平行性检验”,具体形式见下图:

再写一个具体的例子,假设我们现在模拟出来这个例子的有序logistic模型为:

那么对于一个X1=5000,X2=30的人来说,

g1(x)=0.69;g2(x)=1.62

由此可得,

P{Y=0}=0.666;P{Y=2}=0.169;P{Y=3}=0.165

即,logistic模型预测,一个收入5000、年龄30的客户,其不流失的概率为0.666、准流失的概率为0.169、流失的概率为0.165,故判定该客户不流失。

细心的朋友看到了图中的那个“平行性假定”,因为比例优势模型有一个暗含的假定:

Y有j个分类,那么需要j-1个模型,这j-1个模型之间都有相同的系数估计值,只是截距不一样,如我们的例子中,两个模型的系数都需要一样。

在SAS中,拟合这个模型的同时,其结果中包含了平行性假定的结果,如果结果被拒绝,则说明模型之间不平行,那么模型的结果就作废,此时怎么办?就要用到“偏比例优势模型”(partialproportional odds model)。

(3)有序多分类:偏比例优势模型

比例优势模型中,如果有些变量的系数不满足平行性假定,那么就要使用“偏比例优势模型”(partialproportional odds model),这个模型其实也就是在比例优势模型的基础上,把不平行的系数做一个改动,见下图:

根据拟合出来的模型g1(x)和g2(x),可以得到预测概率P{Y=0/1/2}的公式,从形式是来看和比例优势模型差别就在一个系数,没有本质不同,这里不再表达。

偏比例优势模型的难点是实现过程,SAS中没有现成的过程步,可以通过对不平行的系数设置分割点的方式来实现。

4. 附:logistic模型建模指南

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-09-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数说工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • logistic回归:从生产到使用【上:使用篇】
    • 1. logistic回归模型基本形式
      • 2. logistic回归的意义
        • (1)优势
        • (2)优势比
        • (3)预测意义
      • 3. 多分类变量的logistic回归
        • (1)无序多分类logistic回归
        • (2)有序多分类:比例优势模型
        • (3)有序多分类:偏比例优势模型
      • 4. 附:logistic模型建模指南
      相关产品与服务
      供应链金融
      供应链金融(Tencent Supply Chain Finance,TSCF)帮助产业解决资金端和资产端的需求匹配问题,利用区块链、人工智能、大数据、云计算、物联网等多项技术,构建简捷、高效、标准化的供应链协作和供应链融资在线全流程,基于数据构建了全流程风控体系,从贷前、贷中、贷后实现底层资产透明化,降低操作风险、运营及人工成本,改善企业现金流管理,提升小微企业融资能力。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档