logistic回归:从生产到使用【上:使用篇】

logistic回归:从生产到使用【上:使用篇】

前面介绍过几个算法,如KNN、决策树等(在微信公众号“数说工作室”中回复“jrsj”查看,不要引号),都可以用若干个“属性变量”来预测一个“目标变量”,如银行用客户的性别、收入、教育等情况来预测这个客户是否可能流失,再比如上一期说到的朴素贝叶斯在供应链金融里的应用,即用一个企业的规模、资产投资率、以及该企业与这条供应链上下游的关系等“属性变量”,来推测这家企业的还款风险:

本文要介绍的Logistic回归模型,也是其中一种方法,它用回归模型的形式来预测某种事物的可能性,并且使用优势(Odds)来考察“某事物发生的可能性大小”。目前被广泛应用于银行的风险分析、医学疾病研究等等。

本篇【上:使用篇】着重于它的模型内容和意义,结尾处附上一个建模指南,如果只是模型的使用者,只需要知道使用这个模型,知道结果代表什么,用它的结果,不需要知道参数是如何拟合的,那么本篇足够用了。如果想要知道logistic模型的拟合方法以及编程实现,那么请期待【下:生产篇】吧。

本篇的大纲如下:

Logistic回归:从生产到使用【上:使用篇】

1. Logistic回归模型的基本形式

2. logistic回归的意义

(1)优势

(2)优势比

(3)预测意义

3. 多分类变量的logistic回归

(1)无序多分类logistic回归

(2)有序多分类:比例优势模型

(3)有序多分类:偏比例优势模型

4.附:Logistic回归模型建模指南

1. logistic回归模型基本形式

回归模型,大部分想到的是线性模型,在数说君的《概率论-上帝的赌术》第五话中介绍过(在微信公众号“数说工作室”中回复“gll5”查看,不要引号)。

但如果y是一个取值范围在0-1的变量怎么办?比如我们想建立X1=收入、X2=年龄与银行客户是否流失Y(0=不流失、1=流失)的模型怎么办?

我们可以构建一个X1、X2与“流失概率”的回归模型,P{Y=1}表示流失概率,模型的形式为:

P{Y=1} =X1 + X2 + e

但是,由于概率必须使得X再怎么增加,P{Y=1}也不能超过1,此时,需要设计一个机制,让X1 + X2 + e的范围稳定在0-1之间,并且在X与P{Y=1}存在正相关的时,X越大,P{Y=1}就越接近于1。

Sigmoid函数正提供了这样一个转化机制,它的形式如下:

这个函数可以将z的值映射到0-1上,当z为0时,Sigmoid函数值为0.5,随着z增大,对于的Sigmoid值为1,而随着z的减少,Sigmoid值将逼近0,对应关系如下图:

我们将这种转化机制用数学式子表示出来

至此,我们就推导出了logistic模型的基本形式,这个模型把普通的线性模型

Y=f(x)

变成了

的形式,这个变换也叫做logit变换,或许此名就是“log it”的意思。

2. logistic回归的意义

(1)优势

Logistic模型中,Y是一个二分类变量,仍然以客户是否流失为例,P{Y=1}是流失的概率,那么P{Y=1}/P{Y=0}就是流失的概率与不流失的概率之比,称

为优势(odds),记为

OD=odds=P{Y=1}/P{Y=0}

下图表示了优势的意义:

因此,logistic模型又记为:

回到客户流失的例子,X1=收入、X2=年龄,如果模型为

X1=5000,X2=30时候,OD=1.2,“流失”的概率是“不流失”概率的1.2倍。

(2)优势比

我们再来研究一下系数的意义,仍以客户流失为例,我们假设在其余变量不变的情况下,X1的值从V变动到V+1:

仍以客户流失为例,模型为:

那么回归系数-0.001的意义为:

1、收入增加一个单位,客户流失,其优势OD的对数减少0.001。

2、收入所导致的优势比对数为-0.001。

(3)预测意义

Logistic模型是用概率来预测事件发生的可能性,仍然以客户流失为例,对于模型

当X1=5000,X2=30时候,OD=1.2,即P{Y=1}=0.545,即这位年龄30、收入5000的客户流失的概率为0.545,其概率大于50%,判定此人很可能会流失。

3. 多分类变量的logistic回归

有的朋友问了,我现在的变量Y不是两分类这么简单,比如下图表示的情况:

这个时候就要用到多分类变量的logistic模型。

当然除了这个方法外,对于有序的多分类变量,也可以将Y的三个取值合并成两个,如把0、1合并代表“未流失”,或者把1、2合并代表“实际上的流失”,当然,分类多了就不太好合并了。

(1)无序多分类logistic回归

无序多分类,即因变量Y的分类大于2个,且之间不存在等级关系,以图中客户流失为例,假设Y表示客户的状态为:

Y=0表示客户不流失、Y=1表示客户转向竞争对手A、Y=2表示客户转向竞争对手B

可以看出,这三个分类的是平行的,没有等级递增或者递减关系。此时需拟合广义logistic模型。模型形式如下图所示:

写一个具体的例子,假设我们现在模拟出来这个例子的无序logistic模型为:

那么对于一个X1=5000,X2=30的人来说,

g1(x)=0.69;g2(x)=-0.3

由此可得,

P{Y=0}=0.26;P{Y=2}=0.53;P{Y=3}=0.21

即,logistic模型预测,一个收入5000、年龄30的人,其不流失的概率为0.26,流向竞争对手A的概率为0.53,流向竞争对手B的概率为0.21,故认为该客户会流失,且流向竞争对手A。

(2)有序多分类:比例优势模型

有序多分类,即因变量Y的分类多于2个,且之间存在等级关系,假设Y表示客户的状态为:

Y=0客户未流失;Y=1客户准流失;Y=2客户流失

这三个类的流失性有明显的递增关系,此时需要拟合“比例优势模型”(proportional odds model),且同时要做“平行性检验”,具体形式见下图:

再写一个具体的例子,假设我们现在模拟出来这个例子的有序logistic模型为:

那么对于一个X1=5000,X2=30的人来说,

g1(x)=0.69;g2(x)=1.62

由此可得,

P{Y=0}=0.666;P{Y=2}=0.169;P{Y=3}=0.165

即,logistic模型预测,一个收入5000、年龄30的客户,其不流失的概率为0.666、准流失的概率为0.169、流失的概率为0.165,故判定该客户不流失。

细心的朋友看到了图中的那个“平行性假定”,因为比例优势模型有一个暗含的假定:

Y有j个分类,那么需要j-1个模型,这j-1个模型之间都有相同的系数估计值,只是截距不一样,如我们的例子中,两个模型的系数都需要一样。

在SAS中,拟合这个模型的同时,其结果中包含了平行性假定的结果,如果结果被拒绝,则说明模型之间不平行,那么模型的结果就作废,此时怎么办?就要用到“偏比例优势模型”(partialproportional odds model)。

(3)有序多分类:偏比例优势模型

比例优势模型中,如果有些变量的系数不满足平行性假定,那么就要使用“偏比例优势模型”(partialproportional odds model),这个模型其实也就是在比例优势模型的基础上,把不平行的系数做一个改动,见下图:

根据拟合出来的模型g1(x)和g2(x),可以得到预测概率P{Y=0/1/2}的公式,从形式是来看和比例优势模型差别就在一个系数,没有本质不同,这里不再表达。

偏比例优势模型的难点是实现过程,SAS中没有现成的过程步,可以通过对不平行的系数设置分割点的方式来实现。

4. 附:logistic模型建模指南

原文发布于微信公众号 - 数说工作室(shushuojun)

原文发表时间:2014-09-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT技术精选文摘

机器学习简介

在直接进入机器学习的范围之前,让我们从单词的含义开始。这可能看起来很明显,但最好一开始就从其含义入手。 机器是包含一个或多个能够转换能量的零件的工具。机器通常采...

1817
来自专栏奇点大数据

机器学习和深度学习的区别

近来有一些朋友问我,深度学习是不是算机器学习,如果是为什么一定要单拿出来算一个概念,那我在这就说说我的理解。 首先,深度学习确实仍然是依靠机器来做学习的不管是监...

3286
来自专栏机器学习算法工程师

《机器学习》笔记-计算学习理论(12)

如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还是自身充电,跟上潮流,我觉得都值得试一...

1444
来自专栏AI科技评论

学界 | 迁移学习效果优化不再是难题,杨强教授团队带来自动找到最佳算法的L2T

AI 科技评论按:近日,香港科技大学杨强教授团队发表了一篇关于迁移学习的论文。在论文中,他们提出了一种新颖的迁移学习范式 Learning to Transfe...

3398
来自专栏AI科技大本营的专栏

吴恩达说“将引领下一波机器学习技术”的迁移学习到底好在哪?

【导读】两年前,吴恩达在 NIPS 2016 的 Tutorial 上曾说“在监督学习之后,迁移学习将引领下一波机器学习技术商业化浪潮。”现实中不断有新场景的出...

823
来自专栏AI研习社

高级数据科学家阿萨姆:如何应对机器学习过程中的多项选择问题?| 分享总结

AI 研习社按:随着硬件算力的上升、数据量的加大以及各种新算法的浮现,机器学习也变得一天比一天火热。不夸张的说,这是机器学习的时代。然而,机器学习虽然能够给出惊...

3596
来自专栏AI深度学习求索

CNN模型的发展:自2012AlexNet-2017DRN的17篇CNN模型论文总结

CNN模型的发展:自2012AlexNet-2017DRN的17篇CNN模型论文总结

1282
来自专栏鸿的学习笔记

《machine learning yearning》学习笔记

一、如何选择机器学习策略 一个例子:当你的团队在使用cat图片去喂神经网络,让它去识别出一只cat.但是你的算法的精确度(accuracy)一直没办法提高。 下...

1391
来自专栏AI研习社

教程 | Hinton 机器学习视频中文版:神经网络架构介绍(2.1)

本套课程中,Hinton 重点介绍了人工神经网络在语音识别和物体识别、图像分割、建模语言和人类运动等过程中的应用,及其在机器学习中发挥的作用。与吴恩达的《Mac...

3539
来自专栏企鹅号快讯

人工智能与机器学习有哪些不同

每天读一篇一线开发者原创好文 来自:51CTO.COM,作者:RickyHo,刘妮娜译 链接:http://network.51cto.com/art/2017...

3030

扫码关注云+社区

领取腾讯云代金券