文章期号:20190604
第二章统计进阶,多元统计:Logistic回归
1,回顾数值型回归:
我们讨论过因变量为数值型的一元线性和多元线性预测模型,如果有疑问大家可以参考文章:《一元线性回归模型的销售预测》,《经营之道:怎样经营好一家餐馆?》更加深入的了解数值型回归模型。
2,谈谈定性变量回归
今天我们来讨论定性变量的回归模型,定性变量可以说是一种类别变量,比如男/女,优/良/差,是/否,真/假,黑/白等,因变量的结果集是有限的,可预设的,定性变量的回归模型,就是基于历史数据训练出来一种数学表达式,来判断新数据的属于哪一种定性因变量的概率大小。为日常的常见的是否类决策,提供准确度的数值度量。
3,继续深入
也称为广义线性模型,是为了解决定向变量关系模型化,两种常见的广义线性模型:Logistic回归模型和对数线性模型
4,Logistic回归案例
数据:某地区45个家庭数据的调查,其中y是分类变量(是否有私家车,1表示有,0表示没有),x 表示家庭年收入单位万元,根据这些数据建立Logistic回归模型,估计年收入15万元的家庭买私家车的可能性。
4.1,数据预览
x y
15 1
20 1
10 0
12 1
8 0
30 1
6 0
16 1
22 1
36 1
7 0
24 1
x(年收入/万元 y(是否买车)
15 1
20 1
10 0
12 1
8 0
30 1
6 0
16 1
22 1
36 1
7 0
24 1
为方便阅读部分数据省略...
4.2,R计算回归模型:
library(readxl)
data3.1 <- read_excel("eg3.1.xls",sheet=1)
glm.logit<-glm(y~x, family=binomial, data=data3.1)
summary(glm.logit)
Call:
glm(formula = y ~ x, family = binomial, data = data3.1)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.21054 -0.05498 0.00000 0.00433 1.87356
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -21.2802 10.5203 -2.023 0.0431 *
x 1.6429 0.8331 1.972 0.0486 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 62.3610 on 44 degrees of freedom
Residual deviance: 6.1486 on 43 degrees of freedom
AIC: 10.149
Number of Fisher Scoring iterations: 9
yp<-predict(glm.logit, data.frame=(x=15))
p.fit<-exp(yp)/(1+exp(yp));
p.fit
1
0.9665418
有R计算结果可知:年收入15万的家庭买私家车的概率为97%。