前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【连载干货】中国人民大学统计数据挖掘中心专题报告资料之线性判别、Logistic回归

【连载干货】中国人民大学统计数据挖掘中心专题报告资料之线性判别、Logistic回归

作者头像
量化投资与机器学习微信公众号
发布2018-01-29 11:05:00
1K0
发布2018-01-29 11:05:00
举报

谢谢大家支持,可以让有兴趣的人关注这个公众号。让知识传播的更加富有活力,谢谢各位读者。 很多人问我为什么每次的头像是奥黛丽赫本,我只能说她是我女神,每天看看女神也是不错的嘛!

今天是共享第二天,每天为大家分享一篇中国人民大学数据挖掘中心(DMC)的统计专题报告,内容很丰富,专业性和学习行都很强,希望大家有所收获。所有版权均属中国人民大学数据挖掘中心,请勿用作商业用途!!!

本期主题:线性判别、Logistic回归

先从一个案例分析开始,然后在阅读原文里有Python和R关于梯度上升法和logistic的代码。

  1. 数据说明

本案例所用的数据为ISLR中自带的数据heart.data,样本是462个南非人的身体健康状况指标,用来研究哪些因素对是否患心脏病有影响。变量描述见表1。

表1 变量说明

变量名

含义

解释

y

coronary heart disease

冠心病

sbp

systolic blood pressure

血压

tobacco

cumulative tobacco

累计烟草量

ldl

low density lipoprotein cholesterol

低密度脂蛋白胆固醇

adiposity

--

肥胖

famhist

family history of heart disease

是否有心脏病家族史

typea

type-A behavior

A型表现

obesity

--

过度肥胖

alcohol

current alcohol consumption

当前饮酒

age

age at onset

发病年龄

  1. 描述性统计

图1是变量的散点矩阵图,可以看出adiposity 和obesity线性相关性较强。

表2是因变量与定性自变量famhist的列联表分析,卡方检验p值为0,在0.05的显著性水平下,famhist对y有显著影响。

图3是连续自变量与因变量的箱线图分析。

表2定性变量与因变量列联表分析

famhisty

0

1

P值

0

206

96

1

64

96

0.000

图2连续自变量与因变量间的箱线图

  1. Logistic回归

随机抽取80%的样本作为训练集,剩下的20%样本作为测试集,用所有变量建立二元logistic回归模型。之后用AIC和BIC对模型做逐步回归。模型拟合结果分别如图3-5所示

  1. 模型预测

表3是模型预测结果的列联表符号示意。

表3预测结果列联表符号示意

预测值 实际值

0

1

0

TN

FN

1

FP

TP

真阳性率TPR=TP/(TP+FN); 假阳性率FPR=FP/(FP+FN)

敏感性Sensitivity=TP/(TP+FN);特异性Specificity=TN/(FP+TN)

约登指数Youden=Sensitivity+Specificity-1

正确率R=(TN+TP)/(TN+FN+FP+TP)

为了比较三个模型的效果,用ROC曲线以及约登曲线来选择最优的模型,如图6所示。

表4是logit-AIC模型预测效果如下表所示。

表4最优预测模型预测效果

y预测值 y实际值

0

1

行和

0

62

13

75

1

3

15

18

列和

65

28

93

得TPR=0.536,FPR=0.046,正确率R=0.828。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-12-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化投资与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档