【连载干货】中国人民大学统计数据挖掘中心专题报告资料之线性判别、Logistic回归

谢谢大家支持,可以让有兴趣的人关注这个公众号。让知识传播的更加富有活力,谢谢各位读者。 很多人问我为什么每次的头像是奥黛丽赫本,我只能说她是我女神,每天看看女神也是不错的嘛!

今天是共享第二天,每天为大家分享一篇中国人民大学数据挖掘中心(DMC)的统计专题报告,内容很丰富,专业性和学习行都很强,希望大家有所收获。所有版权均属中国人民大学数据挖掘中心,请勿用作商业用途!!!

本期主题:线性判别、Logistic回归

先从一个案例分析开始,然后在阅读原文里有Python和R关于梯度上升法和logistic的代码。

  1. 数据说明

本案例所用的数据为ISLR中自带的数据heart.data,样本是462个南非人的身体健康状况指标,用来研究哪些因素对是否患心脏病有影响。变量描述见表1。

表1 变量说明

变量名

含义

解释

y

coronary heart disease

冠心病

sbp

systolic blood pressure

血压

tobacco

cumulative tobacco

累计烟草量

ldl

low density lipoprotein cholesterol

低密度脂蛋白胆固醇

adiposity

--

肥胖

famhist

family history of heart disease

是否有心脏病家族史

typea

type-A behavior

A型表现

obesity

--

过度肥胖

alcohol

current alcohol consumption

当前饮酒

age

age at onset

发病年龄

  1. 描述性统计

图1是变量的散点矩阵图,可以看出adiposity 和obesity线性相关性较强。

表2是因变量与定性自变量famhist的列联表分析,卡方检验p值为0,在0.05的显著性水平下,famhist对y有显著影响。

图3是连续自变量与因变量的箱线图分析。

表2定性变量与因变量列联表分析

famhisty

0

1

P值

0

206

96

1

64

96

0.000

图2连续自变量与因变量间的箱线图

  1. Logistic回归

随机抽取80%的样本作为训练集,剩下的20%样本作为测试集,用所有变量建立二元logistic回归模型。之后用AIC和BIC对模型做逐步回归。模型拟合结果分别如图3-5所示

  1. 模型预测

表3是模型预测结果的列联表符号示意。

表3预测结果列联表符号示意

预测值 实际值

0

1

0

TN

FN

1

FP

TP

真阳性率TPR=TP/(TP+FN); 假阳性率FPR=FP/(FP+FN)

敏感性Sensitivity=TP/(TP+FN);特异性Specificity=TN/(FP+TN)

约登指数Youden=Sensitivity+Specificity-1

正确率R=(TN+TP)/(TN+FN+FP+TP)

为了比较三个模型的效果,用ROC曲线以及约登曲线来选择最优的模型,如图6所示。

表4是logit-AIC模型预测效果如下表所示。

表4最优预测模型预测效果

y预测值 y实际值

0

1

行和

0

62

13

75

1

3

15

18

列和

65

28

93

得TPR=0.536,FPR=0.046,正确率R=0.828。

原文发布于微信公众号 - 量化投资与机器学习(ZXL_LHTZ_JQXX)

原文发表时间:2015-12-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量化投资与机器学习

【Python量化投资】金融应用中用matplotlib库实现的数据可视化

Python中,matplotlib可以视为数据可视化的基准和主力。尽管有许多其他的可视化库,但是matplotlib已经确立了一个标杆,在许多情况下,它都是健...

2975
来自专栏深度学习自然语言处理

调参的一些个人拙见

最近的事。。浓缩成下面的一张图。 ? 调参有哪些方法呢? 语料处理。这个是之后一切操作的基础。有人或许认为算法是最重要的,其实不然,语料处理真的真的是最重要的。...

2885
来自专栏人工智能头条

用机器学习识别随机生成的C&C域名

4083
来自专栏专知

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

2432
来自专栏企鹅号快讯

2017年深度学习必读31篇论文

新智元报道 作者:Kloud Strife 译者:刘光明,费欣欣 【新智元导读】2017年即将擦肩而过,Kloud Strife在其博客上盘点了今年最值得关注的...

20610
来自专栏AI研习社

Github 项目推荐 | 基于 PyTorch,面向 AI 系统加速研究与开发的深度学习框架

TorchFusion 基于 PyTorch 并且完全兼容纯 PyTorch 和其他 PyTorch 软件包,它供了一个全面的可扩展训练框架,可以轻松用开发者的...

1342
来自专栏数说工作室

浅议P值校正

P值,通常被我们用来判断是否接受一个假设,关于P值的前世今生,可以看数说君的了一篇文章《P值之死》,在微信公众号中回复“P值”查看。本篇不说P值本身的问题,我们...

4766
来自专栏CreateAMind

Keras和DDPG玩赛车游戏(自动驾驶)

这里,s是状态,a是行为/动作,θ是策略网络的模型参数,π是常见的表示策略的符号。我们可以设想策略是我们行为的代理人,即一个从状态到动作的映射函数。

4312
来自专栏大数据挖掘DT机器学习

详细步骤:用R语言做文本挖掘

目录 Part1 安装依赖包 Part2 分词处理 Part3文本聚类 Part4 文本分类 Part5情感分析 Part1 安装依赖包 R语言中中文分析的...

79912
来自专栏PPV课数据科学社区

【学习】SPSS探索分析实践操作

SPSS为我们提供了探索分析,所谓探索分析之所以是探索,是因为有时候我们对于变量的分布特点不是很清楚,探索的目的在于帮助我们完成以下的工作:识别...

3818

扫码关注云+社区

领取腾讯云代金券