分类模型—逻辑回归及ROC曲线

我就在这里,不离不弃

——A·May

office-9|T-

昨天在做一次数据探索之后,我终于是陷入了迷糊之中.....所幸经过思考之后,终于找到了方向,下面是我的思路,我的出发点是尽力能够达到最优学习和掌握数据分析工具和原理的目标,分层的标准是数据量的大小,希望也会对大家有所帮助。

Excel/ppt:小于100w条数据处理;数据分析;常用图表制作;数据报告;最优先

Access:100w条数据以上且2G数据以下的数据处理;与Excel连用可以作图;SQL语句

SQL SERVER:2G以上数据处理工具;SQL语句

R语言数据建模;与SQL SERVER连用处理2G以上数据与可视化

SPSS/Citespace:问卷调查;文献计量

经过上面的整理之后,相必大家也能清楚我的思路了。以后与R有关的出发点都是为了建模而存在的。从数据处理的流程来看,探索可视化>数据处理>建模>可视化,建模作为重点是应该的,因为可视化可以用数据库+Excel+SPSS来完成,而数据处理方面,我对SQL语言的亲和力要比tidyverse包中的内容要高一些,数据库的处理速度不会比R更低。

建模的内容主要分为两方面:一是建模理论,此处涉及统计学基础,会有更多的论述,如果可能的话,我会引入期刊论文来做以分析;二是R语言实现方法,我尽可能图文并茂。然后,每次的模型可能会持续4天以上,分别从理论、R实现、R实现方法详解和新案例等四个环节来学习一个模型,这时间和精力已经足够了。

模型学习有回归、分类、聚类、关联、时序和甄别,每一种模型学习方向下都有经典的模型和衍生的模型。其中,我并不打算从回归模型开始,因为简单的开始并不意味着顺利的实现和精彩的结尾,所以,我会从分类模型开始,一点一滴深入到R模型中去,以期望能够在计量学和建模两个方面的深入理解。

今天开始,逻辑回归的分类模型和用于评价模型的ROC曲线,代码如下:

Logit_model

May2018年3月12日

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180312G1MKOE00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券