首页
学习
活动
专区
工具
TVP
发布

R语言逻辑回归预测分析付费用户

相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

,时长06:48

对于付费用户预测,主要是思考收入由哪些因素推动,再对每个因素做预测,最后得出付费预测。这其实不是一个财务问题,是一个业务问题。

流失预测。这方面会偏向于大额付费用户,提取额特征向量运用到应用场景的用户流失和预测里面去。

方法

回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。

问题描述

我们尝试并预测用户是否可以根据数据中可用的人口信息变量使用逻辑回归预测月度付费是否超过 50K。

在这个过程中,我们将:

1.导入数据2.检查类别偏差3.创建训练和测试样本4.建立logit模型并预测测试数据5.模型诊断

检查类偏差

理想情况下,Y变量中事件和非事件的比例大致相同。所以,我们首先检查因变量ABOVE 50K中的类的比例。

1 24720 7841

显然,不同付费人群比例 有偏差 。所以我们必须以大致相等的比例对观测值进行抽样,以获得更好的模型。

构建Logit模型和预测

确定模型的最优预测概率截止值默认的截止预测概率分数为0.5或训练数据中1和0的比值。但有时,调整概率截止值可以提高开发和验证样本的准确性。InformationValue :: optimalCutoff功能提供了找到最佳截止值,减少错误分类错误。

optCutOff  .71

模型诊断

错误分类错误

错误分类错误是预测与实际的不匹配百分比 。错误分类错误越低,模型越好。

misClassError(testData$ABOVE50K, predicted, threshold = optCutOff)\[1\] 0.0892

ROC曲线

ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

上述型号的ROC曲线面积为89%,相当不错。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20221121A0588K00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券