前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

原创
作者头像
拓端
发布2023-02-20 22:15:20
发布2023-02-20 22:15:20
30400
代码可运行
举报
文章被收录于专栏:拓端tecdat拓端tecdat
运行总次数:0
代码可运行

全文链接:http://tecdat.cn/?p=31644

原文出处:拓端数据部落公众号

借着二胎政策的开放与家庭消费升级的东风,母婴市场迎来了生机盎然的春天,尤其是母婴电商行业,近年来发展迅猛。用户获取和流失是一对相对概念,就好比一个水池,有进口,也有出口。我们不能只关心进口的进水速率,却忽略了出水口的出水速率。挽留一个老用户相比拉动一个新用户,在增加营业收入、产品周期维护方面都是有好处的。并且获得一个新用户的成本是留存一个老用户的5~6倍。

我们最近有一个很棒的机会与一位伟大的客户合作,要求构建一个适合他们需求的用户流失预测算法。本课题着眼于利用决策树算法和随机森林模型,对用户进行预测,判断哪些客户会流失。数据的处理方法以及机器学习本身算法理论的学习和代码实现在各领域具有相同性,之后同学可以在其他感兴趣的领域结合数据进行分析,利用此课题所学知识举一反三。

数据

代码语言:javascript
代码运行次数:0
运行
复制
查看可用数据源

用户名密码登陆

代码语言:javascript
代码运行次数:0
运行
复制
channel <- odbcConnect("sa", uid="sa", pwd="12345")

品牌表

代码语言:javascript
代码运行次数:0
运行
复制
data<-sqlQuery(channel,"select * from  DataMeet1$")
 
head(data)

input:品牌 品牌 奶粉阶段(对应小孩年龄) 城市等级(1,2,3线城市)

Output

用户寿命(天) 是否流失

代码语言:javascript
代码运行次数:0
运行
复制
head(data)

转换数据,拟合决策树模型

建立决策树预测是否流失

代码语言:javascript
代码运行次数:0
运行
复制
CARTmodel = rpart
draw.tree(CARTmodel) 

绘制决策树

输出决策树cp值

代码语言:javascript
代码运行次数:0
运行
复制
printcp(CARTmodel)

根据cp值对决策树进行剪枝

代码语言:javascript
代码运行次数:0
运行
复制
cp= CARTmodel$cptable[which.min(CARTmodel$cptable[,"xerror"]),"CP"]
cp

prune(CARTmodel, cp= CARTmodel$cpCP"])  #剪枝
代码语言:javascript
代码运行次数:0
运行
复制
CARTmodel2 <- prune(CARTmo

对数据进行预测

代码语言:javascript
代码运行次数:0
运行
复制
(predict(CARTmodel2,datanew.test ))

summary(CARTmodel2)

计算混淆矩阵和准确度

代码语言:javascript
代码运行次数:0
运行
复制
tab=table(tree.pred,datanew.test$是否流失)#得到训练集混淆矩阵

(tab[1,1]+tab[2,2])/sum(tab)

mse

代码语言:javascript
代码运行次数:0
运行
复制
mean((as.numeric(tree.pred) - as.numeric(datanew.test$是否流失))^2)

输出结果

代码语言:javascript
代码运行次数:0
运行
复制
CARTmodel2 
代码语言:javascript
代码运行次数:0
运行
复制
将表写进数据库里
sqlSave(channel,result_lossnew11,

变量重要程度

代码语言:javascript
代码运行次数:0
运行
复制
CARTmodel$varmportance

预测用户寿命.天.

代码语言:javascript
代码运行次数:0
运行
复制
CARTmodel = rpart(用户寿命.天. ~

绘制决策树

决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

输出决策树cp值

根据cp值对决策树进行剪枝

代码语言:javascript
代码运行次数:0
运行
复制
prune(CARTmodel, cp= CARTmodel$cptab
代码语言:javascript
代码运行次数:0
运行
复制
prune(CARTmodel

进行预测

代码语言:javascript
代码运行次数:0
运行
复制
predict(CARTmodel

输出结果

代码语言:javascript
代码运行次数:0
运行
复制
#mse

mean((as.numeric(tree.pred) - as.numeric(datanew.test$用户寿命.天.))^2)
代码语言:javascript
代码运行次数:0
运行
复制
## [1] 7713.91

变量重要程度

随机森林

随机森林是属于集成学习,其核心思想就是集成多个弱分类器以达到三个臭皮匠赛过诸葛亮的效果。

代码语言:javascript
代码运行次数:0
运行
复制
rf <- randomForest(datanew.train$用户寿命.天.  ~ 

MSE误差

代码语言:javascript
代码运行次数:0
运行
复制
mean(predict(rf)- datanew.train$用户寿命.天.  )^2
代码语言:javascript
代码运行次数:0
运行
复制
## [1] 0.007107568

变量重要程度

代码语言:javascript
代码运行次数:0
运行
复制
plot(d,center=TRUE,leaflab='none',

混淆矩阵

代码语言:javascript
代码运行次数:0
运行
复制
table(predict(rf), datanew.train$是否流失  )
代码语言:javascript
代码运行次数:0
运行
复制
##    
##       0   1
##   0  84  15
##   1  23 589
代码语言:javascript
代码运行次数:0
运行
复制
#变量重要程度
importance(rf)

chaid树

CHAID是一种高效的统计分箱技术,是商业上运用最成功的算法之一。通过统计检验方法,CHAID评估潜在预测变量的所有取值,合并对目标变量而言在统计意义上同质的取值成为一个分箱,保留那些有异质性的取值为单独的分箱,然后选择最佳的预测,成为决策树的第一个分支,因此每一个子节点都是同质的,此过程继续递推直至完成整个决策树。

代码语言:javascript
代码运行次数:0
运行
复制
plot(ct, mai

ctree

是否流失

代码语言:javascript
代码运行次数:0
运行
复制
plot(ct,

混淆矩阵

代码语言:javascript
代码运行次数:0
运行
复制
table(predict(ct), datanew.train$是否流失)
代码语言:javascript
代码运行次数:0
运行
复制
##    
##       0   1
##   0  89   1
##   1  18 603

预测类别概率

代码语言:javascript
代码运行次数:0
运行
复制
tr.pred = predict(ct, newdata=datanew.train, type="prob")
tr.pred
代码语言:javascript
代码运行次数:0
运行
复制
将结果表写进数据库里
sqlSave(channel,resul

最受欢迎的见解

1.PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的方法:决策树,随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习:在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习:推荐系统实现(以矩阵分解来协同过滤)

9.python中用pytorch机器学习分类预测银行客户流失

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 全文链接:http://tecdat.cn/?p=31644
  • 原文出处:拓端数据部落公众号
  • 数据
  • 用户名密码登陆
    • 品牌表
  • input:品牌 品牌 奶粉阶段(对应小孩年龄) 城市等级(1,2,3线城市)
  • Output
  • 用户寿命(天) 是否流失
  • 转换数据,拟合决策树模型
  • 建立决策树预测是否流失
  • 绘制决策树
    • 输出决策树cp值
    • 根据cp值对决策树进行剪枝
  • 对数据进行预测
    • 计算混淆矩阵和准确度
  • mse
  • 输出结果
  • 变量重要程度
  • 预测用户寿命.天.
  • 绘制决策树
    • 输出决策树cp值
    • 根据cp值对决策树进行剪枝
  • 进行预测
  • 输出结果
  • 变量重要程度
  • 随机森林
  • MSE误差
    • 变量重要程度
  • 混淆矩阵
  • chaid树
    • ctree
      • 混淆矩阵
  • 预测类别概率
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档