专栏首页大数据风控R分类算法-决策树算法

R分类算法-决策树算法

决策树(Decision Tree)

它通过对训练样本的学习,并建立分类规则,然后依据分类规则,对新样本数据进行分类预测,属于有监督学习。 优点: 决策树有易于理解和实现; 决策树可处理数值型和非数值型数据;

基于条件的决策树在party包里 install.packages(“party”) ctree(formula,data)

  • formula 建模表达式
  • data 训练数据

predic数据预测 predict(model,newdata=data.test)

  • model 通过训练样本得到的模型
  • newdata 需要预测的测试数据

代码实现:

#install.packages("party")
library(party)

data <- read.csv("data.csv")

formula <- CollegePlans ~ Gender+ParentIncome+IQ+ParentEncouragement
#CollegePlans ~ .

CollegePlansTree <- ctree(formula, data=data)
plot(CollegePlansTree)
plot(CollegePlansTree, type="simple")
#交叉验证
total <- nrow(data)

index <- sample(1:total, total*0.7)

data.train <- data[index, ]
data.test <- data[-index, ]

CollegePlansTree <- ctree(formula, data=data.train)

data.test.predict <- predict(CollegePlansTree, newdata=data.test)

prop.table(table(data.test$CollegePlans, data.test.predict), 1)
 data.test.predict
                           Does not plan to attend  Plans to attend 
  Does not plan to attend                0.91242236       0.08757764
  Plans to attend                        0.32531646       0.67468354

可以看到,决策树准确率70%,有待提高

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • R分类算法-神经网络算法

    神经网络(Artifical Neural Network) 神经网络(人工神经网络),是一种模仿生物网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模...

    Erin
  • Python中时间格式数据的处理

    1、时间转换 时间转换是指字符型的时间格式数据,转换成为时间型数据的过程。 一般从csv导入过来的文件,时间都保存为字符型格式的,需要转换。 时间转换函数: d...

    Erin
  • R分类算法-Logistic回归算法

    逻辑回归 Logistic Regression 所谓LR,就是一个被Logistic方程归一化后的线性回归,可以将非线性的问题转化为线性问题。 优点: ...

    Erin
  • 爬虫入门一把搜

    # -*- coding:UTF-8 -*-import urllib.requestimport urllib.parseurl = 'http://fany...

    天钧
  • ABAP和Java里关于DEFAULT(默认)机制的一些语言特性

    由此可见新语法比较简洁,能少写3行代码。但是这样有一个缺陷,在新语法下如果it_data内表内不存在object_ext的值为cl_crm_prodil_bo_...

    Jerry Wang
  • 关于css选择器的问题 + * ~这三个有什么区别

    杭州前端工程师
  • C++ string实现

    作为C++从业者,我相信都会被考察过实现简单的string类,包括构造、析构、拷贝构造以及赋值拷贝等,因为这能够很好的考察面试者的C++基本功。借看《剑指off...

    evenleo
  • Python常见数据框操作①

    用户1359560
  • 通过空气质量指数AQI学习统计分析并进行预测(上)

    AQI(空气质量指数),用来衡量空气清洁或者污染的程度。值越小,表示空气质量越好。近年来,因为环境问题,空气质量也越来越受到人们的重视。

    朱小五
  • pandas的一些小知识

    生信编程日常

扫码关注云+社区

领取腾讯云代金券