在本文中,我们使用了逻辑回归、决策树和随机森林模型来对信用数据集进行分类预测并比较了它们的性能
数据集是
credit=read.csv("gecredit.csv", header = TRUE, sep... = ",")
看起来所有变量都是数字变量,但实际上,大多数都是因子变量,
> str(credit)
'data.frame': 1000 obs. of 21 variables:
$ Creditability...让我们将分类变量转换为因子变量,
> F=c(1,2,4,5,7,8,9,10,11,12,13,15,16,17,18,19,20)
> for(i in F) credit[,i]=as.factor...(credit))[-i_test]
我们可以拟合的第一个模型是对选定协变量的逻辑回归
> LogisticModel <- glm(Creditability ~ Account.Balance + ... glm(Creditability ~ .,
+ family=binomial,
+ data = credit[i_calibrat
----
我们可能在这里过拟合,可以在ROC曲线上观察到