我已经训练过模型,而经过训练的模型的准确性就会出现在99.9%
上。但当我拟合模型进行测试时,数据的准确性仅为59.5%
。我正在进行文本分类,并使用随机森林。
我有几个问题。
我能接受这个模型吗? overfitting?
confusionMatrix(PD3,train$Label )混淆矩阵与统计
Reference
预测高、低、中、高116 0 0 0低0 120 1介质0 1 233
总体统计
Accuracy : 0.9958
95% CI : (0.9847, 0.9995)
No Information Rate : 0.4968
P-Value [Acc > NIR] : < 2.2e-16
Kappa : 0.9932
麦克尼马尔试验P值: NA
按类别划分的统计数字:
Class: HIGH Class: LOW Class: MEDIUM
Sensitivity 1.0000 0.9917 0.9957
Specificity 1.0000 0.9971 0.9958
Pos Pred Value 1.0000 0.9917 0.9957
Neg Pred Value 1.0000 0.9971 0.9958
Prevalence 0.2463 0.2569 0.4968
Detection Rate 0.2463 0.2548 0.4947
Detection Prevalence 0.2463 0.2569 0.4968
Balanced Accuracy 1.0000 0.9944 0.9958
confusionMatrix(PD4,test$Label )混淆矩阵和统计参考
Prediction HIGH LOW MEDIUM
HIGH 24 0 5
LOW 2 10 10
MEDIUM 23 41 85
总体统计
Accuracy : 0.595
95% CI : (0.5235, 0.6637)
No Information Rate : 0.5
P-Value [Acc > NIR] : 0.004361
Kappa : 0.2818
麦克尼马尔试验P-值: 4.28e-07
按类别划分的统计数字:
Class: HIGH Class: LOW Class: MEDIUM
Sensitivity 0.4898 0.1961 0.8500
Specificity 0.9669 0.9195 0.3600
Pos Pred Value 0.8276 0.4545 0.5705
Neg Pred Value 0.8538 0.7697 0.7059
Prevalence 0.2450 0.2550 0.5000
Detection Rate 0.1200 0.0500 0.4250
Detection Prevalence 0.1450 0.1100 0.7450
Balanced Accuracy 0.7283 0.5578 0.6050
发布于 2019-12-06 02:49:30
我认为这是一个过度适应的明显例子
在处理文本分类时,通常在应用任何模型之前应用大量数据清理是很好的做法,因为您有大量的变量。你把它修剪好了,把它干了,然后去掉了,停止了词句吗?此外,我建议您使用交叉验证来选择您的模型。
https://stackoverflow.com/questions/59211237
复制相似问题