腾讯云

文章/答案/技术大牛

发布

社区首页 >问答首页 >基于R的随机森林过度拟合文本分类

问基于R的随机森林过度拟合文本分类
EN

Stack Overflow用户

提问于 2019-12-06 10:23:29

回答 1查看 306关注 0票数 0

我已经训练过模型，而经过训练的模型的准确性就会出现在99.9%上。但当我拟合模型进行测试时，数据的准确性仅为59.5%。我正在进行文本分类，并使用随机森林。

我有几个问题。

我能接受这个模型吗? overfitting?

How的情况是

，我能摆脱过度适应吗？

confusionMatrix(PD3，train$Label )混淆矩阵与统计

      Reference

预测高、低、中、高116 0 0 0低0 120 1介质0 1 233

总体统计

           Accuracy : 0.9958          
             95% CI : (0.9847, 0.9995)
No Information Rate : 0.4968          
P-Value [Acc > NIR] : < 2.2e-16       

              Kappa : 0.9932

麦克尼马尔试验P值: NA

按类别划分的统计数字：

 Class: HIGH Class: LOW Class: MEDIUM

Sensitivity               1.0000     0.9917        0.9957
Specificity               1.0000     0.9971        0.9958
Pos Pred Value            1.0000     0.9917        0.9957
Neg Pred Value            1.0000     0.9971        0.9958
Prevalence                0.2463     0.2569        0.4968
Detection Rate            0.2463     0.2548        0.4947
Detection Prevalence      0.2463     0.2569        0.4968
Balanced Accuracy         1.0000     0.9944        0.9958

confusionMatrix(PD4，test$Label )混淆矩阵和统计参考

Prediction HIGH LOW MEDIUM
    HIGH     24   0      5
    LOW       2  10     10
    MEDIUM   23  41     85

总体统计

               Accuracy : 0.595           
                 95% CI : (0.5235, 0.6637)
    No Information Rate : 0.5             
    P-Value [Acc > NIR] : 0.004361        

                  Kappa : 0.2818

麦克尼马尔试验P-值: 4.28e-07

按类别划分的统计数字：

                     Class: HIGH Class: LOW Class: MEDIUM
Sensitivity               0.4898     0.1961        0.8500
Specificity               0.9669     0.9195        0.3600
Pos Pred Value            0.8276     0.4545        0.5705
Neg Pred Value            0.8538     0.7697        0.7059
Prevalence                0.2450     0.2550        0.5000
Detection Rate            0.1200     0.0500        0.4250
Detection Prevalence      0.1450     0.1100        0.7450
Balanced Accuracy         0.7283     0.5578        0.6050

text-mining

multiclass-classification

回答 1

Stack Overflow用户

发布于 2019-12-06 10:49:30

我认为这是一个过度适应的明显例子

在处理文本分类时，通常在应用任何模型之前应用大量数据清理是很好的做法，因为您有大量的变量。你把它修剪好了，把它干了，然后去掉了，停止了词句吗？此外，我建议您使用交叉验证来选择您的模型。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59211237

复制

相似问题

问基于R的随机森林过度拟合文本分类
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于R的随机森林过度拟合文本分类EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于R的随机森林过度拟合文本分类
EN