首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >基于R的随机森林过度拟合文本分类

基于R的随机森林过度拟合文本分类
EN

Stack Overflow用户
提问于 2019-12-06 10:23:29
回答 1查看 306关注 0票数 0

我已经训练过模型,而经过训练的模型的准确性就会出现在99.9%上。但当我拟合模型进行测试时,数据的准确性仅为59.5%。我正在进行文本分类,并使用随机森林。

我有几个问题。

我能接受这个模型吗? overfitting?

  • How的情况是

  • ,我能摆脱过度适应吗?

confusionMatrix(PD3,train$Label )混淆矩阵与统计

代码语言:javascript
代码运行次数:0
运行
复制
      Reference

预测高、低、中、高116 0 0 0低0 120 1介质0 1 233

总体统计

代码语言:javascript
代码运行次数:0
运行
复制
           Accuracy : 0.9958          
             95% CI : (0.9847, 0.9995)
No Information Rate : 0.4968          
P-Value [Acc > NIR] : < 2.2e-16       

              Kappa : 0.9932          

麦克尼马尔试验P值: NA

按类别划分的统计数字:

代码语言:javascript
代码运行次数:0
运行
复制
 Class: HIGH Class: LOW Class: MEDIUM

Sensitivity               1.0000     0.9917        0.9957
Specificity               1.0000     0.9971        0.9958
Pos Pred Value            1.0000     0.9917        0.9957
Neg Pred Value            1.0000     0.9971        0.9958
Prevalence                0.2463     0.2569        0.4968
Detection Rate            0.2463     0.2548        0.4947
Detection Prevalence      0.2463     0.2569        0.4968
Balanced Accuracy         1.0000     0.9944        0.9958

confusionMatrix(PD4,test$Label )混淆矩阵和统计参考

代码语言:javascript
代码运行次数:0
运行
复制
Prediction HIGH LOW MEDIUM
    HIGH     24   0      5
    LOW       2  10     10
    MEDIUM   23  41     85

总体统计

代码语言:javascript
代码运行次数:0
运行
复制
               Accuracy : 0.595           
                 95% CI : (0.5235, 0.6637)
    No Information Rate : 0.5             
    P-Value [Acc > NIR] : 0.004361        

                  Kappa : 0.2818          

麦克尼马尔试验P-值: 4.28e-07

按类别划分的统计数字:

代码语言:javascript
代码运行次数:0
运行
复制
                     Class: HIGH Class: LOW Class: MEDIUM
Sensitivity               0.4898     0.1961        0.8500
Specificity               0.9669     0.9195        0.3600
Pos Pred Value            0.8276     0.4545        0.5705
Neg Pred Value            0.8538     0.7697        0.7059
Prevalence                0.2450     0.2550        0.5000
Detection Rate            0.1200     0.0500        0.4250
Detection Prevalence      0.1450     0.1100        0.7450
Balanced Accuracy         0.7283     0.5578        0.6050
EN

回答 1

Stack Overflow用户

发布于 2019-12-06 10:49:30

我认为这是一个过度适应的明显例子

在处理文本分类时,通常在应用任何模型之前应用大量数据清理是很好的做法,因为您有大量的变量。你把它修剪好了,把它干了,然后去掉了,停止了词句吗?此外,我建议您使用交叉验证来选择您的模型。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59211237

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档