我正在尝试构建一个二进制分类器。我尝试过各种不同结构和参数的深层神经网络,没有比
Train set accuracy : 0.70102
Test set accuracy : 0.70001
然后,我尝试了机器学习算法,如KNN和决策树等,我发现来自Scikit-学习和n_estimators=100的随机林分类器给了我
Train set accuracy : 1.0
Test set accuracy : 0.924068
我尝试过调整其他参数,如max_depth、criterion等,但训练集精度的下降也导致了测试集的精度下降。喜欢
Train set accuracy : 0.8
我已经创建了一个文本分类器,它将评论分类为各种类别,例如
Comment Category
Good Service provided Service
Excellent Communication Communication
我已经使用以下命令进行了分类:
knn(modeldata[train, ], modeldata[test,] , cl[train], k =2, use.all = TRUE)
现在我想使用K-折叠交叉验证来评估这个模型。我正在等待
我在分析中使用了分类决策树。首先,我将整个数据分为训练和测试- 60%:40%。然后我在我的训练集上使用GridSearch来获得最佳得分模型(max_depth=7)。然后在交叉验证集和训练集上绘制学习曲线。这是我得到的图表。似乎有两条线是重叠的。那么它告诉我什么呢?在我的模型中没有过度拟合?总的来说,为什么我们在分析中需要学习曲线? Link to my learning curve image 非常感谢!