我的机器学习模型在很大程度上超过了训练数据,但在测试数据上仍然表现得很好。当使用神经网络方法时,每次迭代都会略微增加测试集上的精度,但会大大提高训练集上的精度(过拟合)。
在使用带有CNN架构的spacy时,这个问题得到了很好的演示,我得到了以下结果
ITER LOSS P R F TF
0 29.305 0.733 0.342 0.466 0.525
1 10.410 0.811 0.443 0.573 0.650
2 4.361 0.722 0.548 0.62
我正在使用Weka软件对模型进行分类。我对使用训练和测试数据集分区感到困惑。我将整个数据集的60%划分为训练数据集,并将其保存到我的硬盘上,将40%的数据用作测试数据集,并将这些数据保存到另一个文件中。我使用的数据是不平衡的数据。因此,我在我的训练数据集中应用了SMOTE。之后,在Weka的分类选项卡中,我从Test options中选择了Use training set选项,并使用随机森林分类器对训练数据集进行分类。在获得结果之后,我从Test options中选择了Supplied test set选项,并从硬盘加载我的测试数据集,然后再次运行分类器。 我试图找到关于如何在Weka中加载