,我们可以知道,使用CountVectorizer在不去掉停用词的条件下,对训练和测试文本进行特征量化,并利用默认配置的朴素贝叶斯分类器,在测试文本上可以得到83.977%的预测准确性。...,在相同的训练和测试数据上,对新的特征量化方式进行性能评估。...,可得出结论:在使用TfidfVectorizer而不去掉停用词的条件下,对训练和测试文本进行特征量化,并利用默认配置的朴素贝叶斯分类器,在测试文本上可以得到比CountVectorizer更加高的预测准确性...那么模型在测试集上的准确性约为81.15%;
如果筛选前20%维度的特征,在相同的模型配置下进行预测,那么在测试集上表现的准确性约为82.06%;
如果按照固定的间隔采用不同百分比的特征进行训练与测试,...那么交叉验证得出的准确性有着很大的波动,最好的模型性能表现在选取前7%维度的特征的时候;
如果使用前7%维度的特征,那么最终决策树模型可以在该分类预测任务的测试集上表现出85.71%的准确性,比起最初使用全部特征的模型性能高出接近