在本篇文章中,我们针对多分类问题提出了一种将随机森林和KNN算法相结合框架,我们先用训练数据对随机森林模型进行训练然后用训练好的随机森林模型对我们的训练集和测试集进行预测分别得到训练集和测试集的概率矩阵...j$类的概率,并且将每一个样本中概率最大的值对应的类作为我们最终的预测结果.即$argmax_j ~ p_{ij}, j \in K$为第$i$个样本的预测结果....1.5.3 实验结果
实验部分我们主要希望验证如下几个结论:
随机森林相比于KNN能更好的挖掘数据之间的非线性关系,从而获得更高的准确率
随机森林在预测的高概率空间中能获得更高的准确率,在低概率空间则往往只能得到较低的准确率...从上表中我们发现模型中预测概率较高的往往也具有较高的准确率,而模型中预测分类概率较低的往往也具有较低的准确率。符合我们的认知。...,我们将0.5作为测试集的置信阈值,与上面实验的不同之处在于我们对训练集的预测结果设置阈值[0.25,0.3,0.35,0.4,0.45,0.5,0.55,0.6,0.65],将随机森林对于训练集预测结果小于某一阈值的结果作为噪音删去