j$类的概率,并且将每一个样本中概率最大的值对应的类作为我们最终的预测结果.即$argmax_j ~ p_{ij}, j \in K$为第$i$个样本的预测结果....,N\} $的样本定义为可疑样本,表示模型对该类样本的预测没有较强把握.
而实践中我们也发现模型对于可疑样本的预测准确率往往远小于对于其他样本的预测准确率. 详细的比较可以我们放在后续的实验中。...我们在实践中发现, 在树模型的预测结果中存在较多的可疑样本,这些样本的预测准确率往往较低, 但是我们认为在同一个模型的预测概率空间中,测试集中不确定样本的预测概率分布与训练集中的不确定样本概率分布会拥有较为相似的分布...1.5.3 实验结果
实验部分我们主要希望验证如下几个结论:
随机森林相比于KNN能更好的挖掘数据之间的非线性关系,从而获得更高的准确率
随机森林在预测的高概率空间中能获得更高的准确率,在低概率空间则往往只能得到较低的准确率...从上表中我们发现模型中预测概率较高的往往也具有较高的准确率,而模型中预测分类概率较低的往往也具有较低的准确率。符合我们的认知。