我现在正在参加几个Kaggle机器学习比赛,我有一个简单的问题。为什么我们要使用交叉验证来评估我们的算法在这些比赛中的有效性?
当然,在这些比赛中,你在公开排行榜上的分数,你的算法是根据实际的实时数据进行测试的,这会让你更准确地表达你的算法效能吗?
发布于 2014-01-30 00:46:06
交叉验证是建立模型的必要步骤。如果交叉验证会给您带来糟糕的结果,即使在实时数据上尝试也是没有意义的。您正在培训和验证的集合也是实时数据,不是吗?因此,结果应该是相似的。如果不验证您的模型,您就无法深入了解它的性能。在训练集上获得100%准确率的模型可以在验证集上给出随机结果。
让我重复一遍,交叉验证不是实时数据测试的替代品,它是模型构建过程的一部分。
https://stackoverflow.com/questions/21445750
复制相似问题