我知道培训集和测试集都应该有相同的分布,也知道我们不应该触及测试集(就过度抽样而言)。但是我们知道过度采样训练集(特别是在多类分类中)完全改变了训练集的分布。例如:
请有人解释一下,为什么当训练和测试集都需要相同的分布时,我们会使用过度抽样?
发布于 2019-08-21 11:51:56
请有人解释一下,为什么当训练和测试集都需要相同的分布时,我们会使用过度抽样?
我们使用它是因为培训和测试集不需要有相同的标签分布。重要的是测试集来自与“真实”数据相同的分布,因此它提供了一个可靠的度量。只要测试结果良好,就可以根据您认为合适的情况对培训集进行抽样。
https://datascience.stackexchange.com/questions/57917
复制相似问题