我正在考虑如何在现实世界中应用经过训练的分类器。我们知道,当我们对数据集进行过度/欠采样以平衡数据集时,我们永远不会触及测试集,因为我们希望保持数据集的真实行为。但是,我不理解的部分是测试集的分布在分类器性能中的作用。
假设我有一个模型,可以将电子邮件标记为垃圾邮件或非垃圾邮件。如果我在我的电子邮件服务中启动这个模型,在特定的时间窗口中,我的分类器接收到的所有电子邮件都可能是非垃圾邮件。但经过训练的模型对每个类别都有50-50%的分布。我的问题是,does this difference in the distribution--during the prospective application-- change the performance of the model?
,例如,如果我的网络服务在那个时间窗口收到5个垃圾邮件和5个非垃圾邮件,我应该得到一个更准确的分类吗?根据我的理解,答案应该是否定的。尽管如此,我仍然随处可见,人们都在谈论测试分布的重要性及其在预测模型的性能和准确性中的作用。
谢谢。
发布于 2020-11-16 01:15:22
假设您将进行在线学习/增量学习,而测试集分发将产生影响。例如,由于神经网络的灾难性遗忘。
如果您正在进行批处理预测,则测试集分布没有任何区别。模型没有区别,因为它不改变ist状态。
https://datascience.stackexchange.com/questions/85476
复制