首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >当测试集仍然不平衡时,“过度抽样”的目的是什么?

当测试集仍然不平衡时,“过度抽样”的目的是什么?
EN

Data Science用户
提问于 2019-08-21 03:54:53
回答 1查看 447关注 0票数 1

我知道培训集和测试集都应该有相同的分布,也知道我们不应该触及测试集(就过度抽样而言)。但是我们知道过度采样训练集(特别是在多类分类中)完全改变了训练集的分布。例如:

  • 过量取样前我的训练集分布为: 90%,5%,3%,2% 适用于A、B、C和D类。
  • 过量取样后我的训练集分布为: 25%,25%,25%,25% 适用于A、B、C和D类。
  • 采用分层交叉验证的训练集分布为: 90%、5%、3%、1% 适用于A、B、C和D类 ->作为分层保持原始数据分布。

请有人解释一下,为什么当训练和测试集都需要相同的分布时,我们会使用过度抽样?

EN

回答 1

Data Science用户

发布于 2019-08-21 11:51:56

请有人解释一下,为什么当训练和测试集都需要相同的分布时,我们会使用过度抽样?

我们使用它是因为培训和测试集不需要有相同的标签分布。重要的是测试集来自与“真实”数据相同的分布,因此它提供了一个可靠的度量。只要测试结果良好,就可以根据您认为合适的情况对培训集进行抽样。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/57917

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档