文章/答案/技术大牛

发布

社区首页 >问答首页 >数据集随机样本上超参数整定的缺点

问数据集随机样本上超参数整定的缺点
EN

Data Science用户

提问于 2019-01-16 18:16:48

回答 2查看 628关注 0票数 1

我经常使用非常大的数据集，在构建机器学习模型时检查所有相关的超参数组合是不切实际的。我正在考虑随机采样数据集，然后使用该示例执行超参数调优。然后，我将使用所选的超参数使用完整的数据集来训练/测试模型。

这种方法的缺点是什么？

machine-learning

bigdata

sampling

hyperparameter-tuning

回答 2

Data Science用户

回答已采纳

发布于 2019-01-17 14:15:10

良好做法之一是为管道的每个优化/培训步骤在dataset中创建一个拆分。由于您有大型数据集，所以应该有足够的数据将原始数据集拆分为多个子集，并且每个步骤仍然有相关的行数。因此，例如，您可以将数据集划分为60%的训练、20%的超参数调优和20%的测试。

重要的是要避免使用相同的数据对超参数进行优化，因为这可能导致将模型的两个调优步骤过度拟合到相同的数据源。

此外，要注意如何对原始数据源进行采样。在处理高度偏斜的分类特征时，随机抽样会导致测试集中的类别在训练过程中不被观察到，从而导致某些模型的破坏。此外，数值特征在训练和测试集之间应该有相似的分布。

票数 1

Data Science用户

发布于 2019-01-17 16:04:24

您也许可以使用嵌套交叉验证，其中您将数据划分为N个折叠，然后将每个折叠进一步划分为一个训练和测试集，并使用它们为该折叠找到最佳的超参数，等等。在此最好解释如下：

https://stats.stackexchange.com/a/45739

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/44109

复制

相似问题

问数据集随机样本上超参数整定的缺点
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据集随机样本上超参数整定的缺点EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据集随机样本上超参数整定的缺点
EN