假设我开发了一个动态系统来预测一些特定股票的未来。随着时间的推移,火车将动态变化。为了更好地理解,请考虑下面的示例:
对于每一轮,我使用一个RandomSearchCV
来调优Random Forest
的超参数,以使用特定的特性来预测某些股票的回报。我的重点是在这个问题中调整超参数。
正如我所提到的,我在每一轮中都会执行一个超参数调优,这需要花费大量的时间!(特别是当火车是巨大的),所以我正在寻找一种方法,以避免这个超参数调优每轮重复。我很想知道,科学家是如何进行超参数调整的(考虑到耗时的过程)?
我应该在第一轮之前只进行一次超参数调整吗?
发布于 2022-06-30 09:27:31
一个好的超参数可以看作是一个具有一定变化的随机变量。我不会太担心找不到一个特定测试集的最佳参数。如果您确信某些参数应该有多个值,我将尝试不对所有测试集进行测试,而是使用一些步骤。请考虑,交叉验证“污染”您的评估。您肯定会在用于cv的数据上获得更乐观的度量评分。
想象一下,你有100倍的测试。您可以使用它们中的前10个用于cv,然后用前面步骤得到的最佳模型和超参数来评估接下来的10个测试n倍。这10倍会给你更现实的分数。然后重复捆绑(10 cv折叠+ 10评估折叠)。
另外,如果您确实使用了大小为2的测试集,那么您对超参数的估计可能会有太大的变化。你可以把它和更大的测试折叠尺寸进行比较。
https://datascience.stackexchange.com/questions/112244
复制相似问题