我正在用XGBoost来尝试基于社交媒体情绪来预测股市的走向。在阅读了一些研究之后,我计划将培训/测试数据按时间段分开,例如使用2014-2016年的数据进行培训,使用2016-2018年的数据进行测试。
考虑到我正在使用的数据的性质,这是否具有直觉意义?
我很高兴提供更多的细节,这将是有帮助的,谢谢。
发布于 2020-07-06 15:48:40
当您使用时间序列数据时,最新的数据将尽可能地捕获最相关的信息,因此将它们包含在培训数据中更为谨慎。因此,更谨慎的决定是选择前滚分区。
前滚分割:我们从一个较短的训练周期开始,并逐渐增加它,在每次迭代训练时,我们在当前的训练周期上训练它,并使它预测下一个数据间隔。这将需要更多的培训时间,但它模拟了我们将在部署期间所做的事情,我们希望定期对我们的模型进行培训,以保持它的最新。
你可以找到更多关于它的这里,这里和这里。
https://datascience.stackexchange.com/questions/77235
相似问题