我使用的是商店销售商品的历史数据集,我需要预测该期间下一个月的销售额。
我执行了功能工程,现在我有10个特点在火车组-中值,平均销售(价格和数量)。我想要执行线性回归,测试集只包含两个特性- Shop_id和Item_id。如何用10个系数进行拟合回归方程的预测,而检验结果只有2?
我不是在说做PCA??历史数据几乎没有什么历史销售特性,而测试只具有基本的功能。
数据集:竞争数据科学预测未来销售
发布于 2019-04-27 14:42:17
嗯,你这里有一个时间序列问题。
在时间序列问题中,您没有与您试图预测的变量并行的数据。这意味着您的数据在T时已经结束,您必须根据从1到T-1的数据进行预测。
另外,Shop_id和Item_id不是具有系数的回归变量,因为它们是ID,使用ID来预测导致模型通过内存学习ID数据的原因,它给出了一个过度拟合的模型。
想象一下现实生活中的情况:商店要求你预测下个月的销售额,当然,你也没有类似下个月平均价格的数据,所以你必须用两个变量的历史数据来预测。
您正在寻找的解决方案是ARIMAX模型: ARIMAX模型允许您使用诸如Sales、are等具有来自过去的信息的变量。
该模型是如何进行预测的一个例子,ID的使用可以是“每个商店的模型”。模型中的每个Sales变量都可以是一组产品。
https://datascience.stackexchange.com/questions/51015
复制相似问题