我使用随机森林回归来预测库存需求。用于培训模型的数据列出了每个日期为每个产品选择的总数量,但不包括在指定日期为某个产品选择的总数量为0的行。该模型考虑了允许它考虑日期的特性。有关正在使用的数据的详细信息,请参阅下面的示例数据:
UPC day_ID month day_of_year day_of_week quantity_picked
0 0000000002554 7500.0 5 141 1 4.0
1 0000000002554 7503.0 5 144 4 2.0
2 0000000002554 7512.0 6 153 6 2.0
3 0000000002554 7527.0 6 168 9 2.0
4 0000000003082 7494.0 5 135 2 2.0
5 0000000003082 7495.0 5 136 3 2.0
6 0000000003082 7496.0 5 137 4 8.0
7 0000000003082 7497.0 5 138 5 4.0
8 0000000003082 7498.0 5 139 6 4.0
9 0000000003082 7499.0 5 140 0 9.0
10 0000000003082 7500.0 5 141 1 3.0
11 0000000003082 7501.0 5 142 2 5.0
12 0000000003082 7502.0 5 143 3 3.0
13 0000000003082 7503.0 5 144 4 8.0
14 0000000003082 7505.0 5 146 6 2.0
15 0000000003082 7506.0 5 147 3 7.0该模型在预测库存需求时会因为缺少所选择数量为0的项目的日期而不那么精确吗?我试着用quantity =0的行运行相同的模型,但是总行数从大约500000行变化到500万行,我的计算机根本无法处理它,它只是冻结了。如果没有quantity选中的行= 0,则模型报告.39448的均方日志错误级别,并在4分37秒内成功运行。
关于该数据是否必要的任何指导都将受到非常感谢,并/或就如何提高这一模型的性能/准确性提出建议。
发布于 2019-07-10 13:03:32
一个随机森林训练的数据,其标签都是正整数,不能产生任何预测小于1。所以,该模型将是不准确的。
我建议包括一个随机子集的行0出售,以便森林可以学习(希望有代表性的)模式给他们。我也可能会在拟合算法中将它们重得更高,以便复制出更忠实的售出物品的平均值(在每片叶子中)。
https://datascience.stackexchange.com/questions/55390
复制相似问题