文章/答案/技术大牛

发布

社区首页 >问答首页 >随机森林回归器所需输入及提高性能的方法

问随机森林回归器所需输入及提高性能的方法
EN

Data Science用户

提问于 2019-07-09 19:40:40

回答 1查看 68关注 0票数 1

我使用随机森林回归来预测库存需求。用于培训模型的数据列出了每个日期为每个产品选择的总数量，但不包括在指定日期为某个产品选择的总数量为0的行。该模型考虑了允许它考虑日期的特性。有关正在使用的数据的详细信息，请参阅下面的示例数据：

                 UPC  day_ID  month    day_of_year  day_of_week  quantity_picked
0      0000000002554  7500.0      5            141            1              4.0
1      0000000002554  7503.0      5            144            4              2.0
2      0000000002554  7512.0      6            153            6              2.0
3      0000000002554  7527.0      6            168            9              2.0
4      0000000003082  7494.0      5            135            2              2.0
5      0000000003082  7495.0      5            136            3              2.0
6      0000000003082  7496.0      5            137            4              8.0
7      0000000003082  7497.0      5            138            5              4.0
8      0000000003082  7498.0      5            139            6              4.0
9      0000000003082  7499.0      5            140            0              9.0
10     0000000003082  7500.0      5            141            1              3.0
11     0000000003082  7501.0      5            142            2              5.0
12     0000000003082  7502.0      5            143            3              3.0
13     0000000003082  7503.0      5            144            4              8.0
14     0000000003082  7505.0      5            146            6              2.0
15     0000000003082  7506.0      5            147            3              7.0

该模型在预测库存需求时会因为缺少所选择数量为0的项目的日期而不那么精确吗？我试着用quantity =0的行运行相同的模型，但是总行数从大约500000行变化到500万行，我的计算机根本无法处理它，它只是冻结了。如果没有quantity选中的行= 0，则模型报告.39448的均方日志错误级别，并在4分37秒内成功运行。

关于该数据是否必要的任何指导都将受到非常感谢，并/或就如何提高这一模型的性能/准确性提出建议。

machine-learning

scikit-learn

random-forest

data-science-model

回答 1

Data Science用户

回答已采纳

发布于 2019-07-10 13:03:32

一个随机森林训练的数据，其标签都是正整数，不能产生任何预测小于1。所以，该模型将是不准确的。

我建议包括一个随机子集的行0出售，以便森林可以学习(希望有代表性的)模式给他们。我也可能会在拟合算法中将它们重得更高，以便复制出更忠实的售出物品的平均值(在每片叶子中)。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/55390

复制

相似问题

问随机森林回归器所需输入及提高性能的方法
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问随机森林回归器所需输入及提高性能的方法EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问随机森林回归器所需输入及提高性能的方法
EN