首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >随机森林回归器所需输入及提高性能的方法

随机森林回归器所需输入及提高性能的方法
EN

Data Science用户
提问于 2019-07-09 19:40:40
回答 1查看 68关注 0票数 1

我使用随机森林回归来预测库存需求。用于培训模型的数据列出了每个日期为每个产品选择的总数量,但不包括在指定日期为某个产品选择的总数量为0的行。该模型考虑了允许它考虑日期的特性。有关正在使用的数据的详细信息,请参阅下面的示例数据:

代码语言:javascript
运行
复制
                 UPC  day_ID  month    day_of_year  day_of_week  quantity_picked
0      0000000002554  7500.0      5            141            1              4.0
1      0000000002554  7503.0      5            144            4              2.0
2      0000000002554  7512.0      6            153            6              2.0
3      0000000002554  7527.0      6            168            9              2.0
4      0000000003082  7494.0      5            135            2              2.0
5      0000000003082  7495.0      5            136            3              2.0
6      0000000003082  7496.0      5            137            4              8.0
7      0000000003082  7497.0      5            138            5              4.0
8      0000000003082  7498.0      5            139            6              4.0
9      0000000003082  7499.0      5            140            0              9.0
10     0000000003082  7500.0      5            141            1              3.0
11     0000000003082  7501.0      5            142            2              5.0
12     0000000003082  7502.0      5            143            3              3.0
13     0000000003082  7503.0      5            144            4              8.0
14     0000000003082  7505.0      5            146            6              2.0
15     0000000003082  7506.0      5            147            3              7.0

该模型在预测库存需求时会因为缺少所选择数量为0的项目的日期而不那么精确吗?我试着用quantity =0的行运行相同的模型,但是总行数从大约500000行变化到500万行,我的计算机根本无法处理它,它只是冻结了。如果没有quantity选中的行= 0,则模型报告.39448的均方日志错误级别,并在4分37秒内成功运行。

关于该数据是否必要的任何指导都将受到非常感谢,并/或就如何提高这一模型的性能/准确性提出建议。

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-07-10 13:03:32

一个随机森林训练的数据,其标签都是正整数,不能产生任何预测小于1。所以,该模型将是不准确的。

我建议包括一个随机子集的行0出售,以便森林可以学习(希望有代表性的)模式给他们。我也可能会在拟合算法中将它们重得更高,以便复制出更忠实的售出物品的平均值(在每片叶子中)。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/55390

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档