我已经为这个问题挣扎了几个星期,但这似乎超出了我的能力范围。我有55周的产品销售数据。它包含关于商店ID和产品ID的信息。但是,一些数据丢失了。一些存储ID在55周内没有连续的数据,而一些项ID没有连续的数据。此外,存储ID和项ID的组合缺少数据点。在我的模型中,有什么最有效的方法来决定掉什么和保留什么以获得最好的结果?如果我预测的产品是连续的,这是一个好的开始,但我不知道什么是最好的组合商店和项目下降。
发布于 2021-01-24 19:01:20
检查每列中缺少的值。如果它很高,那么您应该删除该列,否则您就可以尝试将缺失的值计算出来。对于后者,您可以用平均值(中位数或模式等)替换它们,或者尝试使用其他已知值来预测它们。您应该检查这些值是否是随机传递的。
https://datascience.stackexchange.com/questions/88405
复制相似问题