首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >数据清理技术

数据清理技术
EN

Data Science用户
提问于 2021-01-24 14:37:03
回答 1查看 45关注 0票数 0

我已经为这个问题挣扎了几个星期,但这似乎超出了我的能力范围。我有55周的产品销售数据。它包含关于商店ID和产品ID的信息。但是,一些数据丢失了。一些存储ID在55周内没有连续的数据,而一些项ID没有连续的数据。此外,存储ID和项ID的组合缺少数据点。在我的模型中,有什么最有效的方法来决定掉什么和保留什么以获得最好的结果?如果我预测的产品是连续的,这是一个好的开始,但我不知道什么是最好的组合商店和项目下降。

EN

回答 1

Data Science用户

发布于 2021-01-24 19:01:20

检查每列中缺少的值。如果它很高,那么您应该删除该列,否则您就可以尝试将缺失的值计算出来。对于后者,您可以用平均值(中位数或模式等)替换它们,或者尝试使用其他已知值来预测它们。您应该检查这些值是否是随机传递的。

票数 -1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/88405

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档