首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >处理不准确(不正确)数据集

处理不准确(不正确)数据集
EN

Stack Overflow用户
提问于 2015-06-23 07:53:34
回答 1查看 1.2K关注 0票数 1

这是我的问题描述:

“根据”家庭收入和财富调查“,我们需要找出收入和支出最高的10%家庭,但我们知道,这些收集到的数据由于许多错报而不可靠,尽管有这些错报,但我们在数据集中有一些确实可靠的特征,但这些特征只是每个家庭财富信息的一小部分。”

不可靠的数据意味着家庭向政府撒谎。这些家庭为了不公平地获得更多的政府服务而歪曲他们的收入和财富。因此,原始数据中的这些欺骗性陈述将导致不正确的结果和模式。

现在,我有以下问题:

  • 我们应该如何处理数据科学中不可靠的数据?
  • 有没有办法找出这些错误陈述,然后用机器学习算法报告最富有的10%的人?-How,我们能在这项研究中评估我们的错误吗?既然我们有未标记的数据集,我应该寻找标记技术吗?或者,我应该使用无监督的方法吗?或者,我应该使用半监督的学习方法吗?
  • 在机器学习中是否有任何想法或应用来提高收集到的数据的质量?

请向我介绍任何能在这个问题上帮助我的想法或参考资料。

提前谢谢。

EN

回答 1

Stack Overflow用户

发布于 2015-06-23 12:44:28

问:我们应该如何处理数据科学中不可靠的数据?

答:使用功能工程来修复不可靠的数据(对不可靠的数据进行一些转换以使其可靠)或完全删除它们--糟糕的特性会显著降低模型的质量。

问:有没有办法找出这些错误陈述,然后用机器学习算法报告10%最富有的人?

答:毫升算法不是魔术棒,除非你告诉他们你在找什么,否则它们什么都找不出来。你能描述一下“不可靠”的意思吗?如果是,您可以使用特性工程或编写一段代码来修复数据,就像我提到的那样。否则,没有任何ML算法能够帮助您,如果没有您想要实现的目标的描述。

问:机器学习中是否有任何想法或应用,试图提高收集到的数据的质量?

答:我不认为仅仅因为这个问题本身就太开放了.什么是“数据的质量”?

一般来说,下面有几件事情需要你考虑:

1)花点时间搜索功能工程指南。它们介绍了如何为您准备数据的ML算法,改进它,修复它。良好的数据和良好的特性显着地增加了结果。

2)您不需要使用原始数据中的所有特性。原始数据集的一些特性是没有意义的,您不需要使用它们。尝试运行渐变提升机器或随机森林分类器从scikit学习在您的数据集执行分类(或回归,如果您做回归)。这些算法还评估了原始数据集中每个特征的重要性。您的部分功能对于分类的重要性将非常低,因此您可能希望完全放弃它们,或者尝试将不重要的特性组合在一起,从而产生更重要的东西。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30996952

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档