问基于类的缺失值替换
EN

Stack Overflow用户

提问于 2015-04-15 04:05:57

回答 1查看 35关注 0票数 1

我一直在阅读一篇关于随机森林的文章，在缺失值替换部分(home.htm#missing1)中，他们说：

如果mth变量不是范畴变量，则该方法计算j类中该变量所有值的中值，然后使用该值替换j类中mth变量的所有缺失值。

这不会破坏整个过程吗？如果某个列中的大多数值都丢失了，那么在这个过程之后，可以使用新的值来轻松地识别类，并且得到的分类器将是无用的。我是不是漏掉了什么？

machine-learning

random-forest

missing-data

回答 1

Stack Overflow用户

发布于 2015-04-16 06:54:48

得到的分类器不一定是无用的，它取决于“缺失”(特征值丢失的事件)的特征。如果它在训练集和测试集之间的分布是相同的(这是ML中普遍存在的隐式假设)，那么它就是在做正确的事情。但是，如果存在差异，则确实存在问题，例如，如果缺少的值是训练数据生成方式的一个工件，并且大部分与一个类相关联，而在测试时，特征值总是完全已知的。在这种情况下，计算结果可能会导致错误的结论，特别是当缺失值的数量很大时。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29641410

复制

相似问题

问基于类的缺失值替换
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于类的缺失值替换EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于类的缺失值替换
EN