首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >基于类的缺失值替换

基于类的缺失值替换
EN

Stack Overflow用户
提问于 2015-04-15 04:05:57
回答 1查看 35关注 0票数 1

我一直在阅读一篇关于随机森林的文章,在缺失值替换部分(home.htm#missing1)中,他们说:

如果mth变量不是范畴变量,则该方法计算j类中该变量所有值的中值,然后使用该值替换j类中mth变量的所有缺失值。

这不会破坏整个过程吗?如果某个列中的大多数值都丢失了,那么在这个过程之后,可以使用新的值来轻松地识别类,并且得到的分类器将是无用的。我是不是漏掉了什么?

EN

回答 1

Stack Overflow用户

发布于 2015-04-16 06:54:48

得到的分类器不一定是无用的,它取决于“缺失”(特征值丢失的事件)的特征。如果它在训练集和测试集之间的分布是相同的(这是ML中普遍存在的隐式假设),那么它就是在做正确的事情。但是,如果存在差异,则确实存在问题,例如,如果缺少的值是训练数据生成方式的一个工件,并且大部分与一个类相关联,而在测试时,特征值总是完全已知的。在这种情况下,计算结果可能会导致错误的结论,特别是当缺失值的数量很大时。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29641410

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档