我一直在阅读一篇关于随机森林的文章,在缺失值替换部分(home.htm#missing1)中,他们说:
如果mth变量不是范畴变量,则该方法计算j类中该变量所有值的中值,然后使用该值替换j类中mth变量的所有缺失值。
这不会破坏整个过程吗?如果某个列中的大多数值都丢失了,那么在这个过程之后,可以使用新的值来轻松地识别类,并且得到的分类器将是无用的。我是不是漏掉了什么?
发布于 2015-04-16 06:54:48
得到的分类器不一定是无用的,它取决于“缺失”(特征值丢失的事件)的特征。如果它在训练集和测试集之间的分布是相同的(这是ML中普遍存在的隐式假设),那么它就是在做正确的事情。但是,如果存在差异,则确实存在问题,例如,如果缺少的值是训练数据生成方式的一个工件,并且大部分与一个类相关联,而在测试时,特征值总是完全已知的。在这种情况下,计算结果可能会导致错误的结论,特别是当缺失值的数量很大时。
https://stackoverflow.com/questions/29641410
复制相似问题