一般情况下,模型偏向于训练数据集中频率较高的数据样本/目标。在训练过程中,模型是否可能偏向低频训练数据集。
发布于 2019-05-24 08:57:03
对于结构化数据,您通常面临4项挑战:
(1)缺失的数据
(2)异常值
(3)基数
(4)稀有值(经验法则<5%)
分类变量中的稀有值往往会导致过度拟合,特别是在基于树的方法中。博士数据科学家Soledad在这方面有一个惊人的课程(Udemy:“功能工程”)。下面是她课程的截图,但公平地说,我不打算发布解决方案。
https://datascience.stackexchange.com/questions/52508
复制相似问题