问向低频数据倾斜的模型？
EN

Data Science用户

提问于 2019-05-24 02:59:13

回答 1查看 135关注 0票数 1

一般情况下，模型偏向于训练数据集中频率较高的数据样本/目标。在训练过程中，模型是否可能偏向低频训练数据集。

发布于 2019-05-24 08:57:03

对于结构化数据，您通常面临4项挑战：

(1)缺失的数据

(2)异常值

(3)基数

(4)稀有值(经验法则<5%)

分类变量中的稀有值往往会导致过度拟合，特别是在基于树的方法中。博士数据科学家Soledad在这方面有一个惊人的课程(Udemy：“功能工程”)。下面是她课程的截图，但公平地说，我不打算发布解决方案。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/52508

复制

相似问题

问向低频数据倾斜的模型？EN