我正在尝试用多元线性回归模型来预测员工的薪水。我总共有88个相关的特征,其中19个是分类的,其余的是连续的。我设法将连续特性的数量从69个减少到41个。现在我试图减少分类特征的数量,但是由于我的数据不是正态分布的,所以我不能使用t检验或方差分析。我还可以使用哪些其他测试来判断这些特性对于预测目标是否有意义呢?
发布于 2020-04-13 09:11:38
如果我正确理解了您的问题,您将询问如何减少数据集中的分类功能。如果是,那么我可以想到的几种方法是:
发布于 2021-10-06 11:49:04
注意特征的选择!不要仅仅依赖于特性选择技术。他们有时可能会产生误导。以下是我通常遵循的过程:
1.)首先要做的就是构建一个基线模型,在模型中考虑所有的特性并记录性能。这将给你一个比较基准的分数。(这里不要执行超参数调优!)
2.)现在执行功能工程,看看是否可以将多个特性组合到一个单一的特性中。例如,您有三个特点,如日期,月和年的汽车销售。您可以将它们全部合并成一个单一的功能年龄。这将减少数据集的维度。
3.)在这里,您尝试从特性中删除任何异常值/无意义的值。例如,在预测汽车价格的情况下,汽车年份为1900年。这是一个荒谬的价值,将无助于模型。你可以安全地把它移走。(小心地对待离群人,因为移除他们不是唯一的解决方案,但这本身就是另一个话题!)
4.)现在您可以执行功能选择了。您可以使用很多技术,比如基于过滤器的技术、基于包装的技术和混合技术。但不要盲目地使用这些东西,因为它们可能会误导人。相反,首先使用主题专家来删除任何冗余的特性(这就是我通常所做的)。
应用上述所有内容通常会导致冗余特性的删除。如果不只是进行第4点中提到的特性选择技术。)。
希望它能帮到你!
https://datascience.stackexchange.com/questions/72167
复制相似问题