首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如果数据不是正态分布的,如何使用分类变量和连续目标进行特征选择?

如果数据不是正态分布的,如何使用分类变量和连续目标进行特征选择?
EN

Data Science用户
提问于 2020-04-12 10:15:10
回答 2查看 2K关注 0票数 2

我正在尝试用多元线性回归模型来预测员工的薪水。我总共有88个相关的特征,其中19个是分类的,其余的是连续的。我设法将连续特性的数量从69个减少到41个。现在我试图减少分类特征的数量,但是由于我的数据不是正态分布的,所以我不能使用t检验或方差分析。我还可以使用哪些其他测试来判断这些特性对于预测目标是否有意义呢?

EN

回答 2

Data Science用户

发布于 2020-04-13 09:11:38

如果我正确理解了您的问题,您将询问如何减少数据集中的分类功能。如果是,那么我可以想到的几种方法是:

  1. 迭代过程--建立一个包含所有数值特征和一个分类特征的模型,然后通过您所使用的任何度量来评估您对模型的改进,然后添加其他分类特性等等。因此,如果您有N个分类特性,您将构建N+1模型。
  2. 预测变量和目标变量的卡方检验。
  3. (我所使用的)使用所有可用的特性构建一个模型,并度量它的性能,然后使用该模型的特性重要性功能来确定哪些特性是重要的。在线性回归的情况下,系数值越高,特征值越好。或者,您可以使用L1正则化来检查非零特性。在考虑线性回归中的特征重要性之前,一定要检查多重共线性.
票数 0
EN

Data Science用户

发布于 2021-10-06 11:49:04

注意特征的选择!不要仅仅依赖于特性选择技术。他们有时可能会产生误导。以下是我通常遵循的过程:

1.)首先要做的就是构建一个基线模型,在模型中考虑所有的特性并记录性能。这将给你一个比较基准的分数。(这里不要执行超参数调优!)

2.)现在执行功能工程,看看是否可以将多个特性组合到一个单一的特性中。例如,您有三个特点,如日期,月和年的汽车销售。您可以将它们全部合并成一个单一的功能年龄。这将减少数据集的维度。

3.)在这里,您尝试从特性中删除任何异常值/无意义的值。例如,在预测汽车价格的情况下,汽车年份为1900年。这是一个荒谬的价值,将无助于模型。你可以安全地把它移走。(小心地对待离群人,因为移除他们不是唯一的解决方案,但这本身就是另一个话题!)

4.)现在您可以执行功能选择了。您可以使用很多技术,比如基于过滤器的技术、基于包装的技术和混合技术。但不要盲目地使用这些东西,因为它们可能会误导人。相反,首先使用主题专家来删除任何冗余的特性(这就是我通常所做的)。

应用上述所有内容通常会导致冗余特性的删除。如果不只是进行第4点中提到的特性选择技术。)。

希望它能帮到你!

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/72167

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档