首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >降维是否有助于为分类问题选择特征?

降维是否有助于为分类问题选择特征?
EN

Data Science用户
提问于 2019-02-20 23:02:27
回答 4查看 167关注 0票数 2

假设我有一个数据集,但我不知道哪些特性与解决分类/回归问题有关。

在这种情况下,是否值得使用降维算法,然后应用分类算法?或者,我是否可以使用我的常识随机选择我的特性,然后尝试下一步调整我的算法?

另外,如果有人对“在现实生活中使用真实用例”对维约简有某种解释,那将是很棒的,因为我觉得我对维约简的理解是错误的!

EN

回答 4

Data Science用户

发布于 2019-03-26 07:37:26

好吧,假设这取决于数据的分布。在像PCA这样的方法中,这种方法并不关心手头数据的标签。这就是为什么PCA可能导致有时难以分离的数据,反之亦然。PCA只是关心哪个方向会导致更大的差异,并将该方向作为一个新的基础。不关心标签是为什么你不能说它可能导致一个更好的空间分类或不。你必须使用它,然后,调查它是否有用。类似LDA或其他变体的方法负责标签,但它们是不强的线性分类器,至少在当前的特征空间中,您还没有做过任何特征工程。

票数 1
EN

Data Science用户

发布于 2019-03-26 09:43:46

问题是:为什么要应用特性选择?

在许多算法中,您可以使用所有的特性,并且将选择对预测更为重要的模型。

对我来说,应用特性选择的一些理由是:

  • 使用更多功能的业务成本
  • 对结果的解释
  • 担心数据中的噪声会让模型提取错误的特征和偏倚结果。
票数 1
EN

Data Science用户

发布于 2019-02-21 01:13:48

如果您不关心包含了哪些功能,那么使用PCA (或类似的功能)可能会有所帮助。

如果您确实有一些影响分类或回归的特性的信息,那么您当然可以尝试在不降低维度的情况下拟合一个模型。

PCA是最常用的降维技术之一,它产生的向量都是正交的(如,不相关的)。这意味着,即使您的特征是相关的,在维度缩减之后,您的模型将不会与共线性斗争。取决于您的模型类型,这可能是至关重要的。现实生活中的一个例子可以是任何住房数据集,其中的特征描述房屋,目标是价格。许多特征都是相关的(如浴室数、卧室数、房间数和面积),因此,一个线性回归模型可能会被共线所绊倒。维度缩减将捕获不同特性之间的差异,同时生成更少的列。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/45922

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档