假设我有一个数据集,但我不知道哪些特性与解决分类/回归问题有关。
在这种情况下,是否值得使用降维算法,然后应用分类算法?或者,我是否可以使用我的常识随机选择我的特性,然后尝试下一步调整我的算法?
另外,如果有人对“在现实生活中使用真实用例”对维约简有某种解释,那将是很棒的,因为我觉得我对维约简的理解是错误的!
发布于 2019-03-26 07:37:26
好吧,假设这取决于数据的分布。在像PCA这样的方法中,这种方法并不关心手头数据的标签。这就是为什么PCA可能导致有时难以分离的数据,反之亦然。PCA只是关心哪个方向会导致更大的差异,并将该方向作为一个新的基础。不关心标签是为什么你不能说它可能导致一个更好的空间分类或不。你必须使用它,然后,调查它是否有用。类似LDA或其他变体的方法负责标签,但它们是不强的线性分类器,至少在当前的特征空间中,您还没有做过任何特征工程。
发布于 2019-03-26 09:43:46
问题是:为什么要应用特性选择?
在许多算法中,您可以使用所有的特性,并且将选择对预测更为重要的模型。
对我来说,应用特性选择的一些理由是:
发布于 2019-02-21 01:13:48
如果您不关心包含了哪些功能,那么使用PCA (或类似的功能)可能会有所帮助。
如果您确实有一些影响分类或回归的特性的信息,那么您当然可以尝试在不降低维度的情况下拟合一个模型。
PCA是最常用的降维技术之一,它产生的向量都是正交的(如,不相关的)。这意味着,即使您的特征是相关的,在维度缩减之后,您的模型将不会与共线性斗争。取决于您的模型类型,这可能是至关重要的。现实生活中的一个例子可以是任何住房数据集,其中的特征描述房屋,目标是价格。许多特征都是相关的(如浴室数、卧室数、房间数和面积),因此,一个线性回归模型可能会被共线所绊倒。维度缩减将捕获不同特性之间的差异,同时生成更少的列。
https://datascience.stackexchange.com/questions/45922
复制相似问题