维基百科:
降维或降维是减少所考虑的随机变量数目的过程,可分为特征选择和特征提取两部分。
特征选择和特征提取有什么区别?
在自然语言处理任务中降维的例子是什么?
发布于 2014-05-18 07:53:58
简单地说:
特征提取的例子:从图像中提取轮廓,从文本中提取digrams,从口语文本记录中提取音素,等等。
特征提取涉及到特征的一种变换,这种变换往往是不可逆的,因为在降维过程中会丢失一些信息。
发布于 2014-06-16 19:49:24
降维通常是指选择一个基础或数学表示,在此基础或数学表示中,您可以描述数据中的大部分(而不是全部)差异,从而保留相关信息,同时减少表示它所需的信息量。有多种技术可以实现这一点,包括但不限于PCA、ICA和Matrix Feature Factorization。这些将获取现有数据,并将其简化为最有区别的components.These,所有这些都允许您以更少、更有区分性的特性来表示数据集中的大部分信息。
特征选择是指具有高度鉴别性的手选择特征。这与特性工程有关,而不是分析,而且需要数据科学家做更多的工作。它需要理解数据集的哪些方面在您所做的预测中是重要的,哪些不是。特征提取通常涉及生成新的特征,这些特性是现有特征的组合。这两种技术都属于特征工程范畴。一般来说,如果你想获得最好的结果,特征工程是很重要的,因为它涉及到创建数据集中可能不存在的信息,以及提高你的信噪比。
发布于 2014-06-10 22:26:53
在@damienfrancois中,特征选择是关于选择一个特征子集的。因此,在NLP中,它将选择一组特定的单词( NLP中的典型用法是,每个单词表示的特征值等于单词的频率或基于TF/下手或类似的其他权重)。
降维是引入新的特征空间来表示原始特征。新空间与原空间相比具有较低的维数。在文本的情况下,一个例子是散列技巧,其中一段文本被还原为几个位(例如16或32)或字节的向量。令人惊奇的是,空间的几何结构被保留(给定足够的位数),因此文档之间的相对距离与原始空间中的相对距离相同,因此您可以部署标准的机器学习技术,而不必处理文本中发现的未绑定(以及大量)维度。
https://datascience.stackexchange.com/questions/130
复制相似问题