首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >降维是什么?特征选择和提取有什么区别?

降维是什么?特征选择和提取有什么区别?
EN

Data Science用户
提问于 2014-05-18 06:26:15
回答 10查看 39.4K关注 0票数 70

维基百科:

降维或降维是减少所考虑的随机变量数目的过程,可分为特征选择和特征提取两部分。

特征选择和特征提取有什么区别?

在自然语言处理任务中降维的例子是什么?

EN

回答 10

Data Science用户

回答已采纳

发布于 2014-05-18 07:53:58

简单地说:

  • 特征选择:您选择原始特征集的一个子集;
  • 特征提取:从原始功能集构建一组新的功能。

特征提取的例子:从图像中提取轮廓,从文本中提取digrams,从口语文本记录中提取音素,等等。

特征提取涉及到特征的一种变换,这种变换往往是不可逆的,因为在降维过程中会丢失一些信息。

票数 57
EN

Data Science用户

发布于 2014-06-16 19:49:24

降维通常是指选择一个基础或数学表示,在此基础或数学表示中,您可以描述数据中的大部分(而不是全部)差异,从而保留相关信息,同时减少表示它所需的信息量。有多种技术可以实现这一点,包括但不限于PCAICAMatrix Feature Factorization。这些将获取现有数据,并将其简化为最有区别的components.These,所有这些都允许您以更少、更有区分性的特性来表示数据集中的大部分信息。

特征选择是指具有高度鉴别性的手选择特征。这与特性工程有关,而不是分析,而且需要数据科学家做更多的工作。它需要理解数据集的哪些方面在您所做的预测中是重要的,哪些不是。特征提取通常涉及生成新的特征,这些特性是现有特征的组合。这两种技术都属于特征工程范畴。一般来说,如果你想获得最好的结果,特征工程是很重要的,因为它涉及到创建数据集中可能不存在的信息,以及提高你的信噪比。

票数 18
EN

Data Science用户

发布于 2014-06-10 22:26:53

在@damienfrancois中,特征选择是关于选择一个特征子集的。因此,在NLP中,它将选择一组特定的单词( NLP中的典型用法是,每个单词表示的特征值等于单词的频率或基于TF/下手或类似的其他权重)。

降维是引入新的特征空间来表示原始特征。新空间与原空间相比具有较低的维数。在文本的情况下,一个例子是散列技巧,其中一段文本被还原为几个位(例如16或32)或字节的向量。令人惊奇的是,空间的几何结构被保留(给定足够的位数),因此文档之间的相对距离与原始空间中的相对距离相同,因此您可以部署标准的机器学习技术,而不必处理文本中发现的未绑定(以及大量)维度。

票数 7
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/130

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档