首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

特征工程 特征处理

前言:本文介绍了特征处理中的特征缩放、选择和降维,并用代码演示特征缩放中的标准化法和区间缩放法。 特征缩放 特征值缩放: ? 特征值的缩放‐‐标准化法: ?...特征值的缩放‐‐区间缩放法: ? 特征值的归一化: ? 归一化即将一行特征的坐标转换成一个不含量纲(单位)的“单位向量”。...缺失特征值的弥补计算: ? 创建多项式特征: ?...特征选择方法1‐‐方差选择法: ? 特征选择方法2‐‐皮尔森相关系数法: ? 特征选择方法3‐‐基于森林的特征选择: ? 特征选择方法4‐‐递归特征消除法: ?...主成成分分析将鸢尾花数据集中的四个特征转换为两个重要的特征,并可以将特征转换成二维的数据在平面上进行展示。

60220
您找到你想要的搜索结果了吗?
是的
没有找到

特征工程之特征缩放&特征编码

(上) 特征工程之数据预处理(下) 本篇文章会继续介绍特征工程的内容,这次会介绍特征缩放和特征编码,前者主要是归一化和正则化,用于消除量纲关系的影响,后者包括了序号编码、独热编码等,主要是处理类别型、文本型以及连续型特征...---- 3.2 特征缩放 特征缩放主要分为两种方法,归一化和正则化。...本质是因为独热编码之后的特征的表达能力较差。该特征的预测能力被人为的拆分成多份,每一份与其他特征竞争最优划分点都失败。最终该特征得到的重要性会比实际值低。...那么什么时候需要采用特征离散化呢? 这背后就是需要采用“海量离散特征+简单模型”,还是“少量连续特征+复杂模型”的做法了。 对于线性模型,通常使用“海量离散特征+简单模型”。...假设有连续特征j ,离散化为 N个 0/1 特征;连续特征 k,离散化为 M 个 0/1 特征,则分别进行离散化之后引入了 N+M 个特征

1.3K20

特征工程之特征表达

特征工程之特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。...主要包括缺失值处理,特殊的特征处理比如时间和地理位置处理,离散特征的连续化和离散化处理,连续特征的离散化处理几个方面。 1....对地理特征,比如“广州市天河区XX街道XX号”,这样的特征我们应该如何使用呢?处理成离散值和连续值都是可以的。如果是处理成离散值,则需要转化为多个离散特征,比如城市名特征,区县特征,街道特征等。...处理方法其实比较简单,比如某特征的取值是高,中和低,那么我们就可以创建三个取值为0或者1的特征,将高编码为1,0,0这样三个特征,中编码为0,1,0这样三个特征,低编码为0,0,1这样三个特征。...比如对于用户的ID这个特征,如果要使用独热编码,则维度会爆炸,如果使用特征嵌入就维度低很多了。对于每个要嵌入的特征,我们会有一个特征嵌入矩阵,这个矩阵的行很大,对应我们该特征的数目。

82230

特征工程(中)- 特征表达

在本篇中我们聊一下特征表达(或者说特征编码)的问题,即从这些选定的维度,如何去刻画特定的对象。 01 特征表达要考虑哪些方面?...从一个完整的机器学习任务来看,在选择完特征之后,特征表达的任务就是要将一个个的样本抽象成数值向量,供机器学习模型使用。因此,特征表达就要兼顾特征属性和模型需求这两个方面。...特征属性 特征按其取值类型不同,可以简单分为连续型和离散型。而离散型特征,又可以分为类别型和序列型。下面依次简要说明。 连续型特征:取值为连续实数的特征。 比如,身高,175.4cm。...04 特殊特征的处理 有时候,根据模型的需要,需要对一些特征做特殊处理。这里以时间特征和地理特征为例,进行说明。 对时间特征,有时候模型用到的并不是其绝对量,而是相对量,这个情况下就需要求差值。...小结 本文在特征选择的基础上,进一步讨论了特征表达的问题,主要涉及连续和离散型特征的编码方式、特殊特征的处理和缺失值处理等方面。

62030

特征工程之特征选择

后面还有两篇会关注于特征表达和特征预处理。 1....特征的来源     在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己去寻找高级数据特征。...选择合适的特征     我们首先看当业务已经整理好各种特征数据时,我们如何去找出适合我们问题需要的特征,此时特征数可能成百上千,哪些才是我们需要的呢?     ...寻找高级特征     在我们拿到已有的特征后,我们还可以根据需要寻找到更多的高级特征。比如有车的路程特征和时间间隔特征,我们就可以得到车的平均速度这个二级特征。...根据车的速度特征,我们就可以得到车的加速度这个三级特征,根据车的加速度特征,我们就可以得到车的加加速度这个四级特征。。。也就是说,高级特征可以一直寻找下去。

1.1K20

传统特征:HOG特征原理

这样,一个block内所有cell的特征向量串联起来便得到该block的HOG特征。这些区间是互有重叠的,这就意味着:每一个单元格的特征会以不同的结果多次出现在最后的特征向量中。...则一块的特征数为:3*3*9; (5)收集HOG特征 最后一步就是将检测窗口中所有重叠的块进行HOG特征的收集,并将它们结合成最终的特征向量供分类使用。 (6)那么一个图像的HOG特征维数是多少呢?...Dalal提出的Hog特征提取的过程:把样本图像分割为若干个像素的单元(cell),把梯度方向平均划分为9个区间(bin),在每个单元里面对所有像素的梯度方向在各个方向区间进行直方图统计,得到一个9维的特征向量...,每相邻的4个单元构成一个块(block),把一个块内的特征向量联起来得到36维的特征向量,用块对样本图像进行扫描,扫描步长为一个单元。...最后将所有块的特征串联起来,就得到了人体的特征

1.2K30

特征选择与特征抽取

.也就是说,特征抽取后的新特征是原来特征的一个映射。...也就是说,特征选择后的特征是原来特征的一个子集。 2....相同点和不同点 特征选择和特征抽取有着些许的相似点,这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数目;但是两者所采用的方式方法却不同:特征抽取的方法主要是通过属性间的关系...,如组合不同的属性得新的属性,这样就改变了原来的特征空间;而特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。...总结 特征选择不同于特征提取,特征和模型是分不开,选择不同的特征训练出的模型是不同的。在机器学习=模型+策略+算法的框架下,特征选择就是模型选择的一部分,是分不开的。

1.6K31

特征工程|空间特征构造以及文本特征构造

由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。 那特征工程是什么?...特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。...(特征构造)等子问题,本章内容主要讨论特征构造的方法。...创造新的特征是一件十分困难的事情,需要丰富的专业知识和大量的时间。机器学习应用的本质基本上就是特征工程。 ——Andrew Ng 0x01 特征构造介绍 空间特征构造以及文本特征构造具体方法: ?...适用范围:只有一个词语或者包含多个词语的特征。例子: 只有一个词语的特征:职业。 有多个词语的特征:用户兴趣特征为“健身 电影 音乐”。

1.2K10

特征工程(四): 类别特征

线性相关特征,就像我们一样在tfidf中发现,有点烦人,因为它意味着训练线性模型不会是唯一的。 特征的不同线性组合可以做出同样的预测,所以我们需要跳过额外条件的来理解特征对预测的影响。...虚拟编码通过仅使用表示中的k-1个特征来消除额外的自由度。 公共汽车下面有一个特征,由全零矢量表示。 这被称为参考类别。...哈希编码 当有很多特征时,存储特征向量可能占用很多空间。 特征散列将原始特征向量压缩为m维通过对特征ID应用散列函数来创建矢量。...例如,如果原件特征是文档中的单词,那么散列版本将具有固定的词汇大小为m,无论输入中有多少独特词汇。 例5-3 对单词的特征哈希 ?...散列特征的一个缺点是散列特征是聚合的原始特征,不再可解释。 在这个例子中,我们将使用Yelp评论数据集来演示存储和,解释性使用的为sklearn的库FeatureHasher。

3.1K20

特征工程(上)- 特征选择

机器学习问题,始于构建特征特征质量的好坏,直接影响到最终的模型结果。 构建特征是一个很大的工程,总体来讲包括“特征选择”、“特征表达”和“特征评估”3个部分。...我们也按这3个部分,并结合自己的具体实践,用3篇文章来和大家聊一下特征工程的相关问题。 本篇文章,我们讨论一下特征选择。特征选择指的是,在全部的特征中,挑选出对最终的机器学习任务有用的特征。...在进行特征选择时,可以丢弃那些方差特别小的特征。...子集选择 基于模型,我们也可以用子集选择的思路来选取特征。假设特征的维度为N,要从中选出n个(n < N)特征,目标是让模型在选出的特征上效果最好。...如果我们先从N个特征中选出一个最好的特征,然后让其余的N-1个特征分别与第一次选出的特征进行组合,从N-1个二元特征组合中选出最优组合。之后,再次在上次的基础上,添加一个新的特征,考虑3个特征的组合。

82320

特征工程(下 )- 特征评估

下文中,我们首先会厘清“特征评估”的概念,然后讲述特征评估的标准,最后是问题的反向排查。 厘清概念 什么是特征评估? 特征评估从概念上很容易跟特征选择纠缠到一起,因此非常有必要先厘清概念。...在特征选择的过程中,我们需要对特征的每个维度进行评估,来选择出相对更重要的特征。然后,对于选择出的特征维度,我们会根据原始数据,对特征进行编码,进而得到特征。...本文所说的特征评估,指的是对已经生成的特征的整体评估,发生在特征选择和特征编码之后,因此不要跟特征选择过程中的对单个特征维度相对重要性的评估弄混了。 评估标准 分析前需要优先考虑哪些特征?...2 特征的问题 在数据源确定的情况下,影响特征质量的因素主要是特征选择和特征编码。在特征选择方面,我们要考虑选择出的特征是否完备,冗余度如何等。...没有这些相关同事的工作,特征工程就是巧妇难为无米之炊了。 小结 本文在“特征选择”和“特征表达”的基础上,聊了一下特征评估的问题。至此,特征工程系列终于结束。

1.3K20

特征工程之特征关联

特征工程之特征关联 0.说在前面 1.皮尔逊 2.pointbiserialr系数 3.Spearman's 系数 4.总结 5.作者的话 0.说在前面 昨天学习了seaborn绘制图形...,以及单变量与多变量之间的绘图,那么今天从统计学角度实战分析在处理特征工程过程中所涉及的三个相关系数(具体的三个系数数学推导,在后续更新)。...在这里吧,我们可以注意到以下几种特征都是连续变量: lat long sqft_above sqft_basement sqft_living sqft_lot yr_built yr_renovated...针对连续变量,我们在做特征工程时,需要做的便是皮尔逊系数分析!...由于运行的结果众多,这里拿一个说明,如上图所示,pearsonr系数为0.7,说明与price的关联程度很强,那么在提取特征时,就得着重关注!

1.3K20

特征提取——局部特征

特征提取——局部特征 LOG,HOG,DOG微分算子在近圆的斑点检测方面效果很好 HOG特征 https://blog.csdn.net/coming_is_winter/article/details...最后将所有块的特征串联起来,就得到了人体的特征。...特征总数: 一个cell有9个特征(9个梯度方向),每个特征cell块里有 num*9个特征,步长像素规格:(列像素数-步长)/步长*(行像素数-步长)/步长, 总特征数:(列像素数-步长)/步长*(行像素数...,但是其运算量过大,通常可使用DoG(差分高斯,Difference of Gaussina)来近似计算LoG Haar特征 Haar特征分为三类:边缘特征、线性特征、中心特征和对角线特征,组合成特征模板...由此可以确定一个SIFT特征区域。 特征点描述 在每个特征点周围的邻域内,在选定的尺度上测量图像的局部梯度,这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变换。

1.1K20

特征工程系列:聚合特征构造以及转换特征构造

特征工程系列:聚合特征构造以及转换特征构造 本文为数据茶水间群友原创,经授权在本公众号发表。...由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。 那特征工程是什么?...——Andrew Ng 0x01 特征构造介绍 特征构造意味着从现有的数据中构造额外特征,这些特征通常分布在多张相关的表中。...对于表格数据,特征构建意味着将特征进行混合或组合以得到新的特征,或通过对特征进行分解或切分来构造新的特征;对于文本数据,特征够自己按意味着设计出针对特定问题的文本指标;对于图像数据,这意味着自动过滤,得到相关的结构...以下将介绍聚合特征构造以及简单变换特征构造的方法。 ? 0x02 聚合特征构造 通常基于 id 值(用户id、商品id等)或类别特征的某个类别计算数值特征的一些统计量,一般在多个表好操作一些。

2.3K20

大数据基本概念

但是数据量大,只是大数据概念的特征之一,大数据有4个特征简称4V特征: ?...在莱尼的理论基础上,IBM提出大数据的4V特征,得到了业界的广泛认可。...大数据4V特征: Volume 大量,既然叫大数据,那么数据量肯定得大 Variety多样性,数据可以多种结构,可以是结构性数据、半结构性数据以及非结构性数据 Value价值,这些大量的数据需要能够被挖掘出有价值的数据...,因为无价值的数据只是一堆占用存储空间的垃圾 Velocity高速,数据的处理速度要快,时效性强,因为很多场景下要实时更新、检测数据 想要详细了解大数据的4V特征可以参考以下文章: http://www.mahaixiang.cn...TB级以上的数据分析的,所以现阶段无法使用结构化的查询及处理去解决这些问题 2.传统数据库技术并没有考虑数据的多类别: 关系型数据库的结构都是库 >> 表 >> 字段的关系结构,而大数据具有数据多样化的特征

62321

特征工程|时间特征构造以及时间序列特征构造

0x00 前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。...那特征工程是什么? 特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。...(特征构造)等子问题,本章内容主要讨论特征构造的方法。...3.结合时间维度的聚合特征 具体就是指结合时间维度来进行聚合特征构造,聚合特征构造的具体方法可以参考《聚合特征构造以及转换特征构造》中的《聚合特征构造》章节。...3.时间序列复合特征 1)趋势特征 趋势特征可以刻画时间序列的变化趋势。

3.1K20
领券