首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

读《高维数据的特征选择-理论与算法》(二)

第三章组稀疏子空间的大间隔特征选择,基于大间隔的分类模型部分Weinberger 用马氏距离作为度量方法,将样本变换到新的空间,使得同类样本距离尽量小,不同类模型样本距离尽量大,并将问题当作半正定规划semidefinite programming 求解。基于大间隔的特征选择模型,提出了local linear feature selection LLFS算法,主要贡献为将复杂的非线性问题分解为多个局部线性问题来求解;为了使所有模型都具有泛化能力,引入大间隔来进行权重参数估计;在权重空间中,算法寻找一个权重向量使最近邻分类器的留一交叉验证误差上界达到最小;对于高维小样本也适用。之后在组稀疏学习算法,将高维数据通过PCA投影到低维子空间时,若采用L2范数,其抗干扰能力差,L1不具有旋转不变性,所以采用了L2,1范数,这一章之后介绍了GSLM算法的建立和收敛性分析。该模型将样本最近邻信息投影到子空间,通过最大化子空间的样本间隔来选择最佳特征。GSLM算法有计算效率高,收敛速度快等优点。

第四章Trace Ratio 组稀疏子空间的大间隔特征选择是应对上一章GSLM算法的目标函数是非凸函数,无法得到全局最优解。而间隔的定义有减法,也有除法,即样本与不同类最近邻间的距离除以样本与同类最近邻的距离之商值来得到样本的间隔值,即为Trace Ratio。这一章主要讨论了以Trace Ratio形式为基础的稀疏子空间的大间隔特征选择模型的目标函数,求解过程和收敛性证明。而这种算法也可以获得全局最优解,但其也面对效率低,收敛速度慢的问题。

第五章高效的Trace Ratio 组稀疏子空间的大间隔特征选择一方面介绍了提高TR-GSLM算法收敛速度的ETR-GSLM(Enhanced Trace Ratio-Group Sparse Large Margin)的实现过程和收敛性证明,另一方面通过matlab实验介绍了比较了几种分类算法的差异,得到了如下结论:通过ETR—GSLM算法选择出的特征,用于分类时,其分类精度要比TR-GSLM算法和GSLM算法高,也比其他参与比较的算法精度要高。同时ETR-GSLM算法的收敛速度要比TR-GSLM算法快很多。而ETR-GSLM算法的最大缺点在于每次迭代时,其效率非常低,这是因为每次迭代需要求矩阵的特征值和矩阵的逆矩阵。对于高维场景,这些矩阵都非常大。(不过这部分内容在现实场景实现的成本比较大,因为市面上并没有成型的Python/R code)

第六章无监督的特征学习主要介绍了无监督特征选择主要分为过滤式,绑定式和嵌入式三类。过滤式无监督。过滤式无监督特征选择是指对无类标签的训练数据采用一种评价标准对特征进行评分,常见的过滤式无监督特征选择算法有Laplacian评分(Python 有实现方法),SPEC(谱分解特征选择)算法。绑定式无监督特征选择是指对无标签的训练数据采用一种聚类算法来评价特征子集。常见的绑定式无监督特征选择有基于特征相似度量的特征选择(feature selection using feature similarity)和基于最大信息压缩索引(maximal information compression index)方法,特征子集选择和EM聚类(feature subset selection and EM clustering)相结合的FSSEM。嵌入式无监督特征选择算法被分为四类,将结构信息与机器学习算法结合,将结构信息、聚类信息与机器学习算法结合,将结构信息、动态更新聚类信息与机器学习算法结合,将动态更新结构信息、聚类信息和机器学习算法结合,绝大多数。而这四类算法都利用了样本的结构信息,这些算法为了得到结构信息,都将训练样本看成图,然后通过图的邻近关系来描述样本结构;划分这些四算法的准则是看算法有没有利用聚类信息、聚类信息是否在计算过程中会被动态调整,样本之间的结构(近邻关系)是否在计算过程会被动态调整。(之前见过Python的特征选择函数有from sklearn.feature_selection import SelectKBest,sklearn.feature_selection import chi2,sklearn.feature_selection import RFE等)

综述:这是阅读的第一本关于特征工程的书,尽管对特征工程有了系统的认知,发现了很多常用方法的不常用之点,但其实特征工程或许更多的还是要靠无监督学习,文中很多高大上方法并没有很多的应用场景(assume自己应该也不会花费很多时间去写一个ETR-GSLM),而在没有很好地标签的时候(最近的排序工程),更重要的是无监督学习,所以后续会对sklearn的

feature_selection包进行比较细致的研究。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180531G15N5X00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券