《机器学习》笔记-特征选择与稀疏学习(11)

作者:刘才权

编辑:田 旭

前 言

如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还是自身充电,跟上潮流,我觉得都值得试一试。对于自己,经历了一段时间的系统学习(参考《机器学习/深度学习入门资料汇总》),现在计划重新阅读《机器学习》[周志华]和《深度学习》[Goodfellow et al]这两本书,并在阅读的过程中进行记录和总结。这两本是机器学习和深度学习的入门经典。笔记中除了会对书中核心及重点内容进行记录,同时,也会增加自己的理解,包括过程中的疑问,并尽量的和实际的工程应用和现实场景进行结合,使得知识不只是停留在理论层面,而是能够更好的指导实践。记录笔记,一方面,是对自己先前学习过程的总结和补充。 另一方面,相信这个系列学习过程的记录,也能为像我一样入门机器学习和深度学习同学作为学习参考。

  • 章节目录
  • 子集搜索与评价
  • 过滤式选择
  • 包裹式选择
  • 嵌入式选择与L1正则化
  • 稀疏表示与字典学习
  • 压缩感知

1

子集搜索与评价

我们称样本属性为“特征”(feature),对当前学习任务有用的属性称为“相关特征”(relevant feature)、没什么用的属性称为“无关特征”(inrelevant feature)。从特征集合中选择相关特征子集的过程,称为“特征选择”(feature selection)。

我们称样本属性为“特征”(feature),对当前学习任务有用的属性称为“相关特征”(relevant feature)、没什么用的属性称为“无关特征”(inrelevant feature)。从特征集合中选择相关特征子集的过程,称为“特征选择”(feature selection)。 特征选择是一个重要的“数据预处理”(data preprocessing)过程,在现实机器学习中,获得数据之后通常进行特征选择,之后再进行训练学习器。

特征选择的原因主要包括: * 首先,我们在现实任务中经常会遇到维数灾难问题,这是由于属性过多而造成的,若能从中选择出重要的特征,使得后续学习过程仅需要在一部分特征上构建模型,则维数灾难问题会大为减轻(降维和特征选择是处理高维数据的两大主流技术)。 * 其次,去除不相关特征,只留下关键因素,往往会降低学习任务的难度。

从初始的特征集合中选取一个包含了所有重要信息的特征子集,涉及两个关键环节: * “子集搜索”(subset search) 搜索策略包括“前向”(forward)搜索,“后向”(backward)搜索和”双向“(bidirectional)搜索; * ”子集评价“(subset evaluation)

子集评价采用信息增益作为评价准则;

将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法。 常见的特征选择方法大致可分为三类:过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)。

2

过滤式选择

过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行”过滤“,再用过滤后的特征来训练模型。

其中,Relief(Relevant Feature)是一种著名的过滤式特征选择方法,该方法设计了一个”相关统计量“来度量特征的重要性。

3

包裹式选择

与过滤式特征选择不考虑后续学习器不同,包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。换言之,包裹式特征选择的目的就是为给定的学习器选择最有利其性能、“量身定做”的特征子集。

一般而言,由于包裹式特征选择方法直接针对给定学习器进行优化,因此从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好,但另一方面,由于在特征选择过程中需多次训练学习器,因此包裹式特征选择的计算开销通常比过滤式特征选择大得多。 LVW(Las Vegs Wrapper)式一个典型的包裹式特征选择方法。

4

嵌入式选择和L1正则化

在过滤式和包裹式特征选择方法中,特征选择过程与学习器训练过程有明确的分别;与此不同,嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一过程中完成,即在学习器训练过程中自动地进行了特征选择。

当样本特征很多,而样本数较少时,训练很容易陷入过拟合。为了缓解过拟合问题,引入正则化项。

L1范数和L2范数都有助于降低过拟合风险,但前者会带来一个额外的好处:它比后者更容易获得“稀疏(sparse)解”,即它求得的w会有更少的非零分量。

5

稀疏表示与字典学习

把把数据集D考虑成一个矩阵,其每一行对应于一个样本,每列对应与于一个特征。特征选择所考虑的问题是特征具有“稀疏性”,即矩阵中的许多列与当前学习任务无关,通过特征寻找去除这些列,则学习器训练过程仅需在较小的矩阵上进行,学习任务的难度可能有所降低,涉及的计算和存储开销会减少,学得模型的可解释性也会提高。

现在考虑另一种稀疏性:D所对应的矩阵中存在很多零元素,但这些零元素并不是以整列、整行形式存在的。

当样本具有这样的稀疏表达形式时,对学习任务来说会有不少好处。例如具有高度的稀疏性使大多数问题变得线性可分。同时,稀疏样本并不会造成存储上的巨大负担,因为稀疏矩阵已有很多高效的存储方法。

为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式,从而使学习任务得以简化,模型复杂度得以降低,通常称为”字典学习“(dictionary learning),亦称”稀疏编码“(sparse coding)。这两个称谓稍有差别,”字典学习“更侧重于学得字典的过程,而”稀疏编码“则更侧重于对样本稀疏表达的过程。

6

压缩感知

与特征选择、稀疏表示不同,压缩感知关注的是如何利用信号本身所具备的稀疏性,从部分观测样本中恢复原信号。通常认为,压缩感知分为”感知测量“和”重构恢复“这两个阶段。”感知测量“关注如何对原始信号进行处理以获得稀疏样本表示;”重构恢复“关注的是如何基于稀疏性从少量观测中恢复原信号,这是压缩感知的精髓,当我们谈到压缩感知时,通常是指该部分。

基于部分信息来恢复全部信息的技术在许多现实任务中有重要应用。例如网上书店通过收集读者在网上对书的评价,可根据读者的读书偏好来进行新书推荐,从而达到定向广告投放的效果。显然,没有哪位读者读过所有的书,也没有那本书被所有读者读过,因此,网上书店所搜索到的仅有部分信息,如下图所示,

那么,能够将上图中通过读者评价得到的数据当做部分信号,基于压缩感知的思想恢复出完整的信号呢? 矩阵补全(matrix completion)技术可用于解决这个问题。

原文发布于微信公众号 - 机器学习算法工程师(Jeemy110)

原文发表时间:2018-05-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

【报告】一篇文章详解深度学习的原理和运用

作者:数据挖掘与数据分析 深度学习 ( Deep Learning ) 是机器学习 ( Machine Learning ) 中近年来备受重视的一支,深度学习根...

3526
来自专栏AI科技大本营的专栏

盘点|最实用的机器学习算法优缺点分析,没有比这篇说得更好了

推荐理由 对于机器学习算法的盘点,网上屡见不鲜。但目前,还没人能结合使用场景来把问题说明白,而这一点正是本文的目的所在。 在文章中,作者将结合他的实际经验...

4617
来自专栏计算机视觉战队

检测与识别人与目标之间的互动

深度学习有在新的高度得到大家的认可,并驱使更多的爱好者去学习、去探索,已不仅仅在图像、视频及语音领域得到重视。现在在SLAM、NLP、医学、经济学等领域都得到愈...

1393
来自专栏机器之心

教程 | 一文简述如何使用嵌套交叉验证方法处理时序数据

2043
来自专栏目标检测和深度学习

知乎“看山杯”夺冠记

比赛介绍 这是一个文本多分类的问题:目标是 “参赛者根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型”。通俗点讲就是:当用户在...

4327
来自专栏新智元

计算成本降低35倍!谷歌发布手机端自动设计神经网络MnasNet

【新智元导读】神经结构自动搜索是最近的研究热点。谷歌大脑团队最新提出在一种在移动端自动设计CNN模型的新方法,用更少的算力,更快、更好地实现了神经网络结构的自动...

711
来自专栏媒矿工厂

图像模糊度评价性能提升方法简介

背景介绍 随着多媒体技术的发展,图像以及视频服务逐渐成为人们获取信息的主要载体。传统上,视频或图像质量的好坏需要人眼去看,并且为了得到一个合适的评价分数,一般需...

6866
来自专栏AI星球

从零开始用Python搭建超级简单的点击率预估模型

本篇是一个基础机器学习入门篇文章,帮助我们熟悉机器学习中的神经网络结构与使用。 日常中习惯于使用Python各种成熟的机器学习工具包,例如sklearn、Te...

3494
来自专栏人工智能LeadAI

从零开始用Python搭建超级简单的点击率预估模型

本篇是一个基础机器学习入门篇文章,帮助我们熟悉机器学习中的神经网络结构与使用。 日常中习惯于使用Python各种成熟的机器学习工具包,例如sklearn、Ten...

1131
来自专栏AI科技评论

独家 | 利用特权信息、语义信息和多源信息辅助基于网络数据的学习

雷锋网 AI 科技评论按:本文由美国莱斯大学博士后牛力为 AI 科技评论提供的独家稿件,未经许可不得转载。

1212

扫码关注云+社区