专栏首页人工智能头条特征工程 vs. 特征提取:比赛开始!

特征工程 vs. 特征提取:比赛开始!

特征工程”这个华丽的术语,它以尽可能容易地使模型达到良好性能的方式,来确保你的预测因子被编码到模型中。例如,如果你有一个日期字段作为一个预测因子,并且它在周末与平日的响应上有着很大的不同,那么以这种方式编码日期,它更容易取得好的效果。

但是,这取决于许多方面。

首先,它是依赖模型的。例如,如果类边界是一个对角线,那么树可能会在分类数据集上遇到麻烦,因为分类边界使用的是数据的正交分解(斜树除外)。

其次,预测编码过程从问题的特定学科知识中受益最大。在我刚才列举的例子中,你需要了解数据模式,然后改善预测因子的格式。特征工程与图像处理、信息检索以及RNA表达谱等大不相同。你需要了解关于这个问题的一些信息,并且用你的特定数据集来做好特征工作。

下面是一些训练集的数据,使用两个预测因子来建立一个二分类系统模型(我会在后面揭晓数据来源):

这里还有我们将在下面使用到的相关测试集。

我们可以得到以下结论:

  • 这些数据是高度相关的(相关系数=0.85)。
  • 每个预测因子似乎是向右倾斜的。
  • 它们似乎是多信息的,从某种意义上来说,你或许可以画出一条对角线来区分类别。

取决于我们选择使用的模型,两个预测因子的相关性可能会困扰我们。同样,我们应该检查单个预测因子是否重要。为了衡量这一点,我们将直接使用在预测数据上的ROC曲线下方的面积。

下面是每一个预测因子的单变量盒图(在对数尺度上):

这两个类之间有一些细微的差别,但是有很多重叠部分。预测模型A和B的ROC曲线面积分别是0.61和0.59。这个结果并不好。

那我们能做什么?主成分分析(PCA)是一种预处理的方法,它以创建新的综合预测因子(即主要成分或PC's)的方式旋转预测数据。它通过这样的方式分析:第一个成分占预测数据中大多数(线性)变量或信息的比重。在提取第一个成分之后,第二个成分以同样的方式来处理剩下的数据,并且依次下去。对于这些数据,有两种可能的组成部分(因为只有两个预测因子)。以这种方式使用PCA通常被称为特征提取

我们来计算下这些成分:

请注意,我们在训练集上计算了所有的必要信息,并且将这些计算应用到测试集。那么测试集是什么样的呢?

这是测试集预测因子简单的旋转。

PCA是非监督式的,这意味着当计算结束时,不需要考虑输出类。在这里,ROC曲线的下方部分,用第一个成分得到的面积是0.5,第二个成分得到的面积是0.81。这些结果与上面的点混在一起;第一个成分在类中具有随机混合的特性,而第二个成分似乎可以很好地分离类。两种成分的盒图反映了同样的情况:

在第二个成分中,两个类的分离度更高。

这很有趣。首先,尽管PCA是非监督式的,它还是成功地找到了一个新的预测因子来划分类别。其次,这些成分对于这些类别是最终要的,但对于预测器而言则没那么重要。通常PCA并不会保证任何成分会给出准确预测。但在这里,我们很幸运,它得到一个不错的预测结果。

但是,试想如果有上百个预测因子。我们可能只需要使用前X个成分来获取预测因子中绝大部分的信息,然后丢弃其他的成分。在这个例子中,第一个成分占据预测器变量的92.4%,同样的方法可能会丢弃最有效的预测因子。

特征工程的想法是怎么出现的呢?给定这两种预测因子,我们可以得到下面所示的散点图,我首先想到的事情是“有两个相关联的,正相关并且斜交的预测因子,一前一后地进行分类”。其次我想到的是“利用比例”。那么数据是什么样的呢?

ROC曲线下方的相应面积是0.8,它跟第二个成分的结果很相近。一个基于数据视觉化探索的简单转换可能会与没有偏差的经验算法效果相当。

这些数据来自于Hill等人的细胞分割实验,预测因子A是“由旋转得到的等效圆直径的球体表面”(标记为EqSphereAreaCh1),预测因子B是细胞核的周长(PerimCh1)。一个高内涵筛选的专家,可能会自然而然的采用这两种细胞特征的比率,因为它会带来科学意义上良好的效果(我并不是那个人)。在这一问题的范围内,它们的直觉应该驱动特征工程处理。

然而,在保证诸如PCA算法效能时,机器会因此受益。总的来说,这些数据中有近60个预测因子,它们的特征和EqSphereAreaCh1相近。我的个人爱好是“基于共生矩阵像素空间排列的Haralick 结构测量”。为此研究了一段时间。问题的关键是,经常有太多的特征需要设计,而且它们很可能在一开始就很不直观。

特征提取的另一方面关系到相关性。在特定数据集上的预测因子之间往往有着高度相关性,这是很好理解的。比如,有不同的方法来量化细胞的离心率(比如拉伸程度)。此外,细胞核的大小与细胞整体大小相关等等。PCA可以显著地缓解相关性的效果。手动采用多预测因子比例的做法似乎可能不太有效,而且会花费更多的时间。

去年,在我支持的一个R&D小组中,专注于偏差分析(即建立我们预先知道的模型)和专注于非偏差分析(即让机器去寻找最优模型)的科学家之间存在着争议。我的观点处于这两者之间,认为它们之间存在一些交集。一旦挖掘完毕,机器可以将新的、有趣的特征打上“已知事物”的标签,并把它们作为知识来使用。

原文链接:Feature Engineering versus Feature Extraction: Game On! (译者/刘翔宇 审校/刘帝伟、朱正贵 责编/周建丁)

关于译者: 刘翔宇,中通软开发工程师,关注机器学习、神经网络、模式识别。

本文为CSDN编译整理,未经允许不得转载,如需转载请联系market#csdn.net(#换成@)


本文分享自微信公众号 - 人工智能头条(AI_Thinker)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-08-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 清华小哥用 Python 实现主成分分析

    在数据分析的过程中,我们会通过观察一系列的特征属性来对我们感兴趣的对象进行分析研究,一方面特征属性越多,越有利于我们细致刻画事物,但另一方面也会增加后续数据处理...

    用户1737318
  • 一文读懂深度学习与机器学习的差异

    用户1737318
  • 2015伦敦深度学习峰会:来自DeepMind、Clarifai、雅虎等大神的分享

    用户1737318
  • 干货 | 同时收到斯坦福、华盛顿、UCL、CMU 和 NYU offer 的博士申请,是怎样「炼」成的?

    AI 科技评论按:本文作者 Tim Dettmers 现在已在华盛顿大学读博,博士申请阶段,他曾对如何申请博士进行了深入研究,并一举拿下斯坦福大学、华盛顿大学、...

    AI科技评论
  • 【机器学习】“机器深度学习”的未来:读懂人类的情感

    “机器学习”的概念自上世纪50年代出来以来就备受科技界的关注,而近年来“深度学习”逐渐成为机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神...

    陆勤_数据人网
  • MySQL 【教程二】

    以上内容是对 MySQL 数据库表操作的讲述、后续更新内容从分组开始、详细内容请听下回分解

    IT茂茂
  • VALSE 2019 Call for Poster/Spotlight

    Poster环节是VALSE年度大会的重要内容之一,往届大会已有百篇以上论文报名进行Poster展示。VALSE2019将在往届经验教训的基础上,进一步强化该环...

    SIGAI学习与实践平台
  • 深度 | DeepMind ICML 2017论文: 超越传统强化学习的价值分布方法

    选自DeepMind 机器之心编译 参与:机器之心编辑部 设想一个每天乘坐列车来回跋涉的通勤者。大多数早上列车准时运行,她可以轻松愉快地参加第一个早会。但是她知...

    机器之心
  • VMware虚拟机安装Linux系统图文教程

    本文为大家分享了VMware安装Linux系统的具体步骤,供大家参考,具体内容如下

    砸漏
  • Ubuntu下安装node.js

    如果是自己本地VM上运行的话,常用的ubuntu14.04推荐下载。前不久买了阿里的云服务器,Ubuntu只支持16.04,今天就来重新配一下环境。

    用户2417870

扫码关注云+社区

领取腾讯云代金券