DataTalk:为什么特征组合后效果更好?

0x00 前言

关于特征组合的一个问题,回答的内容十分精彩。

0x01 讨论

问题:

为什么特征组合之后效果更好、更容易线性可分,应该怎么理解呢?

回答:

这是一个空间变换的问题!

首先需要抓住一个关键,理解什么是线性可分。线性可分的定义是一个线性函数可以将两类样本完全分开。比如说在二维平面内,就是指一条直线能区分开来两类样本;对应到分类器中,就是指我们有 x1、x2 两个特征,那么这条分界直线的解析表达式是 ax1+bx2+c=0,$x1+bx2+c>0 是一类样本,ax1+bx2+c<0 是了另一类的样本。更进一步的说,就是分界线(面)可以由一个“多元一次方程式”来表达。

下面问题来了,假设两类样本的真实分界线是一个圆(x1^2+x2^2+a=0),或者一条双曲线(xy+a=0),在原来的二维空间中,我们能否找到一条直线分开两类样本?答案明显是不能的。但如果我们非要用直线区分样本呢?那就做空间变换吧。对于上面分界线是圆的情况,将原来的(x1,x2)映射到(x1^2,x2^2);对于双曲线的情况,将原来的(x1,x2)映射到(x1x2),是不是在新的空间中,又可以用一条直线把两类分来啦。(注:空间变换严谨点应该用基向量来表示,这里讲个意思,不要介意)

所以提到特征组合,实际上做的就是空间变换,更准确说是把原有的特征空间映射到了一个更加高维的特征空间中。在一个真实问题中,我们并不知道分界线到底是圆还是双曲线还是别的什么,所以对于上面的例子,我们一般会尝试把原来的(x1,x2)映射到(x1,x2,x1^2,x2^2,x1x2),正所谓扩大搜索范围。特征组合增强了特征的表达能力,基本等价于说高维空间比低维空间更有表达力。

0x02 补充

补充一些自己对于特征组合的理解,首先,特征组合比较容易出现在 LR 这种线性模型中,因为线性模型对于非线性关系缺乏准确刻画,特征组合正好可以加入非线性表达,增强模型的表达能力。而一些复杂的模型已经自带了对非线性特征的处理,表达力更强。

那么,为什么特征组合效果更好,前面是从空间变换的角度来解释,这里在举个例子来说明。

假设我们要预测一个人的工资水平,现在有两个变量:x1代表职业,x2代表工作年限。我们假设这样的场景,当一个人的职业是医生的时候,他的工资是随着工作年限的增加而增加的;但是当一个人的职业是程序员的时候,他的工资却可能是随着工作年限先增后减的(例子可能不恰当),这种情况如果不做特征组合,我们的线性模型很难得到好的结果的,这时候就需要对x1和x2做一些特征组合来增加线性模型的表现力。

个人理解,一些复杂的模型其实是牺牲了一部分的可解释性换来了对非线性特征的更好的处理能力,这样就可以减小算法工程师的特征处理工作。而线性模型的可解释性比较强,但是由于模型的表现力比较弱,就需要算法工程师在特征处理上下更多的工作。

0xFF 总结

感谢 Cathy 的回答,后面的补充内容也是跟着 Cathy 学习后加上自己的理解写出来的。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

数据挖掘分类方法小结

分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在...

3697
来自专栏大数据挖掘DT机器学习

RF(随机森林)、GBDT、XGBoost面试级整理

由于本文是基于面试整理,因此不会过多的关注公式和推导,如果希望详细了解算法内容,敬请期待后文。   RF、GBDT和XGBoost都属于集成学习(Ens...

1K4
来自专栏量子位

何恺明“终结”ImageNet预训练时代:从0开始训练神经网络,效果比肩COCO冠军

三位从Mask R-CNN就开始合作的大神搭档,刚刚再次联手,一文“终结”了ImageNet预训练时代。

1031
来自专栏专知

【ICLR2018 最高分论文】利用分布鲁棒优化方法应对对抗样本干扰

【导读】近日,深度学习顶会ICLR2018评审结果出炉,得分最高的论文是 《Certifiable Distributional Robustness with...

5665
来自专栏AI研习社

干货:图像比赛的通用套路有哪些?Kaggle比赛金牌团队为你解答

AI研习社按: Kaggle 是全世界首屈一指的数据科学、机器学习开发者社区和竞赛平台。日前,中山大学CIS实验室的研二学生刘思聪为我们带来了一场精彩的分享。他...

4076
来自专栏AI研习社

深度神经网络中的对抗样本与学习

概述 最近大半年,人工智能领域成为科技领域提到的最多的名词之一。在kdnuggets此前发布的文章 (Deep Learning’s Deep Flaws)...

38112
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 8 - 万能函数的形态:人工神经网络

之前花了不小的篇幅来解释线性回归,尽管线性模型本身十分简单,但是确定模型参数的过程,却是一种数据驱动的、自学习的通用方式。准确的说,这个过程,是基于数据的、运...

3777
来自专栏机器之心

学界 | 精准防御对抗性攻击,清华大学提出对抗正则化训练方法DeepDefense

3308
来自专栏人工智能

机器学习中的朴素贝叶斯算法

在处理预测相关的建模问题时你会发现朴素贝叶斯是一个简单而又强大的算法。

2496
来自专栏AI科技评论

总结 | 优必选悉尼AI研究院何诗怡:基于课程学习的强化多标签图像分类算法

与单标签图像分类相比,多标签图像分类是一种更符合真实世界客观规律的方法,尤其在图像和视频的语义标注,基于内容的图像检索等领域有着广泛的应用。

1923

扫码关注云+社区

领取腾讯云代金券