DataTalk：为什么特征组合后效果更好？

木东居士

发布于 2018-05-25 16:36:01

8510

发布于 2018-05-25 16:36:01

文章被收录于专栏：木东居士的专栏

0x00 前言

关于特征组合的一个问题，回答的内容十分精彩。

0x01 讨论

问题：

为什么特征组合之后效果更好、更容易线性可分，应该怎么理解呢？

回答：

这是一个空间变换的问题!

首先需要抓住一个关键，理解什么是线性可分。线性可分的定义是一个线性函数可以将两类样本完全分开。比如说在二维平面内，就是指一条直线能区分开来两类样本；对应到分类器中，就是指我们有 x1、x2 两个特征，那么这条分界直线的解析表达式是 ax1+bx2+c=0，$x1+bx2+c>0 是一类样本，ax1+bx2+c<0 是了另一类的样本。更进一步的说，就是分界线（面）可以由一个“多元一次方程式”来表达。

下面问题来了，假设两类样本的真实分界线是一个圆（x1^2+x2^2+a=0），或者一条双曲线（xy+a=0）,在原来的二维空间中，我们能否找到一条直线分开两类样本？答案明显是不能的。但如果我们非要用直线区分样本呢？那就做空间变换吧。对于上面分界线是圆的情况，将原来的（x1,x2）映射到（x1^2,x2^2）;对于双曲线的情况，将原来的（x1,x2）映射到（x1x2），是不是在新的空间中，又可以用一条直线把两类分来啦。（注：空间变换严谨点应该用基向量来表示，这里讲个意思，不要介意）

所以提到特征组合，实际上做的就是空间变换，更准确说是把原有的特征空间映射到了一个更加高维的特征空间中。在一个真实问题中，我们并不知道分界线到底是圆还是双曲线还是别的什么，所以对于上面的例子，我们一般会尝试把原来的（x1,x2）映射到（x1,x2,x1^2,x2^2,x1x2），正所谓扩大搜索范围。特征组合增强了特征的表达能力，基本等价于说高维空间比低维空间更有表达力。

0x02 补充

补充一些自己对于特征组合的理解，首先，特征组合比较容易出现在 LR 这种线性模型中，因为线性模型对于非线性关系缺乏准确刻画，特征组合正好可以加入非线性表达，增强模型的表达能力。而一些复杂的模型已经自带了对非线性特征的处理，表达力更强。

那么，为什么特征组合效果更好，前面是从空间变换的角度来解释，这里在举个例子来说明。

假设我们要预测一个人的工资水平，现在有两个变量：x1代表职业，x2代表工作年限。我们假设这样的场景，当一个人的职业是医生的时候，他的工资是随着工作年限的增加而增加的；但是当一个人的职业是程序员的时候，他的工资却可能是随着工作年限先增后减的（例子可能不恰当），这种情况如果不做特征组合，我们的线性模型很难得到好的结果的，这时候就需要对x1和x2做一些特征组合来增加线性模型的表现力。

个人理解，一些复杂的模型其实是牺牲了一部分的可解释性换来了对非线性特征的更好的处理能力，这样就可以减小算法工程师的特征处理工作。而线性模型的可解释性比较强，但是由于模型的表现力比较弱，就需要算法工程师在特征处理上下更多的工作。

0xFF 总结

感谢 Cathy 的回答，后面的补充内容也是跟着 Cathy 学习后加上自己的理解写出来的。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018-04-07，如有侵权请联系 cloudcommunity@tencent.com 删除

大数据

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

大数据

登录后参与评论

0 条评论

热度