机器学习实战之树回归

文章来源：企鹅号 - 小白的一生

“回归”与“树”

在讲解树回归之前，我们看看回归和树巧妙结合的原因。

线性回归的弊端

线性回归需要拟合所有样本点，在特征多且特征关系复杂时，构建全局模型的想法就显得太难。

实际生活中，问题很大程度上不是线性的，而是非线性的，所以线性回归的很容易欠拟合。

传统决策树弊端与改进

决策树可以解决数据的非线性问题，而且直观易懂，是否可以通过决策树来实现回归任务？我们来回顾下之前讲过的决策树方法，其在划分子集的时候使用的方法是信息增益（我们也叫ID3方法），其方法只针对标称型（离散型）数据有效，很难用于回归；而且ID3算法切分过于迅速，容易过拟合，例如：一个特征有4个值，数据就会被切为四份，切分过后的特征在后面的过程中不再起作用。CART（分类回归树）算法可以解决掉ID3的问题，该算法可用于分类和回归。我们来看看针对ID3算法的问题，CART算法是怎样解决的。

信息增益无法切分连续型数据，如何计算连续型数据的混乱程度？其实，连续型的数据计算混乱程度很简单，根本不需要信息熵的理论。我们只需要计算平方误差的总值即可（先计算数据的均值，然后计算每条数据到均值的差值，进行平方求和）。

ID3方法切分太快，CART算法采用二元切分。

回归树

基于CART算法，当叶节点是分类值，就会是分类算法；如果是常数值（也就是回归需要预测的值），就可以实现回归算法。这里的常数值的求解很简单，就是该划分数据的均值。

数据情况

首先，利用代码带入数据，数据情况如图所示。

代码

其实CART算法直观（代码却比较多。。。），其实只用做两件事：切分数据和构造树。我们以这个数据为例：首先切分数据，找到一个中心点（平方误差的总值最小），这样就完成了划分（左下和右上），然后构造树（求左下和右上的均值为叶子节点）。我们来看代码：

看下结果，和我想的是一致的。

模型树

回归树的叶节点是常数值，而模型树的叶节点是一个回归方程。

数据情况

读入数据进行可视化，你会发现，这种数据如果用回归树拟合效果不好，如果切分为两段，每段是一个回归方程，就可以很好的对数据进行拟合。

代码

前面的代码大部分是不变的，只需要少量修改就可以完成模型树。

结果如图所示：

算法优缺点

优点：可对复杂数据进行建模

缺点：容易过拟合

发表于: 2018-06-192018-06-19 20:07:18
原文链接：https://kuaibao.qq.com/s/20180619G1NMST00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

机器学习实战之树回归

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐