y ：为每个训练样本的标签构成的标签向量，向量中的每个元素 y_j 对应的是每个样本的标签。
X ：为特征的集合， x_1,x_2, \dots , x_p 为第1个特征到第 p 个特征。
R_1,R_2,R_3, \dots ,R_J 为整个特征空间划分得来的J个不重叠的区域（可以参考上页的右图）。
\tilde{y}_{R_{j}} ：为划分到第 j 个区域 R_j 的样本的平均标签值，用这个值作为该区域的预测值，即如果有一个测试样本在测试时落入到该区域，就将该样本的标签值预测为 \tilde{y}_{R_{j}} 。

但是这个最小化和探索的过程，计算量是非常非常大的。我们采用「探索式的递归二分」来尝试解决这个问题。

递归二分

回归树采用的是「自顶向下的贪婪式递归方案」。这里的贪婪，指的是每一次的划分，只考虑当前最优，而不回头考虑之前的划分。从数学上定义，即选择切分的维度（特征） x_j 以及切分点 s 使得划分后的树RSS结果最小，公式如下所示：

\begin{aligned} & R_{1}(j, s)=\left\{x \mid x_{j}<s\right\} \\ & R_{2}(j, s)=\left\{x \mid x_{j} \geq s\right\} \\ & RSS=\sum x_{i} \in R_{1}(j, s)\left(y_{i}-\tilde{y}_{R 1}\right)^{2}+\sum x_{i} \in R_{2}(j, s)\left(y_{i}-\tilde{y}_{R_{2}}\right)^{2} \end{aligned}

我们再来看看「递归切分」。下方有两个对比图，其中左图是非递归方式切分得到的，而右图是二分递归的方式切分得到的空间划分结果（下一次划分一定是在之前的划分基础上将某个区域一份为二）。

两种方式的差别是：递归切分一定可以找到一个较优的解，非递归切分穷举不了所有情况，算法上无法实现，可能无法得到一个较好的解。

回归树总体流程类似于分类树：分枝时穷举每一个特征可能的划分阈值，来寻找最优切分特征和最优切分点阈值，衡量的方法是平方误差最小化。分枝直到达到预设的终止条件（如叶子个数上限）就停止。

但通常在处理具体问题时，单一的回归树模型能力有限且有可能陷入过拟合，我们经常会利用集成学习中的Boosting思想，对回归树进行增强，得到的新模型就是提升树（Boosting Decision Tree），进一步，可以得到梯度提升树（Gradient Boosting Decision Tree，GBDT），再进一步可以升级到XGBoost。通过多棵回归树拟合残差，不断减小预测值与标签值的偏差，从而达到精准预测的目的，ShowMeAI会在后面介绍这些高级算法。

3.过拟合与正则化

1）过拟合问题

决策树模型存在过拟合风险，通常情况下，树的规模太小会导致模型效果不佳，而树的规模太大就会造成过拟合，非常难以控制。

2）过拟合问题处理

对于决策树，我们通常有如下一些策略可以用于环节过拟合：

（1）约束控制树的过度生长

限制树的深度：当达到设置好的最大深度时结束树的生长。
分类误差法：当树继续生长无法得到客观的分类误差减小，就停止生长。
叶子节点最小数据量限制：一个叶子节点的数据量过小，树停止生长。

（2）剪枝

约束树生长的缺点就是提前扼杀了其他可能性，过早地终止了树的生长，我们也可以等待树生长完成以后再进行剪枝，即所谓的后剪枝，而后剪枝算法主要有以下几种：

Reduced-Error Pruning（REP，错误率降低剪枝）。
Pesimistic-Error Pruning（PEP，悲观错误剪枝）。
Cost-Complexity Pruning（CCP，代价复杂度剪枝）。
Error-Based Pruning（EBP，基于错误的剪枝）。

3）正则化

对于回归树而言，在剪枝过程中我们会添加正则化项衡量。如下所示，考虑剪枝后得到的子树 \left \{T_a \right \} ，其中 \alpha 是正则化项的系数。当固定住 \alpha 之后，最佳的 T_a 就是使得下列式子值最小的子树。

\sum_{m=1}^{|T|} \sum_{x_{i} \in R_{m}}\left(y_{i}-\tilde{y}_{R_{2}}\right)^{2}+\alpha|T|

|T| 是回归树叶子节点的个数。
\alpha 可以通过交叉验证去选择。

更多监督学习的算法模型总结可以查看ShowMeAI的文章 AI知识技能速查 | 机器学习-监督学习。

视频教程

可以点击 B站 查看视频的【双语字幕】版本

【双语字幕+资料下载】MIT 6.036 | 机器学习导论(2020·完整版)
https://www.bilibili.com/video/BV1y44y187wN?p=12

图解机器学习算法&实战 ◉ 从入门到精通

图解机器学习 | 回归树模型详解

引言

1.决策树回归算法核心思想

1）决策树结构回顾

2）回归树的核心思想

2.启发式切分与最优属性选择

1）回归树模型示例

2）回归树构建方法

递归二分

3.过拟合与正则化

1）过拟合问题

2）过拟合问题处理

（1）约束控制树的过度生长

（2）剪枝

3）正则化

视频教程

ShowMeAI系列教程推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐