首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

另外两棵树——回归树&模型树

前两个推送讲的是决策树和规则树,它们解决的结局变量都是分类问题,今天说的是回归树和模型树,它们解决的结局变量为连续型数值变量。

首先复习一下,分类决策树里,模型是根据熵(Entropy)或者准确率来实现节点属性变量的选取的;相对应的,数值决策树可以通过统计量来选取节点属性(包括:方差、标准差、平均绝对偏差等)。一个常用的统计量叫做标准偏差减少(Standard Deviation Reduction,SDR)。

上式中,sd(T)代表样本的总标准差,Ti表示第i个属性中的样本量;Sd(Ti)表示Ti样本的标准差,Ti/T表示Ti样本占总样本的比例。

从上式中可以发现,重新分割后,各Ti样本的方差最小时,SDR最大,以此为依据,可以找出最理想的分割(即分割样本后,各组内的方差最小,既可以将数值相近的样本尽可能的归为一类)。同样的,如果重新分割后方差不再减少,或者无属性变量可供分割,那么决策树就到达了叶节点。

回归树和模型树的区别并不在分割方式,而在于输出结果的赋值方式:

回归树给每一个样本的预测值是该样本所在叶节点的平均值;而模型树会在叶节点建立多元线性回归模型,所以一个模型树包含了很多多元线性回归模型(关于啥是多元线性回归模型,请翻看统计学教材),然后根据回归算法进行赋值。

所以回归树并没有用到统计学中的回归算法,这算是一个小trick了。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180111G0D39O00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券