1.优势
2.关键点
2.1 gbdt 的算法的流程? gbdt通过多轮迭代,每轮迭代生成一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练.(弱分类器一般会选择CART TREE - 分类回归树)
最终的总分类器是将每轮训练得到的弱分类器加权求和得到. - 加法模型
模型最终可描述为:$F_M(x)=\sum_{m=1}^{M}T(x;\theta_{m})$ 模型一共训练M轮,每轮产生一个弱分类器$T(x;\theta_m)$,弱分类器的损失函数\hat{\theta}\_m=argmin\_{\theta\_m}\sum\_{i=1}^{N}L\{y\_i,F\_{m-1}(x\_i)+T\_m(x\_i;\theta\_m)\}
gbdt在每轮迭代的时候,都去拟合损失函数在当前模型下的负梯度. 2.2 gbdt 如何选择特征 ? 原始的gbdt做法非常暴力,首先遍历每个特征,然后对每个特征遍历它所有可能的切分点,找到最优特征m的最优切分点j.
2.3 gbdt 如何构建特征 ? 工业界做法是和逻辑回归结合,得到组合特征.
2.4 gbdt 如何用于分类?
对于多分类任务,GBDT的做法采用一对多的策略.一共有K个类别,训练M轮,每一轮都训练K个树,训练完成后一共有M*K个树.损失函数log loss
2.5 gbdt 通过什么方式减少误差 ? 拟合残差,梯度下降
2.6 gbdt的效果相比于传统的LR,SVM效果为什么好一些 ?
2.7 gbdt的参数有哪些,如何调参 ? 1.框架参数
2.弱学习器参数
2.8 gbdt的优缺点 ? 1.优点
2.缺点
1.xgboost和GBDT区别
参考该篇博客: https://blog.csdn.net/szlcw1/article/details/52259668 (谢谢作者整理)