三个臭皮匠,赛过诸葛亮。集成算法正是将多个弱模型,通过一定的组合成成一个强模型。集成算法主要有Bagging和Boosting两种。对回归问题,Bagging采取的是多个弱模型的均值作为最终结果,而Boosting采取的是加权平均,两者的区别汇总如下。
Variance和Bias的区别:
实例对比,Bagging算法的方差比Boosting的要更小一些。
Bagging集成算法由于有放回的随机取样,每次参与运算的训练集有可能不同,导致每次运行结果都不一致,可以通过设定random_state=1(任意一个常数)来固定训练集,这样可以获得性能稳定的模型。
集成算法通过调参可以得到更佳的模型。下一篇,以XGBoost为例,调用GridSearchCV,调节各种参数组合,提高模型的拟合度。
领取专属 10元无门槛券
私享最新 技术干货