原理其实很简单,利用不同损失函数的特性,结合使用不同损失函数分别训练多个模型,将多个训练得到的模型结果进行加权平均或分段预测。这里我们使用的是MAE 和 MSE:
平均绝对差值(MAE) 绝对误差的平均值,通常用来衡量模型预测结果对标准结果的接近程度。
来源见水印
均方误差(MSE) 参数估计值与参数值之差的平方的期望值。
来源见水印
可以看出,MSE对误差进行了平方,这就会放大误差之间的差距,也即加大对异常值的惩罚,在高分段和低分段能获得更好的表现,使用MAE的模型在中分段能获得更好的表现。因此可以结合使用以MSE和MAE为损失函数的模型,分段进行预测。
注:单模型而言,如果数据的异常值对于业务是有用的,我们希望考虑到这些异常值,那么就用MSE。如果我们相应异常值只是一些无用的数据噪音,那就用MAE。
书中使用lightgbm建模并进行融合,只列出关键代码。