你好,这里是R数据课堂,我是一水。
这节课先对集成方法有个基本了解:
集成方法的优点
集成方法的过程
集成方法的内容
01 集成方法的优点
集成方法的基本思路是通过合并多个相互补充的弱学习器来生成一个强学习器,即拟合多个学习器的效果达到期望值,优点如下:
降低单个学习器的过拟合的可能性
适用于大数据集
适用于小数据集
02 集成方法的过程
重复M次得到M个预测值,然后按照分类输出或回归输出进行分析,最后是计算模型精度。
# 如果是分类输出:用统计频数大的结果作为最终预测。
# 如果是回归输出:用M个结果的平均值作为最终预测。
03 集成方法的内容
集成方法主要涉及样本和权重的问题。
通过调整权重提高模型精度。权重更新后,需要进行标准化,生成新的分类模型。权重的更新方法有两种:
错误分类的样本: 原始权重 x
正确分类的样本:原始权重 x
a是权重向量,m表示第m个模型。
样本的解决方法是多次抽样,用于解决低偏误和高方差问题。具体内容将在下节课说明。
感谢阅读,今天的内容有任何问题,请留言。
领取专属 10元无门槛券
私享最新 技术干货