Ensembling越来越流行。我知道在一般情况下,有三大领域的集合,包装,提升和堆叠。
我的问题是,合唱总是至少在实践中增加表演吗?我猜从数学上讲,这不是真的。我要问的是一个真实的生活情况。
例如,我可以训练10个基础学习者,然后与另一个学习者堆叠,这是在第二层。在实践中,这个二级学习者的表现总是好于最优秀的基础学习者吗?
发布于 2018-04-20 01:21:04
在集合下,您可以使用多数票、平均票、权重等从集合模型中获得最终结果。为了更好地理解它,您可以通过这个链接,亚历山大解释得很好。
现在,让我们考虑一下,你们有3种型号,准确率为65-70%.现在,通过堆叠这三个模型,有很高的机会,您的模型的准确性将提高。在另一个场景中,你有3个模型--1: 95%,模型-2: 55%,模型-3: 45%的准确性,然后如果你把它们叠加在一起,那么很有可能会使结果恶化。
结论:这完全取决于个别模型的表现,当你把中等性能的模型组合在一起时,合奏表现得很好。
从技术上讲,没有证据表明这种方法适合于这种情况,但是跟踪和错误可能会帮助您获得好的结果。它对业务场景是主观的。同样,也适用于袋装和助推。
在我的包装经验中,当模型精度不高时,我尝试使用套袋来更好地拟合数据,但是EOD训练的精度( 20%到10%左右)降低了,但是测试的精度却下降了(11%到20%)。因此,你必须决定哪一个更适合你的业务问题,并把它向前推进。
发布于 2018-05-18 20:51:10
简短的回答是否定的。
我做过几个项目,评估了几个分类器与分类器本身的组合。在某些情况下,整体的精确性和召回性更好,但更多的情况是,它不是。这并不是说它不值得调查。但有时,有一个模型可以合理地对数据进行分类,但它可能会被一个集合所淹没。也许加权集合可能会改善结果,但这并不是提高性能的明确方法。
在实践中,我会尝试几个模型,然后尝试一个组合的模型。如果合奏是最好的,但是你定义得最好,那就跟它去吧。但有时,更容易的是选择最好的基本模型,然后找出如何调整该模型。
发布于 2018-04-19 05:32:45
正如你所说的,你不能从数学上证明装饰品能提高性能,但通常是这样的。这就是为什么坡度提升和随机森林在kaggle竞赛中如此流行的原因,因为它们在许多方面都优于决策树所能学到的知识。
作为一种好奇心,即使是神经网络也可以用作“弱”学习者,就像在https://arxiv.org/abs/1704.00109中所看到的那样。因此,装配技术是一种非常强大的技术,可以应用于机器学习的许多领域。主要的问题是,群体不是很容易解释,比它的弱学习者更多的黑色四边形。
https://datascience.stackexchange.com/questions/17146
复制相似问题