我有近8-10个变量(其中2个是离散的、分类的)和一个单一的数值目标参数的大约5000到6000次观测。根据初始评价,随机森林回归可能是当前情况下的一个很好的算法。
目前的观察/变量是否足以计算提议的方法?如果其他回归算法被推荐为目前的情况,请告诉我。
发布于 2020-04-21 10:43:35
重要的不是观察的数量,而是观察的质量。如果你看一看滑雪玩具数据集,它们要小得多。
当数据小时,随机森林是一种很好的算法,因为它是一种用引导树对决策树进行打包的算法。每个决策树都有一个替换的数据样本,这样即使数据很小,也有更大的机会建立一个好的模型。
在高水平上,是的,这似乎是一个很好的方法,但没有更多的了解数据是很难说的。
我建议用一个广义线性模型,一个支持向量机和一个梯度增强来尝试。因为您的数据很小,所以不需要太多的计算时间。
https://datascience.stackexchange.com/questions/72682
复制相似问题