我有一个相对较大的数据集,关于美国几个市场的房屋销售。对于每个市场,我想建立一个梯度提升回归模型来预测销售价格。我的大多数自变量(特性)都有缺失值,这对于R中的gbm来说应该没问题。caret中的gbm算法要求您指定超参数(n.trees、shrinkage、interaction.depth、n.minobsinnode等)的值。我想结合交叉验证进行网格搜索,以选择最佳的超参数集:
# -------- A function to drop variables that are more than 80