我试图使用随机森林回归器对光栅堆栈进行分类,但是错误不允许预测"area_pct",难道我没有对模型进行适当的训练吗?
d100是我的数据集,包含预测变量d100[,4:ncol(d100)]和预测变量d100["area_pct"]。
#change na values to zero
d100[is.na(d100)] <- 0
set.seed(100)
#split dataset into training (70%) and testing (30%)
id<- sample(2,nrow(d100), replace = TRUE,
有没有人能够使用randomForest和bigmemory库设置分类(而不是回归)。我知道“公式方法”不能使用,我们必须求助于"x=predictors,y=response方法“。似乎大内存库无法处理具有分类值的响应向量(毕竟它是一个矩阵)。在我的例子中,我有两个级别,两个级别都表示为字符。
根据bigmemory文档...“数据框会将字符向量转换为因子,然后将所有因子转换为数值因子级别。”
有什么建议的变通方法让randomForest分类与bigmemory一起工作吗?
#EXAMPLE to problem
library(randomForest)
library(bigm
我试图在R中使用随机森林来对一些kaggle数据进行分类,但每当我尝试使用我创建的模型时,我都会得到以下错误。
Error in predict.randomForest(fit, newdata = test, type = "class") :
Type of predictors in new data do not match that of the training data
我完全不知道这个错误的原因,谷歌也帮不了太多的忙。任何帮助或见解都将不胜感激。下面给出了简单的代码片段,它是对kaggle问题之一的响应。
fit = randomForest(as.fa
我有一个包含9个特性的数据集,从x1到x9。目标变量是Target (我有分类问题)。守则:
# Splitting the dataset into the Training set and Test set
# install.packages('caTools')
library(caTools)
set.seed(123)
split = sample.split(dataset$Target, SplitRatio = 0.75)
training_set = subset(dataset, split == TRUE)
test_set = subset(datas
假设我有一个分类问题,并且希望使用R中的randomForest包来解决这个问题。
在我的培训集中,我想添加第三个变量,var3,它是var1和var2的产物。因此,培训集将由var1、var2、var3和类变量组成。
但是,测试集中不存在此var3,因此,当我要测试模型时,randomForest会给出一个错误:
random forest Error in eval(expr, envir, enclos) : object var3 not found
有什么办法可以绕过这件事吗?
为什么h2o.randomforest在训练多项式分类问题时,要计算袋外样本的均方误差?
我也用h2o.randomforest做过二分类,它用来在out of bag sample和training上计算AUC,但对于多分类随机森林计算均方误差,这似乎很可疑。请看这张截图。
我的目标变量是一个包含4个因子水平model1,model2,model3和model4的因子。在屏幕截图中,您还会看到这些因素的混淆矩阵。
有人能解释一下这种行为吗?