我有一个关于R代码的问题。 当我尝试在我的模型中添加功能时,我遇到了一个问题。我们的教授给了我们一些代码来做套索回归的魔术收集卡价格。如果我按原样运行他的代码,它将会工作。每当我尝试在他的代码中添加另一列作为功能时,我都会遇到问题。 下面是错误:"Error in cbind2(1,newx) %*%nbeta: Cholmod error 'X and/or Y have error dimensions‘at file./MatrixOps/cholmod_sdmult.c,第90行“ A screenshot of my command line,然后如果我删除更大的训
我想引用Aurelien的“与Scikit学习和TensorFlow一起进行机器学习的手”一书中的一段,关于在使用k-折叠交叉验证对训练集进行超参数调整之后对最终测试集的评估:
“如果您进行了大量的超参数优化(因为您的系统最终对验证数据进行了很好的调整,并且在未知数据集上的性能可能不太好),那么性能通常会比使用交叉验证时稍微差一些。”在本例中情况并非如此,但当发生这种情况时,您必须抵制调整超参数以使测试集看起来更好的诱惑;这些改进不太可能推广到新数据。“-Chapter 2: End- to End Machine Learning Project”
我很困惑,因为他说,当测试分数更差时,交叉
我正在使用Weka软件对模型进行分类。我对使用训练和测试数据集分区感到困惑。我将整个数据集的60%划分为训练数据集,并将其保存到我的硬盘上,将40%的数据用作测试数据集,并将这些数据保存到另一个文件中。我使用的数据是不平衡的数据。因此,我在我的训练数据集中应用了SMOTE。之后,在Weka的分类选项卡中,我从Test options中选择了Use training set选项,并使用随机森林分类器对训练数据集进行分类。在获得结果之后,我从Test options中选择了Supplied test set选项,并从硬盘加载我的测试数据集,然后再次运行分类器。 我试图找到关于如何在Weka中加载
在下面的R代码中,当我将手工分类结果与词典词典结果进行正、负和中性的比较时,我包括了句子(在matrixdata1中),模型的结果在表中产生了不同的结果,这是很好的。但是,当执行..。
results2 = classify_models(container2, models)
..when根据模型输入新数据(matrixdata2),会产生错误消息:
Error in predict.svm(model, container@classification_matrix, prob = TRUE, :
test data does not match model !
在检查数据集时,我
我有一个固定的训练数据集文件train.csv和另一个测试数据集文件test.csv。我知道train_test_split()方法在滑雪可以做分裂的工作。但是我想用每个文件中的每个数据集分别创建两个数据集。
我已经测试过
# The X,Y and X_, Y_ following are training and test samples/labels (dataframes)
trainX, testX, trainY, testY = train_test_split( X, Y, test_size = 0)
trainX_, testX_, trainY_, testY_ = tr
我在R中使用CreateDataPartition运行了一些实验,以拆分训练数据和测试数据。我将结果循环了大约500次,并在一台笔记本电脑上进行了测试。当我试图在另一台笔记本电脑上用相同的代码和数据复制这些实验时,它给出了非常不同的结果,与我以前的结果不太一样。我假设这可能是由于种子问题,我正在试图弄清楚如何管理它,以便至少可以复制与以前几乎相同的结果。有什么建议吗?
下面是我如何拆分训练和测试数据的快照:
for (i in 1:500){
set.seed(i)
index = createDataPartition(data$S, p=.75,list=FALSE,times=