我在一个竞赛的模型中工作,我们得到了两个数据集:
Dataset A:确实包含用于训练/测试模型的标签。Dataset B:不包含标签,此数据将用于盲测试,并根据预测分配分数。
我已经准备好了模型,但是当使用函数predict()
和Dataset B (用于盲测试)时,出现了一个问题,我是否必须应用应用于数据集A?中的相同的预处理步骤(删除重复、NAs、缩放数字特征)?在数据集B中,包含了几个NAs。
提前谢谢你的帮助。
发布于 2017-10-04 05:52:14
我想我将不得不应用相同的预处理应用于数据集A,复制,删除NA,缩放数字特征。因为预测可能会受到影响。朋托斯夫人朋友。
发布于 2017-10-04 06:00:55
当你使用预测函数时,你需要清理你的data.You,如果你想摆脱所有的NAs,你可以使用completecases()
函数。除非您有记录号或唯一键,否则不应该删除重复项。
datasetb.2<-datasetb[completecases(datasetb), ]
predicted<-predict(datasetA.model, newdata = datasetb.2)
accuracy<-(actual==predicted)/nrow(datasetb.2)
https://stackoverflow.com/questions/46555720
复制相似问题