概述
我在游侠R中使用随机森林实现对文档进行分类。
现在我面临的一个问题是,系统期望列车集合中的所有功能都存在于无法实现的实时数据集中,因此无法对实时数据文本进行预测。
程序跟随
目的:预测描述属于哪种类型的类(即OutputClass)
每一种信息,比如描述,特征都被转换成文档术语矩阵。
列集公文项矩阵
rpm Velocity Speed OutputClass
doc1 1 0 1 fan
doc2 1 1 1 fan
doc3 1 0 1 referigirator
doc4 1 1 1 washing machine
doc5 1 1 1 washing machine
现在使用上面的矩阵来训练模型。
fit <- ranger(trainingColumnNames,data=trainset)
save(fit,file="C:/TrainedObject.rda”)
现在,我使用上面存储的对象来预测它们的类类型的实时描述。
Load("C:/TrainedObject.rda”)
再次构造RealTimeData的文档矩阵。
Velocity Speed OutputClass
doc5 0 1 fan
doc6 1 1 fan
doc7 0 1 referigirator
doc8 1 1 washing machine
doc9 1 1 washing machine
在实时数据中,没有名称“RPM”的术语或特性。所以当我调用预测函数时
Predict(fit, RealTimeData)
它显示了一个错误,说RPM不见了,
这几乎不可能在每一次实时数据中得到列车的所有术语或特征。
我尝试在R (Ranger,RandomForest)中实现具有参数预测函数的随机森林,如新数据Predict.all树型。
没有一个参数有助于预测实时数据中缺少的特征。
谁来帮我解决上面的问题?
提前感谢
发布于 2016-11-17 15:11:56
predict
期望您提供给游侠的所有功能。因此,如果您在测试集中丢失了数据,您可以从训练集中删除有问题的特性,然后再次运行游侠,或者填充丢失的值。对于后一种解决方案,您可能想看看mice
包。
https://stackoverflow.com/questions/40152105
复制相似问题