我有一个学校作业,在那里我必须创建一个分类器(kNN)。我试着这么做,而且速度太慢了。我需要在不使用循环的情况下加快速度,但我不知道该如何做。我有训练数据和标签。我也有测试数据。
我已经创建了一个函数来执行分类。
label=classifier(train, trainlabel, testvector)
其中,训练数据是训练数据,是一个nxm矩阵。列车标签是mx1的标签。测试向量是一个单一的样本,即nx1。
我必须预测的完整测试数据是一些nxk矩阵。现在,我正在创建一个循环来提取列并将其传递给分类器。请参阅下面的代码。
for i in range(0, numoftestsamples)
我有一个具有唯一标识符和其他特性的数据集。看上去像这样
ID LenA TypeA LenB TypeB Diff得分响应123-456 51 M 101 L 50 0.2 0 234-567 46 S 49 S 3 0.9 1 345-678 87 M 70 M 17 0.7 0
我把它分成训练和测试数据。我试图从训练数据的分类器中将测试数据分类为两类。我需要训练和测试数据集中的标识符,这样我就可以将预测映射回I。
有没有一种方法可以像在Azure、ML Studio或SAS中那样,将标识符列指定为ID或非预测器?
我使用的DecisionTreeClassifier来自Scikit
我正在用两个独立的训练和测试集在python中建立一个预测模型。培训数据包含数字类型的分类变量,例如邮政编码,91521,23151,12355,.,以及字符串分类变量,例如,城市“芝加哥”,“纽约”,“洛杉矶”,.
为了训练数据,我首先使用“pd.get_dummies”来获取这些变量的虚拟变量,然后用转换后的训练数据对模型进行拟合。
我对我的测试数据进行同样的转换,并使用经过训练的模型来预测结果。但是,我得到了错误
ValueError: Number of features of the model must match the input. Model n_features is 1
当我尝试使用训练数据对新的测试数据进行分类时,我在Weka Explorer中得到了以下消息:
Problem evaluating classifier:
Train and test set are not compatible
Attributed differ at position 6:
Labels differ at position 1: TRUE != FALSE
我正在使用J48分类器根据布尔形式和数字形式的关键字的流行度对RSS进行分类。只有布尔变量才会出现此问题。我的训练数据如下:
@relation _dm_3793_855329_11032013_136299347
我有一个20列的训练数据集,所有这些都是我必须用于训练模型的因素,我已经获得了测试数据集,我必须应用我的模型进行预测并提交。
我在做最初的数据探索,出于好奇,我检查了训练数据和测试数据的级别,因为我们正在处理所有的分类variables.To,我很沮丧,大多数类别(变量)在训练和测试数据集中都有不同的级别。
例如
table(train$cap.shape) #training data column levels
b c f k x
196 4 2356 828 2300
table(test$cap.shape) #test data
b
我的项目我训练了一个BaggingClassifier。由于使用的数据包含分类特征,因此我使用pandas框架(Get_dummies)对其进行编码。在此之后,我训练分类器。
现在我想做一个预测。它返回了这个错误:
ValueError: Number of features of the model must match the input. Model n_features is 12 and input n_features is 6.
我确实理解为什么我会得到这个错误。模型中的必需功能: 12
预测数据集内的给定特征:6
由于编码,在这种情况下,训练数据集扩展到12个特征。我用于预测的
一旦使用交叉验证方法对分类器进行了培训和测试,如何使用这些结果对未见数据进行验证,特别是在自由运行阶段/部署阶段?如何使用所学的模型?下面的代码使用交叉验证来训练和测试数据X。在计算行pred = predict(svmModel, X(istest,:));之后,我应该如何使用所学习的模型?
part = cvpartition(Y,'Holdout',0.5);
istrain = training(part); % Data for fitting
istest = test(part); % Data for quality assessment
balanc