如何对训练数据和测试数据设置相同的分类代码？Python-Pandas_如何对Weka中的训练和测试数据集进行分类_对训练和测试数据帧使用相同的标签编码器 - 腾讯云开发者社区

neural-network

我有一个关于ANN的训练和测试数据的问题。在分类之前，测试数据是否应该经过特征提取过程？我是这个领域的新手。我做的是对的吗？我将数据集分为80%的训练和20%的测试。两个集合，我都提取了特征。对于训练数据，我将其放入训练网络，但不是用于测试数据。然后转到分类。这是正确的吗？因为我的SV说测试数据不应该经过特征提取过程。我想知道如果没有提取特定的特征，ANN如何识别输入。为我糟糕的英语道歉。如果任何人有我可以参考的链接或日志，请提供它。非常感谢。

浏览 2提问于2014-02-11得票数 0

1回答

使用RapidMiner中的测试数据集

machine-learning、classification、rapidminer

我正在尝试创建一个包含训练数据集的模型，并希望标记测试数据集中的记录。我在网上找到的所有教程或帮助都有关于仅对一个数据集(即训练数据集)使用交叉验证的信息。我找不到如何使用测试数据。我尝试将结果模型应用于测试集。但是测试集似乎给出了不同的结果。比预处理后的训练集更多的属性。这是一个文本分类问题。最后，我得到了一些类似如下的输出 18.03.2013 01:47:00 Results of ResultWriter 'Write as Text (2)' [1]: 18.03.2013 01:47:00 SimpleExampleSet: 5275 examples, 36

浏览 3提问于2013-03-18得票数 1

回答已采纳

1回答

LDA作为分区之前或之后的降维

machine-learning、computer-vision、classification

我正在进行分类，我有一个关于仅用于降维的LDA的问题： LDA是否适用于包括训练数据和测试数据在内的整体特征矩阵，然后(在减少数据维数后)对特征矩阵进行划分，为分类提供训练和测试集？是真的吗？然后，假设我们需要在应用LDA之前对数据进行分区。如何能够使用Matlab的内部分类器(如kNN和SVM)对测试数据进行分类？

浏览 1提问于2017-09-30得票数 2

1回答

如何在matlab中使用支持向量机计算图像分类的训练和测试精度

matlab、svm

我尝试使用SVM方法对这四组图像进行分类，每次都随机选择训练和测试数据。当T运行程序时，由于随机选择数据，性能会发生变化。如何获得我的算法的准确性能，以及如何计算训练和测试精度？我用来计算性能的公式是 Performance = sum(PredictedLabels == test_labels) / numel(PredictedLabels) 我正在使用multisvm函数进行分类。

浏览 2提问于2013-12-11得票数 0

1回答

使用Weka预测测试数据集中的文本数据标签？

machine-learning、weka

我正在使用Weka gui在数据集上训练支持向量机分类器(使用libSVM)。.arff文件中的数据为 @relation Expandtext @attribute message string @attribute Class {positive, negative, objective} @data 我使用String-to-Word Vector将其转换为一袋单词，运行SVM并获得不错的分类率。现在我有了我的测试数据，我想要预测他们的标签，我不知道。同样，它的头信息是相同的，但对于每个类，它都标有一个问号(?)即 'Musical awareness: Great Big

浏览 2提问于2013-03-16得票数 1

回答已采纳

2回答

使用sci-kit中的训练/测试数据学习曲线，而不是交叉验证

python、machine-learning、scipy、scikit-learn

我有一个独立的训练和测试数据(从不同的CSV加载到不同的pandas数据框中)，我想用这些训练和测试数据绘制学习曲线，而不是使用交叉验证从训练集本身生成训练和测试数据(这似乎是learning_curve的常见工作方式)。似乎scikit希望你的测试和训练数据出现在同一个Dataframe中，但这样分类器也会学习测试数据，这不是我想要的。我该如何着手解决这个问题呢？我是第一次接触科学工具包。

浏览 3提问于2015-09-20得票数 2

1回答

如何使用带countVectorizer.fit_transform()的酸洗分类器对数据进行标记

python、scikit-learn、text-classification

我在一组简短的文档上训练了一个分类器，并在得到一个二进制分类任务的合理f1和准确性分数之后对它进行了腌制。在培训过程中，我减少了使用sciki学习countVectorizer cv的特性数量： cv = CountVectorizer(min_df=1, ngram_range=(1, 3), max_features = 15000) 然后使用fit_transform()和transform()方法获得转换后的列车和测试集： transformed_feat_train = numpy.zeros((0,0,)) transformed_feat_test =

浏览 8提问于2014-09-23得票数 5

回答已采纳

1回答

如何将经过训练的KNN分类模型应用于新数据？

r、machine-learning、classification、knn

我试图完成一个分类项目，在那里使用KNN算法，工作非常好。然而，问题是，我已经训练了模型，并将其保存为RDS文件。我想知道如何将模型应用于一些新的数据？例如，对于回归，您可以使用函数predict()，其中它使用已经训练过的模型作为参数，而对于knn()，它只使用训练过的数据集和测试数据集，并且没有办法使用已经训练过的knn模型作为参数，而不是使用火车数据集。有什么函数可以用经过训练的knn模型作为依据来预测新数据的分类吗？

浏览 4提问于2022-05-10得票数 -1

4回答

在用于多类分类的keras中生成混淆矩阵

python、machine-learning、keras、conv-neural-network、confusion-matrix

训练模型的准确率高达98%，但混淆矩阵表现出很高的误识率。我正在使用keras和迁移学习方法在预先训练的VGG16模型上进行多类分类。问题是使用CNN将图像分类为5种类型的番茄病害。有5个疾病类别，6970个训练图像和70个测试图像。训练模型的准确率为98.65%，而测试模型的准确率为94%。但问题是，当我生成混淆矩阵时，它显示出非常高的误分类。谁来帮帮我，是我的代码错了还是模型错了？我很困惑我的模型是否给出了正确的结果。如果有人能解释一下keras是如何使用model.fit_generator函数来计算精度的，因为将精度的一般公式应用于混淆矩阵，并没有给出与keras计算的结

浏览 5提问于2018-12-26得票数 1

1回答

如何为训练暹罗神经网络准备数据集

python、keras、neural-network、computer-vision、conv-neural-network

我试图通过建立一个带有角角的人脸识别模型来实现一个暹罗神经网络。以前，我使用分类实现了CNN人脸识别模型(带有keras)，因此我的数据集已经被分成训练数据、训练标签、验证数据、验证标签和测试数据。用于此目的的数据集由226个图像类组成。我使用2799张图像进行训练，226张图片进行验证。现在我想使用数据集来训练一个暹罗神经网络。为了这个目的，我该如何分割数据呢？

浏览 1提问于2019-07-02得票数 3

回答已采纳

1回答

需要删除for循环以将代码向量化并运行得更快。

python、python-3.x、numpy

我有一个学校作业，在那里我必须创建一个分类器(kNN)。我试着这么做，而且速度太慢了。我需要在不使用循环的情况下加快速度，但我不知道该如何做。我有训练数据和标签。我也有测试数据。我已经创建了一个函数来执行分类。 label=classifier(train, trainlabel, testvector) 其中，训练数据是训练数据，是一个nxm矩阵。列车标签是mx1的标签。测试向量是一个单一的样本，即nx1。我必须预测的完整测试数据是一些nxk矩阵。现在，我正在创建一个循环来提取列并将其传递给分类器。请参阅下面的代码。 for i in range(0, numoftestsamples)

浏览 0提问于2019-02-17得票数 1

回答已采纳

2回答

如何利用测试数据量化分类器(多类SVM)的性能？

svm、matlab、confusion-matrix

我正在使用比利时交通标志数据集在MATLAB中编写交通标志识别代码。数据集由培训数据和测试数据组成。我使用VL_HOG函数从VL_feat库中调整给定图像的大小并提取HOG特征，然后使用训练数据集中的所有标记训练多类支持向量机。我特别感兴趣的是探测到8个信号。问题1:我是否应该只使用这8个符号的训练集来训练模型，还是用整个训练数据集来训练模型，而忽略我在检测阶段不感兴趣的迹象？在训练多类支持向量机时，我想利用测试数据测试分类器的性能.问题2:有人能指导我如何做到这一点吗？我发现了一些与我正在寻找的可用这里类似的东西。如果我能获得定量数据，如百分比形式的混淆矩阵，那就太好了。谢谢!

浏览 0提问于2018-05-14得票数 0

2回答

将预测映射回IDs Python学习DecisionTreeClassifier

python、scikit-learn、classification、decision-tree、valueerror

我有一个具有唯一标识符和其他特性的数据集。看上去像这样 ID LenA TypeA LenB TypeB Diff得分响应123-456 51 M 101 L 50 0.2 0 234-567 46 S 49 S 3 0.9 1 345-678 87 M 70 M 17 0.7 0 我把它分成训练和测试数据。我试图从训练数据的分类器中将测试数据分类为两类。我需要训练和测试数据集中的标识符，这样我就可以将预测映射回I。有没有一种方法可以像在Azure、ML Studio或SAS中那样，将标识符列指定为ID或非预测器？我使用的DecisionTreeClassifier来自Scikit

浏览 5提问于2017-04-21得票数 5

5回答

在训练和测试数据中保持相同的虚拟变量

python、dataframe、scikit-learn、prediction、dummy-variable

我正在用两个独立的训练和测试集在python中建立一个预测模型。培训数据包含数字类型的分类变量，例如邮政编码，91521,23151,12355，.，以及字符串分类变量，例如，城市“芝加哥”，“纽约”，“洛杉矶”，. 为了训练数据，我首先使用“pd.get_dummies”来获取这些变量的虚拟变量，然后用转换后的训练数据对模型进行拟合。我对我的测试数据进行同样的转换，并使用经过训练的模型来预测结果。但是，我得到了错误 ValueError: Number of features of the model must match the input. Model n_features is 1

浏览 13提问于2016-12-26得票数 47

1回答

新事物的分类--多项朴素贝叶斯

python、machine-learning、classification、scikit-learn

所以我现在已经用[SKiLearn][1]训练了一个多项式朴素贝叶斯分类器，现在我能做的就是用predict对测试数据进行分类。但是如果我想每天晚上运行这个脚本，我显然需要一个已经训练好的分类器！现在我想要做的是，获取分类器系数，信息性的单词，并使用它们来对新数据进行分类。有没有可能--开发我自己的分类方法？或者我应该每晚简单地训练SkiLearn分类器？编辑:看起来我能做的一件事，就是保留和。然而，对于逻辑回归，您可以将系数用于新数据。NB也有类似的东西吗？

浏览 0提问于2014-05-15得票数 0

2回答

监督学习中测试数据的目的？

machine-learning、test-data、supervised-learning

所以这个问题可能看起来有点愚蠢，但我无法理解它。测试数据的用途是什么？只是为了计算分类器的准确率吗？我正在使用朴素贝叶斯对推文进行情感分析。一旦我使用训练数据训练我的分类器，我就使用测试数据来计算分类器的准确性。如何使用测试数据来提高分类器的性能？

浏览 0提问于2015-03-02得票数 0

1回答

Weka中不兼容的训练和测试集

machine-learning、classification、weka

我有一套训练。我在训练集上执行了以下过滤器，四分位数范围&RemoveWithValues(用于移除异常值和极值)。替换丢失的值。 NumerictoNominal 我使用了带有交叉验证的朴素贝叶斯分类器(10倍)。准确率为62%。拯救了模型。我在测试数据上使用了"NumerictoNominal“过滤器。测试数据缺少值，而且Class属性也是空的。属性的数量和顺序在测试和培训数据中是相同的。当我在Weka中使用提供的测试集选项运行朴素贝叶斯时，我会发现一个错误，即训练和测试数据不兼容。

浏览 2提问于2013-04-01得票数 1

1回答

KNN给出了K=1最高的准确率？

classification、weka、knn

我正在使用Weka的IBk对文本(Tweet)执行分类。我将训练和测试数据转换到向量空间，当我对测试数据进行分类时，最好的结果来自K=1。训练和测试数据是相互独立的。为什么K=1能给出最好的准确性？

浏览 0提问于2016-04-26得票数 0

2回答

如何分割和训练生物学数据模型

machine-learning、dimensionality-reduction

我使用的基因表达数据，是浮动数字，并希望训练分类器考虑到二进制分类。由于我是这个领域的新手，我有一些问题：我使用的第一个分类器是SVM。我正在使用sklearn工具，它需要在培训和测试数据集中分离数据集。据我所知，为了构建模型，需要将数据集中的数据集和验证数据集(找到模型的参数)分开，而对于超参数的微调，则需要一个测试数据集。有趣的是，考虑到我在查看sklearn文档时发现的情况，建议只对火车和测试数据集进行分割。验证数据集上没有断言。因此，我怀疑，我是否正确地运行分类器。下面是我使用的代码： from sklearn.model_selection import train_tes

浏览 0提问于2021-06-10得票数 1

1回答

TF IDF加权了测试数据中的频率分数，使用SVC训练模型

python、machine-learning、svm、tf-idf

我正在训练一个关于文本描述和对应于它们的标签的预测模型。我正在使用SVC来训练具有tf idf加权词频的语料库。我想知道是否有一组新的数据(测试，而不是这里使用的训练测试分割)是我想要分类的，是否应该使用tf idf向量化。如果是，应该单独对测试数据进行测试，还是与训练数据一起进行？

浏览 2提问于2019-06-26得票数 0

3回答

在对布尔数据进行分类时，WEKA训练和测试集不兼容

testing、classification、weka

当我尝试使用训练数据对新的测试数据进行分类时，我在Weka Explorer中得到了以下消息： Problem evaluating classifier: Train and test set are not compatible Attributed differ at position 6: Labels differ at position 1: TRUE != FALSE 我正在使用J48分类器根据布尔形式和数字形式的关键字的流行度对RSS进行分类。只有布尔变量才会出现此问题。我的训练数据如下： @relation _dm_3793_855329_11032013_136299347

浏览 0提问于2013-04-05得票数 0

回答已采纳

2回答

文本分类-当训练数据和测试数据有不同的特性时该怎么办？

machine-learning、r、text-mining、random-forest

我正在执行二进制文本分类。我必须将一条推文分类为0(如果中立)和1(如果是仇恨言论)。所以作为一般的经验法则，我对我的数据进行了预处理。创建术语文档频率，删除稀疏项后，我将数据划分为训练和测试。我用随机森林和logistic回归来训练我的模型，效果很好。 set.seed(123) tweetRand = randomForest(label ~ ., data = train_sparse, importance=TRUE, nTree=500 ) randPridct = predict(tweetRand, newdata = test_sparse) table(test_spars

浏览 0提问于2018-03-16得票数 1

回答已采纳

1回答

我是否重新训练了整个训练数据的模型？

machine-learning、image-processing、keras

我有一个图像数据集的多类图像分类-培训和测试图像。我训练并保存了我的模型(作为.h5文件)的训练数据，使用80-20%的火车验证分割。现在，我想预测测试图像的类。哪种选择更好，情况总是这样吗？对于“测试图像”，使用训练后的模型对整个训练数据(即包含20%的验证图像)保存的模型进行预测。但是，如果没有验证数据，那么模型如何确保在培训期间损失最小。

浏览 8提问于2020-07-02得票数 0

回答已采纳

1回答

基于高斯朴素贝叶斯的多类分类

machine-learning、scikit-learn、data-science、naivebayes、multiclass-classification

我知道朴素贝叶斯擅长二进制分类，但我想知道多类分类是如何工作的。例如:我之前使用朴素贝叶斯进行文本分类，对文本进行矢量化以查找文档中每个单词的概率，然后使用矢量化数据来适应朴素贝叶斯分类器。现在，我正在处理如下数据： A、B、C、D、E、F、G 210,203，0，30,710,2587452，0 273,250，0，30,725,3548798，1 283,298，0，31,785,3987452，3 在上述数据中，有6个特征( and )，G是具有值(0、1或2)的类。我在dataset中有将近70000个条目具有类(输出) 1、2或3。在将数据分成测试数据和训练数据后，我将训练数

浏览 4提问于2017-11-25得票数 2

回答已采纳

1回答

TreeBagger() (MATLAB)和不同数量的训练和测试集上的变量

matlab、machine-learning、random-forest

我正在使用MATLAB函数TreeBagger()进行随机森林分类，以完成一项任务。当测试数据的变量数量与训练数据的变量数量不同时，它会给出错误。我被告知，变量选择应该只在训练数据上进行，而不是在测试数据上，这样测试数据上就没有偏见。因此，在将初始数据集(50个变量)拆分为训练集和测试集后，我对训练集执行变量选择(独立性的卡方检验)。因此，训练集由37个变量组成，而测试集仍有50个变量。我使用训练训练集，然后使用测试集进行预测(函数)。我得到了一个错误，因为测试集的变量数量与模型训练时使用的变量数量不同。仅在训练集上执行变量选择是否错误？有没有一种方法可以使用这个函数执行预测？

浏览 0提问于2015-12-20得票数 1

1回答

如何使用非常小的训练、测试和验证数据集来度量模型的特异性的可靠性？

machine-learning、statistics、generalization

这里是新手。我有一个小的数据集646个样本，我已经训练了一个合理的性能模型(~99%的测试和瓦尔的准确性)。让事情变得更复杂一点的是，这些类有些不平衡。这是一个二元分类问题。这是我对训练数据的混淆矩阵。 [[387 1] [ 1 73]] 关于测试数据： [[74 1] [ 0 10]] 关于验证数据： [[85 1] [ 0 13]] 训练特异性：.986 检测特异性：.909 验证特异性：.928 我认为测试和验证的特异性很低，而训练的特异性相对较高。然而，考虑到在测试和验证数据集中只遗漏了一个样本，我的真实世界的特异性是什么？是否有更好的泛化措施？给定负样本类的大小，

浏览 0提问于2019-03-04得票数 0

1回答

如何在测试集中应用均值编码？

python-3.x、machine-learning、deep-learning、feature-engineering

如果我有一个数据集，则通过使用目标变量'B‘计算每个类别的平均值，将均值编码应用于训练数据集的分类特征'A’，但是测试数据如何？测试数据不包含任何目标变量。是否应使用培训数据中的计算值？

浏览 5提问于2020-05-12得票数 0

2回答

堆叠:使用对训练或测试的预测来创建一级分类器的特性。

machine-learning、classification、data-leakage、stacking

这个问题很简单。在叠加中，0级模型的预测被用作训练1级模型的特征。然而，预测什么数据呢？直观地说，预测测试集并利用这些结果训练最终的分类器更有意义。我不确定这是否会导致数据泄漏，我不认为这会导致数据泄漏(因为最终的分类器只有初始分类器所具有的信息，即。只是从火车的数据-它不知道这些预测是好还是坏)。这个推理正确吗？

浏览 0提问于2022-09-26得票数 2

回答已采纳

1回答

测试和列车组中的特征工程(组合数据或列车和测试分开)

predictive-modeling、feature-engineering、data-science-model

背景:作为预测分析的一部分，我得到了一个训练和测试数据集。训练数据和测试数据都有数值和分类预测变量，另外，训练数据有一个数值目标变量。目的是在测试中预测目标。 train = C1，c2，x3，x4，y = Xc，X，y test = C1，c2，x3，x4 = Xc，X Xc，X表示范畴变量和数值预测变量。我试图从分类变量Xc中生成额外的特性，例如计数特性、count_mean、count_variance和类似的特性，这些特性是由分类变量和数值变量(均值、方差等)组合而来的。问题:在组合数据集train+test上生成特性更好，还是在训练数据集和测试数据集中单独生成特性更好？当一个分

浏览 0提问于2018-06-05得票数 1

1回答

对每个目标使用不同的测试/训练拆分

scikit-learn

我计划使用一个包含3个感兴趣的目标值的数据集。最终，我将在一个二元目标上尝试分类方法，并计划对两个独立的连续目标使用回归方法。对每个目标变量进行不同的训练/测试拆分是不是一种糟糕的做法？否则，我不确定如何以一种允许我分别预测每个目标的方式拆分数据。

浏览 5提问于2020-02-20得票数 1

2回答

我可以重用测试数据作为培训数据吗？

machine-learning、conv-neural-network

我用cnn对图像进行分类。我有1000张照片要开始我的旅程。所以我使用900作为训练数据集，100作为测试数据集。我得到了一个70%正确的模型。然后我今天又得到了150张照片。因此，我有两个想法要继续： (1)我可否将以前的100个测试数据+ 900个训练数据组合成一个“新”训练集，使我可以有1000个训练数据，以得到一个可能更好的模型？然后我可以使用新的150个图像作为新的“测试”数据？ (2)我可否将新的150幅图像+ 900条列车数据组合成一个“新”训练集，以训练一个更好的模型，并继续使用以前的100个测试数据来测试新模型？很明显，我打算两者都试一试，但理论上我不确定哪一种更好.有什

浏览 3提问于2017-06-19得票数 2

回答已采纳

1回答

如何保存深度学习模式，并在培训后进行测试？

python、deep-learning、tensorflow、cnn

我用tensorflow编写了一个用于python的CNN模型，该模型用于对肺CT图像(癌症/非癌症)进行分类，经过训练和验证数据训练模型并获得合理的准确性，毕竟，我需要用测试数据来测试模型，但我不知道如何做到这一点？如何保存模型并将其用于测试？

浏览 0提问于2018-08-14得票数 0

回答已采纳

1回答

如何将相同的PCA应用于训练和测试集

weka

例如，我正在将PCA应用于我的训练集，并希望使用SVM进行分类。如何在测试集中自动拥有相同的功能？(与PCA之后的新训练集相同)。

浏览 80提问于2019-03-31得票数 2

回答已采纳

2回答

理解感知器

algorithm、machine-learning、artificial-intelligence、neural-network、perceptron

我刚开始上机器学习课，我们复习了感知器。对于家庭作业，我们应该：“选择合适的二维(平面)训练和测试数据集，使用10个数据点进行训练，5个数据点进行测试。”然后我们应该编写一个程序，它将使用感知器算法并输出：关于训练数据点是否线性可分的评论关于测试点是否为线性可分点的评论您最初选择的权重和常数最终解方程(决策边界) 算法所做的权重更新总数。在培训集上进行的迭代总数。对训练数据和测试数据的最终错误分类错误(如果有的话)。我已经读了好几遍我的书的第一章，我仍然有困难，充分理解知觉。我知道如果一个点被错误分类，你会改变权重，直到不再有错误分类，我想我

浏览 2提问于2015-01-31得票数 3

回答已采纳

1回答

朴素贝叶斯分类中的未知词

machine-learning、smoothing、text-classification

如何用未知单词测试文本分类问题？在训练模型时，我们可以使用平滑技术(Laplace add-1)来确保每个类至少有一个单词。那么，在测试阶段呢？如果训练数据中没有出现一个单词，那么处理它的最佳方法是什么？简单地跳过它，还是也给它一个1的出现？谢谢你的建议或意见。具体来说，我使用的是朴素的贝叶斯分类器。

浏览 1提问于2014-10-09得票数 2

回答已采纳

1回答

所生成的混淆矩阵的大小使用混淆块函数是不对的，为什么？

matlab、machine-learning、computer-vision、classification、svm

我正在使用比利时交通标志数据集在MATLAB中编写交通标志识别代码。可以找到此数据集。数据集由培训数据和测试数据(或评估数据)组成。我调整了给定图像的大小，并使用VL_HOG函数从VL_feat库中提取HOG特性。然后，我使用训练数据集中的所有标记来训练多类支持向量机。在训练集中有62类别(即不同类型的交通标志)和4577帧。我使用fitcecoc函数来获得分类器。在训练多类支持向量机时，我希望使用测试数据测试分类器的性能，并分别使用predict和confusionmat函数。由于某些原因，返回的混淆矩阵的大小为53乘53，而不是62乘62。为什么混淆矩阵的大小与类别数不相同？

浏览 2提问于2018-05-16得票数 0

回答已采纳

1回答

处理训练和测试数据中的不同因素水平

r、machine-learning、classification、random-forest、categorical-data

我有一个20列的训练数据集，所有这些都是我必须用于训练模型的因素，我已经获得了测试数据集，我必须应用我的模型进行预测并提交。我在做最初的数据探索，出于好奇，我检查了训练数据和测试数据的级别，因为我们正在处理所有的分类variables.To，我很沮丧，大多数类别(变量)在训练和测试数据集中都有不同的级别。例如 table(train$cap.shape) #training data column levels b c f k x 196 4 2356 828 2300 table(test$cap.shape) #test data b

浏览 0提问于2016-11-11得票数 4

1回答

基于神经网络的一类图像分类

tensorflow、keras、neural-network、classification

目标是对狗和非狗进行分类。训练数据集只包含狗的图像。神经网络将仅使用此训练数据集进行训练，然后使用包含狗和非狗图像的测试数据集进行测试。我遵循，在我的例子中，自动编码器将所有测试图像归类为狗，这是错误的。为一个类别分类构建CNN也是不可能的。你知道怎么做吗？

浏览 4提问于2020-07-19得票数 0

1回答

如何在weka中对文本进行适当的分类是必要的。

java、classification、weka、text-classification

我需要使用weka编程分类一些文本，但我有困难，因为培训数据和待分类数据需要过滤(同样的方式)，然后才能与分类器一起使用。我目前解决这个问题的方法是:创建一个带有string属性和类的训练数据的arff。对数据集使用StringToWordVector，并保存过滤器以供以后使用。对结果数据使用Attributeselection筛选器，并保存筛选器以供以后使用。用这些数据训练分类器，并保存分类器。创建一个具有与arff相同属性的“实例”，并使用我希望使用的类属性值所缺少的实例填充它。加载StringToWordVector过滤器并使用它筛选实例。加载AttributeSlection过滤器并

浏览 4提问于2014-07-12得票数 2

回答已采纳

3回答

对于不平衡的分类，是否应该平衡验证数据集？

classification、class-imbalance、imbalanced-learn

我正在为不平衡的数据建立一个二进制分类模型(例如，90%的Pos类和10%的Neg类)。我已经平衡了我的训练数据集，以反映一个50/50的类分割，而我的保留(训练数据集)保持与原始数据分布相似(即90%比10%)。我的问题是关于在CV超参数过程中使用的验证数据。在每次迭代折叠过程中，应： 1)平衡训练和考试两部分。或 2)训练褶皱应保持平衡，验证褶皱应保持不平衡，以反映原始数据分布和持久化数据集。我目前正在使用第一个选项来优化我的模型；但是，考虑到延迟数据集和验证数据集有不同的分布，这种方法有效吗？

浏览 0提问于2020-06-15得票数 10

回答已采纳

1回答

将该模型应用于验证数据，取得了比在测试集上更高的性能。这个是可能的吗？

machine-learning、classification、machine-learning-model、cross-validation、performance

我训练了一个二元交叉验证的分类模型，并在测试数据上获得了高性能(大约90)，但是当我将该模型应用到新的未见数据以查看如何执行时，我获得了更高的性能(大约98)。有可能吗？

浏览 0提问于2023-01-16得票数 0

1回答

使用sk-learn进行分类:在预测时处理丢失的分类特征

python、scikit-learn、missing-features

我的项目我训练了一个BaggingClassifier。由于使用的数据包含分类特征，因此我使用pandas框架(Get_dummies)对其进行编码。在此之后，我训练分类器。现在我想做一个预测。它返回了这个错误： ValueError: Number of features of the model must match the input. Model n_features is 12 and input n_features is 6. 我确实理解为什么我会得到这个错误。模型中的必需功能: 12 预测数据集内的给定特征:6 由于编码，在这种情况下，训练数据集扩展到12个特征。我用于预测的

浏览 6提问于2015-05-06得票数 3

1回答

我应该使用word2vec来进行word嵌入，包括测试数据吗？

machine-learning、nlp、text-classification、word2vec、word-embedding

我是一个新的人在NLP和我尝试做文本分类工作。在做这个工作之前，我知道我们应该做单词嵌入。我的问题是，我应该只在训练数据(使测试数据只从训练前的vec训练数据模型获得向量)上做单词嵌入工作，还是同时对训练数据和测试数据进行嵌入工作？

浏览 2提问于2016-05-22得票数 0

回答已采纳

1回答

基于朴素贝叶斯的文本分类

python、nlp、nltk、text-classification、textblob

我正在学习自然语言处理，并注意到基于朴素贝叶斯的TextBlob分类(textblob是建立在NLTK之上的) 在训练数据是句子列表时工作得很好，当训练数据是单个单词(其中每个单词和指定的分类)时根本不起作用。为什么？

浏览 14提问于2018-08-15得票数 0

回答已采纳

2回答

训练精度与测试精度的理想差异

classification、data、supervised-learning、training、accuracy

在数据分类问题(有监督学习)中，训练集精度和测试集精度之间的理想差别应该是什么？理想的范围应该是什么？训练和测试的准确度相差5%，好吗？或者这是否意味着过度适应？

浏览 0提问于2017-07-08得票数 2

1回答

使用sklearn进行音乐流派分类:如何准确评估不同的模型

python、machine-learning、scikit-learn、statistical-sampling

我正在做一个项目，对来自5个不同流派(摇滚，电子，说唱，乡村，爵士)的30秒音频样本进行分类。我的数据集包含600首歌曲，每个流派恰好有120首。特征是每首歌曲的13个mfcc的一维阵列，标签是流派。基本上，对于30秒样本的每帧，我取每组13个mfcc的平均值。这导致每首歌曲有13个mfcc。然后，我获得整个数据集，并使用sklearn的缩放函数。我的目标是比较svm、knearest和naive bayes分类器(使用sklearn工具集)。我已经做了一些测试，但我注意到结果会根据我是否进行随机采样/分层采样而有所不同。我在sklearn中执行以下函数来获取训练和测试集： X_train

浏览 3提问于2017-05-15得票数 1

2回答

测量分类算法的性能

artificial-intelligence、machine-learning、nlp、classification、bayesian

我手头有一个分类问题，我想用机器学习算法来解决这个问题(贝叶斯或马尔可夫，这个问题与要使用的分类器无关)。在给定大量训练实例的情况下，我正在寻找一种方法来衡量实现的分类器的性能，同时考虑到数据过拟合问题。也就是说:给定N1..100个训练样本，如果我在每个样本上运行训练算法，并使用这些完全相同的样本来测量适应度，它可能会陷入数据过拟合问题-the分类器将知道训练实例的确切答案，而没有太多的预测能力，导致适应度结果无用。一个显而易见的解决方案是将手工标记的样本分成训练样本和测试样本；我想了解选择统计上有意义的样本进行训练的方法。白皮书，书籍指针，和PDF非常感谢！

浏览 3提问于2009-01-02得票数 8

回答已采纳

1回答

从较大的应用程序集中选择一个训练集

machine-learning、data-science

我正在尝试对一个dataset.But执行情感分析，没有一个现有的语料库可以训练我的分类器，它与我想要分析的数据集相似。我的问题如下:我是否可以在训练/验证阶段使用此数据的随机采样子集，然后使用训练好的分类器对更大的数据集执行分析？我计划通过向训练集中添加与应用程序数据集相似但不是来自该集中的数据点来引入一些可变性。这是一种有效的方法吗？

浏览 19提问于2016-07-27得票数 0

回答已采纳

1回答

交叉验证后如何在Matlab中应用学习模型

matlab、machine-learning、classification、cross-validation

一旦使用交叉验证方法对分类器进行了培训和测试，如何使用这些结果对未见数据进行验证，特别是在自由运行阶段/部署阶段？如何使用所学的模型？下面的代码使用交叉验证来训练和测试数据X。在计算行pred = predict(svmModel, X(istest,:));之后，我应该如何使用所学习的模型？ part = cvpartition(Y,'Holdout',0.5); istrain = training(part); % Data for fitting istest = test(part); % Data for quality assessment balanc

浏览 0提问于2018-06-10得票数 1

回答已采纳

2回答

预测达到里程碑的概率-我应该使用多少生产领域的数据来训练/测试模型？

predictive-modeling、machine-learning-model、probability

如果我预测一个企业达到(x)里程碑(分类1)的概率，但我唯一拥有的数据是实时生产数据，那么我应该使用多少生产数据来训练模型呢？我的假设是，如果我使用所有数据，任何尚未达到里程碑的业务(0的分类)的概率很可能保持在0.因为我刚刚训练的模型应该是0。作为一个警告，我知道用80/20或70/30分割来训练/测试集是很常见的--我的大部分徒劳搜索都提出了这个答案，但我的问题是，我是否应该拿出我生产数据的10%，然后在培训和测试之间分割80/20或70/30，以避免与模型相适应。我的数据集是30k记录，所以我的第一个倾向是在训练/测试中使用3-5k记录。

浏览 0提问于2023-01-08得票数 0

回答已采纳