如何从数据集中拆分训练、测试和有效数据并将其存储在pickle中_如何从禁用文本和多个复选框中插入一个值和获取数据，并将其存储在laravel数据库中？_对于训练数据和测试数据存储在两个不同的F1文件中的模型，如何计算csv分数或准确性分数？ - 腾讯云开发者社区

machine-learning、classification、random-forest、weka、training-data

我正在使用Weka软件对模型进行分类。我对使用训练和测试数据集分区感到困惑。我将整个数据集的60%划分为训练数据集，并将其保存到我的硬盘上，将40%的数据用作测试数据集，并将这些数据保存到另一个文件中。我使用的数据是不平衡的数据。因此，我在我的训练数据集中应用了SMOTE。之后，在Weka的分类选项卡中，我从Test options中选择了Use training set选项，并使用随机森林分类器对训练数据集进行分类。在获得结果之后，我从Test options中选择了Supplied test set选项，并从硬盘加载我的测试数据集，然后再次运行分类器。我试图找到关于如何在Weka中加载

浏览 39提问于2021-10-21得票数 0

回答已采纳

2回答

测试数据中没有目标响应变量

classification、training

我有两个数据集，它们是训练和测试集。训练数据有一个目标变量，但是测试集没有。我应该做些什么来解决测试集的问题？

浏览 0提问于2021-08-10得票数 0

1回答

XGboost分类器预测相同样本的不同结果取决于测试数据集的大小

machine-learning、python、xgboost、predict

我用以下几行来训练一个简单的xgboost分类器模型。 xgb_model = xgb.XGBClassifier(objective="binary:logistic", random_state=42) xgb_model.fit(X_train, y_train) ypred_1 = xgb_model.predict(X_test_1) ypred_2 = xgb_model.predict(X_test_2) 然后我使用两个测试数据集，其中X_test_2是X_test_1的一个子集，在预测这两个测试数据集时，模型对一些样本(在两个数据集中是相同的)给出了不同的预测。

浏览 0提问于2022-06-13得票数 1

3回答

关于滑雪的StratifiedShuffleSplit的问题

machine-learning、python、scikit-learn、statistics

我正在阅读Aurélien Géron著的“用Scikit进行机器学习-学习和Tensorflow”一书。在一个关于加州房价的回归项目中，他研究了分层抽样的概念。我想我理解他的解释：“人口被划分为同质的亚组，称为地层，每个阶层抽样正确的实例数，以保证测试集代表整个人口。” 所以用我自己的话说，简单地用sklearn的train_test_split分割数据集就会使训练和测试集很容易被错误地反映出分类变量的比率(即总体有40%的类别，60%的类别，但是这些类别的训练/测试集的比率是完全不同的)，所以分层确保样本是‘随机的’，但是在测试和训练分割中仍然保持适当的比率。如果我错了，请纠正我。以下

浏览 0提问于2019-04-30得票数 6

回答已采纳

1回答

如何将数据X，Y拆分成训练和测试？

c#、.net、machine-learning、svm、ml.net

大家好)我正在开发股票预测的应用程序(大学项目)为了训练支持向量机模型，我需要将我的数据拆分成训练和测试集<code>D0</code>，我得到了X和Y双重集合，我需要拆分。在python中，我知道有一些函数可以轻松地将数据拆分为四个变量<code>D1</code>，但我在python中找不到这样的函数。在微软的官方网站上，我只找到了这个例子，但正如我前面提到的，它只接受一个变量，在我的例子中，支持向量机将无法正常工作。我听说过microsoft ML项目，但它只拆分了一个变量。我尝试过这个例子，但正如我前面提到的，它只接受一个验证值，并提供训

浏览 41提问于2020-11-21得票数 0

回答已采纳

1回答

如何从UCI给定的标准数据集生成训练和测试数据集

svm、libsvm

我有一个包含699行和11个属性(包括class属性)的癌症数据集。如何将数据集划分为训练数据集和测试数据集？我知道下面的事情。它们是真的吗？(1)选择初始150行用于测试，剩余549行用于训练(2)选择初始549行用于训练，剩余150行用于测试此外，我是否需要在两个数据集中都包含类属性？是否还需要另一个称为“验证数据集”的数据集？我正在使用SVM进行分类

浏览 3提问于2016-07-01得票数 0

1回答

R因子测试卡有新的等级。

r、classification、predict、training-data、test-data

我在R中使用C5.0构建了一个分类模型，如下所示： library(C50) library(caret) a = read.csv("All_SRN.csv") set.seed(123) inTrain <- createDataPartition(a$anatomy, p = .70, list = FALSE) training <- a[ inTrain,] test <- a[-inTrain,] Tree <- C5.0(anatomy ~ ., data = training, trControl = train

浏览 4提问于2015-07-14得票数 1

2回答

我们是否只在使用cross_val_score时才使用训练数据？

python、validation、cross-validation

我们是向cross_val_score提供训练数据还是整个数据？我在使用cross_val_score时感到困惑。我知道我们将数据划分为训练和测试，并为我们的模型提供训练数据。 ? 这是sckit-learn文档中的示例，使用了整个数据。 cross_val_score(model, iris.data, iris.target,scoring=scorer, cv=5)

浏览 76提问于2019-04-25得票数 0

1回答

如何在每个时间段后重新加载settings.py(Django)中定义的一些常量？

django

我有一个经过训练的模型，存储在redis(缓存)中。为了减少响应时间，我在启动服务器时将其加载到settings.py中。模型每两个小时更换一次(训练)，所以我需要不断地重取。 MODEL = pickle.loads(redis_connection.get('model')) 如何在settings.py保持不变的情况下，使这个常量更新，基本上从redis中重新获取模型？

浏览 0提问于2018-07-13得票数 1

回答已采纳

2回答

验证/测试集唯一性问题

classification、nlp、cross-validation、training、text-classification

希望这是一个简单的问题，但对于如何最好地分离训练/验证/测试集，我有点不清楚。我说了100个A类的例子，我把文本分为A类(我所关心的)或B类(可能是世界上的任何文本)。显然，我有更多的B类的例子。当我将数据拆分为train/validate/测试集时，测试集(它根本不用于培训/调优)是否必须没有用于培训的A类示例？在现实世界中(鉴于我的样本有限)，它将对A类进行分类的文本将有一些精确的A类示例，但并不总是这样(可能会有变化-我并不是所有的都有)。我可以确保测试集有唯一的B类文本，但不清楚我是否还必须在测试集中维护完全唯一的A类示例，因为现实世界不一定是这样的。在测试集的训练中也有x%的A

浏览 0提问于2021-12-16得票数 0

回答已采纳

2回答

训练精度很高，验证精度很高，但测试集的精度很低。

machine-learning、keras、deep-learning、computer-vision、conv-neural-network

我已经将数据集(大约28K图像)划分为75%的训练集和25%的测试集。然后，我随机抽取了15%的培训集和15%的测试集来创建验证集。目标是将图像分为两类。精确的图像样本不能共享。但它和附件中的那个相似。我使用这个模型:带有imagenet权重的VGG19，最后两层，可训练的，以及4个密集的层。我还使用ImageDataGenerator来增强图像。对该模型进行了30个历次的训练，发现训练精度为95%，验证精度为96%，在测试数据集上训练后，仅下降到75%。我已经尝试了正规化和辍学，以解决过度适应，如果它是痛苦。我还做了一件事，看看如果我使用测试集作为验证集并在同一个测试集上测试模型会发生什么

浏览 3提问于2019-01-16得票数 2

回答已采纳

3回答

分层参数的意义

neural-network、dataset、training

我正在训练一个神经网络，我试图把我的数据分成训练和测试集。我有很多输出类，对于其中一些类，我只有两个例子，所以在这种情况下，我希望在培训中有一个例子，在测试中有一个例子。据我所读，这是使用stratify参数，但分层意味着什么？我把我的数据分成训练和测试： x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1, random_state=42, stratify=y) 因此，根据我的理解，这分为两组:培训(数据的90%)和测试(数据的10%)，但确保每组至少有一个类？

浏览 0提问于2018-11-01得票数 7

回答已采纳

1回答

使用类编码进行预测？

python、data-science、random-forest、one-hot-encoding

我想知道，如果您不知道所有未来的特征值，是否可以使用类编码，特别是Python语言中的OneHotEncoder进行预测？给出更多的背景信息。我正在预测是否将支付罚款在未来的位置，发行办公室和金额(以及潜在的其他功能，如果我可以让它工作)。当我在我的训练集上进行单次编码时，效果很好(对于100k行的数据，我的测试准确率约为92%，使用75/25的拆分)。然而，当我引入新数据时，编码器从未看到过一些位置和‘办公室’。因此，未创建新特征。这意味着在我的训练集中，当我构建模型(随机森林)时，我有2302列，而当使用真实数据进行预测时，我有3330列，因此，我构建的模型不再有效。(请注意，由于数据

浏览 4提问于2020-06-27得票数 0

1回答

TFF:如何拆分每个客户端的数据

tensorflow-federated

为什么在联邦学习任务中，我们不将数据集分割为训练、测试和验证，而只进行训练和测试。

浏览 0提问于2020-12-26得票数 1

2回答

如何在培训阶段使用验证集？

neural-network

我对在训练阶段如何使用验证集感到困惑(像CNN这样的神经网络)？在Matlab或python(Keras)这样的平台中，我将数据集分为训练集、验证集和测试集。我知道验证集用于调优超参数(如神经元数目和学习速率)，假设使用SDG优化器，如何根据验证集进行调优？验证集是否只是给出了神经网络对不可见数据(验证集)表现的指示，然后基于此我手动设置了超参数？还是自动(优化器)调优超参数？

浏览 0提问于2020-07-19得票数 2

回答已采纳

1回答

什么时候用翻转和旋转来增强图像的数据集？

training、methodology

我是机器学习的初学者，所以如果我的问题有点琐碎，我很抱歉。假设我有一个图像数据集，我想对其进行分类，比如说使用一个神经网络。对我来说，尝试通过翻转和旋转图像来增强我的数据集是有意义的，以便获得更多的训练观察结果。在某种程度上，我希望将我的数据集拆分到一个训练集和一个测试集中，并且可能还需要对训练集进行额外的细分以进行交叉验证。我的问题是:何时应该使用翻转/旋转的图像增强数据集？如果我在训练和测试样本中分割数据集之前就这样做了，那么测试样本将包含例如训练样本中的观察结果的旋转，所以我觉得它可能是“受污染的”，并且低于--代表测试错误。对于交叉验证的分割也是一样的。是否就如何进行达成了共识？而

浏览 0提问于2019-05-11得票数 1

2回答

验证集性能提高，测试集性能下降。

image-classification、cnn、cross-validation、convolution

我正在为一个三级分类问题训练CNN模型。为了做到这一点，我正在逐步解冻一个预先训练过的Resnet-18网络中更多的卷积块。问题是，在解冻块(例如块3和前面的块)之后，验证集上的性能确实提高了，但是测试数据集上的性能没有改善(相对于块2和前面的块)。现在，我想知道保持解冻块是否“合理”(可以这么说)，以了解这如何影响测试数据集上的性能。我觉得我只是在利用某种运气，因为模型更适合测试数据集，只是偶然而已。简而言之，我想我的问题是我是应该选择验证性能模型还是测试性能模型？

浏览 0提问于2018-06-13得票数 0

1回答

用于机器学习的Python pickle

python

我已经在Windows中构建了一个预测模型，以使用python 3.6.1训练数据集。我使用pickle将列车模型保存为Pickle文件现在，我已经编写了另一个python脚本来读取和加载列车pickle文件，以预测测试数据。我已经在Windows上获得了成功的结果。现在，我想将训练酸菜文件和Python脚本(使用训练酸菜文件使用测试数据预测模型)移动到具有与windows.But相似版本的python安装的Linux环境中，Linux中的python安装不包括机器学习库。在这种情况下，windows的Train pickle文件是否会表现为包含所有机器学习库的exe文件？加载和读取

浏览 1提问于2018-04-21得票数 1

1回答

Python:加载的NLTK分类器无法工作

python、nltk、pickle、sentiment-analysis、naivebayes

我试图训练一个NLTK分类器进行情感分析，然后使用泡菜保存分类器。新训练的分类器工作得很好。但是，如果加载保存的分类器，分类器将输出所有示例的“正”或“负”。我在保存分类器 classifier = nltk.NaiveBayesClassifier.train(training_set) classifier.classify(words_in_tweet) f = open('classifier.pickle', 'wb') pickle.dump(classifier, f) f.close() 并使用 f = open('classifier

浏览 3提问于2016-04-19得票数 4

回答已采纳

1回答

正则化误差与过拟合

random-forest、machine-learning-model、overfitting、regularization

我收集了来自50个唯一块的数据，然后将49个块中的数据合并成一个数据集，并将数据从1个块中保存下来用于测试。然后，我使用train_test_split(sklearn)将合并的数据集从49个块中拆分。然后利用训练数据对随机森林回归者进行交叉验证训练，并在列车(0.99)和测试集(0.94)上得到较好的模型得分(R^2)。但是，当我在1块的保留数据上使用经过训练的模型时，性能非常差(-1.0)。如果我将所有50个区块的数据合并，然后使用训练测试分割，并保留60%的数据作为训练集，20%作为测试集，20% (保留集)，我从所有三组中获得好的分数。训练集得分(0.98)、测试集(0.93)和保

浏览 0提问于2020-07-15得票数 1

1回答

在AWS Lambda上解除管道故障

python、scikit-learn、aws-lambda、pickle、xgboost

首先，如果解决方案已经发布了，我很抱歉，我看了这么多帖子，却找不到解决办法。我有一个Python类，可以在我的机器上正常工作，以便训练+运行一个ML模型。我想在available上执行运行(只运行)，但是它在pickle.load期间失败了，因为它似乎找不到管道使用的转换函数(虽然它们在代码中可用) “无法从‘/var/运行时/awslambda/bootstrap.py’>”、"errorType"："AttributeError“获取<模块'main‘>上的属性’AttributeError‘> 代码在Python3.6中，它使

浏览 0提问于2020-08-25得票数 0

回答已采纳

2回答

如何处理训练数据与测试数据之间的特征差异

python、machine-learning、feature-selection

因此，目前我的培训和测试集从669个特性开始，其中许多功能是分类的，需要一个热编码。经过一次热编码后，我发现训练集有额外的功能. 我不太清楚如何处理这件事，但我觉得我有三个选择：从培训集中删除这些功能，以便两者匹配。将这些特性添加到测试集并生成合成数据。在训练我的模型之前，使用一些降维技术(PCA)，并使用相同数量的组件进行训练和测试。如有任何反馈，将不胜感激。

浏览 2提问于2017-10-13得票数 0

1回答

机器学习预测另一个值

python-3.x、machine-learning

我在ML是新来的。我训练我的数据集然后用泡菜保存它。我受过训练的数据集有文本和值。我试图从我的新数据集中得到一个估计值，该数据集只有文本。然而，当我试图用我受过训练的数据来预测新的值时，我得到了一个错误，它说 ValueError:模型的特性数量必须与输入匹配。模型n_features为17804，输入n_features为24635。你可以在下面检查我的代码。现在我该怎么做？ with open('trained.pickle', 'rb') as read_pickle: loaded=pickle.load(read_p

浏览 2提问于2019-11-20得票数 0

1回答

卷积神经网络:影响精度的小数据集

python、deep-learning、keras、tensorflow、convolution

我有36个文件夹的数据集，1张图像(总共36张图像)，数据集太小，但是这些是我想训练的字符图像，我的val_acc= 0.0229和y_pred=model.predict(x_test)总是预测class=4。对于如此小的数据集，我如何提高这一准确性？为什么它总是预测4级？

浏览 0提问于2018-02-26得票数 0

1回答

如何根据存储在HDF5文件中的数据在Keras中训练神经网络？

python、machine-learning、large-data

我有两个相当大的PyTables EArrays，它包含用于回归任务的输入和标签。输入数组为4d (55kx128x128x3)，标签数组为1d (55k)。我有一个在Keras中指定的NN体系结构，我想对这个数据进行培训，但是有两个问题。输入数组至少太大，不能同时放进内存中。我只想对完整数据的一些随机子集进行训练，因为我想使用训练、测试和验证分裂。我通过对指数的随机子集进行切片来选择分裂。如何根据训练/测试索引选择HDF5数组的子集(输入和输出)，并在训练子集上进行训练，而不同时将它们读入内存？是否有什么方法可以创建磁盘上数组的“视图”，该数组可以被切片，并且Keras

浏览 3提问于2016-12-20得票数 5

1回答

多类分类:在验证集上具有良好的准确性，但在测试集上具有预测能力

keras、deep-learning、classification、conv-neural-network、multiclass-classification

我正在尝试对属于16个类别的图像进行分类。这些图像具有不同的几何形状(<code>C0</code>)。训练集由16 x 320 = 5120个图像组成，验证集有16 x 160 = 2560个图像，测试集有16个x 2= 32个图像。我使用下面的代码来构建CNN并进行预测。 <code>A1</code> 对于训练和验证的准确性和损失，我得到了以下结果。 <code>A2</code> 当尝试在测试集的32个图像上测试该模型时，我只得到了3个正确的预测。所以我的问题是： 1)为什么我在验证上获得了很好的准确性，但模型在

浏览 8提问于2019-03-29得票数 0

1回答

SVM测试-测试数据的规范化

python、machine-learning、scikit-learn、svm

我正在使用支持向量机模型对5个不同的类进行分类。(N1，N2，N3，W，R)特征提取->数据归一化->训练支持向量机当我测试该模型(20%，80%通常的训练-测试-分割)时，它显示出高精度的。但是当我尝试用一个全新的数据集进行测试时，用同样的特征提取方法->数据归一化->测试--在训练的支持向量机模型上得到了很好的结果。，假设训练中使用的原始数据集是A，而新的测试数据集是B。当我只使用A和测试B训练模型时，它的结果非常糟糕。首先，我认为这是模型过分适合，所以我包括A和B训练模型和测试与B，它又出现了糟糕的. 我认为问题在于正常化过程。当我尝试新的dataset C

浏览 5提问于2021-12-17得票数 -1

1回答

内存变量中的sp_execute_external_script Python可加快处理速度

python、sql-server

有没有一种方法可以使变量保存在内存中(如全局变量)，而不必在每次使用sp_execute_external_script执行脚本时使用pickle.loads加载我有一个使用预处理矩阵处理数据的Python脚本。我使用脚本A将矩阵保存在表中一次。 --Script A DECLARE @matrix VARBINARY(MAX) EXECUTE sp_execute_external_script @language = N'Python' , @script = N' ... matrix = pickle.dumps(processed_matrix) &#

浏览 31提问于2021-03-22得票数 3

回答已采纳

3回答

如何正确地将我的数据集中起来

machine-learning、deep-learning、cnn、normalization

我的任务是根据一个人的脸的rgb图像来估计一个人的年龄。我要用ResNet-50来达到这个目的。在第一阶段，我在一个名为WIKI-IMDB的数据集上训练我的网络(通过水平翻转来过滤和扩展我的数据集，其中包含大约300 k的图像)，并且我用一个在ImageNet上训练的预先训练的ResNet-50网络的权重来初始化网络的权重。在WIKI-IMDB数据集上进行培训时，我计算了火车集输入的每个通道(RGB)的平均值，并从批处理中的每个示例中减去它(我还使用了相同的方法从我用于早期停止的验证集中减去它)。在完成WIKI上的网络培训之后，我想在另一个数据集上测试它，它是这项任务的基准。我正在测试的新数据

浏览 0提问于2018-06-09得票数 2

1回答

如何训练这个多类RNN？

python、tensorflow、keras、recurrent-neural-network、training-data

我正在尝试在tensorflow中训练以下RNN。它接受一个11维的数字向量作为输入，并输出一个包含10个多类概率向量的序列，其中有14个互斥类。 model = keras.models.Sequential([ keras.layers.SimpleRNN(30, return_sequences=False, input_shape=[1, 11]), keras.layers.RepeatVector(10), keras.layers.SimpleRNN(30, return_sequences=True), keras.layers.SimpleRN

浏览 1提问于2021-04-08得票数 0

2回答

基于信息/熵进行训练/测试分割是否合理？

machine-learning、scikit-learn、training

我想将我的时间序列数据集划分为训练集和测试集。数据是季节性的，而且非常嘈杂。当我随机分离时，测试和训练样本在他们的distributions中不一样。有时，训练数据获取大部分的噪声/峰值点，有时这些点进行测试。我能不能通过计算这两组数据包含多少信息，将数据分解成火车/测试。这些信息可以用香农熵或标准差等方法来量化。当我试图寻找关于这方面的文献时，我找不到任何参考。

浏览 0提问于2021-07-15得票数 0

1回答

GATE工具中的机器学习

machine-learning、svm、gate

在使用GATE工具对训练数据运行机器学习算法(SVM)后，我想在测试数据上对其进行测试。我的问题是，我是否应该使用相同的训练数据进行测试，同时，模型如何从测试数据中提取实体，而测试数据没有使用训练数据中学习到的注释进行注释。我遵循了这个链接上的教程，但在最后，当它谈到将数据集拆分为训练和测试时，它有点令人困惑。

浏览 2提问于2014-08-28得票数 0

1回答

关于使用独立数据集验证weka文本分类的问题

machine-learning、classification、weka、document-classification

我正在尝试使用weka对垃圾邮件和非垃圾邮件进行分类。将上百条数以千计的标记垃圾邮件和另外100条数千条标记的非垃圾邮件作为训练数据集，我使用stringtowordvector作为过滤器来训练分类器。crossValidateModel的结果是非常good.But的，我想使用一个独立的测试集来评估分类器，以确保从训练集中对任何其他msg进行分类是可靠的。我的问题是：我还必须在测试数据集上使用stringtowordvector，以创建一个独立的.arff文件，该文件独立于训练arff file.The，在这两个.arff文件中，两个数据集中出现的同一个词分别具有两个不同的属性索引。例如

浏览 3提问于2012-08-30得票数 0

1回答

关于不平衡类的辅助权值

class-imbalance、weighted-data

考虑一个将被拆分为训练和测试的数据集。该模型将使用火车组学习，并使用未见测试集进行评估。现在，数据集是不平衡的--它包含了更多属于特定类的示例。在这种情况下，平衡它的方法之一(除了这里提到的方法：不平衡数据集分类的训练、测试分割)是根据样本分配权重。分配权重的正确方法是什么？我是否应该在整个数据集上分配权重，然后分割成训练和测试？

浏览 0提问于2019-11-24得票数 1

回答已采纳

2回答

交叉验证中的数据增强

deep-learning、conv-neural-network、cross-validation、data-augmentation

我是否正确理解对象分类任务中的数据增强应该只在训练集上进行？如果是这样的话，如何使用增强数据实现10倍交叉验证？每次测试时是否都会创建增广的数据(即10次)？额外的问题:你能告诉我如何在Tensorflow中使用这个资源吗？

浏览 0提问于2019-03-13得票数 1

回答已采纳

4回答

如果测试数据中存在新的因子水平，则R中的随机森林包在预测()期间显示错误。有什么方法可以避免这个错误吗？

r、random-forest

在我的训练数据中，我有30个预测因子水平。在我的测试数据中，同样的预测因子也有30个因子水平，但有些水平是不同的。除非这些水平完全相同，否则randomForest不会预测。它显示错误。表示，predict.randomForest(模型、测试)中的错误训练数据中不存在新的因子水平

浏览 2提问于2013-06-12得票数 4

回答已采纳

2回答

如何在推荐系统中拆分培训/测试

machine-learning、dataset、recommender-system

我正在使用MovieLens10M数据集，预测用户的评分。如果我想公平地评估我的算法，我应该如何分割我的训练和测试数据？默认情况下，我认为数据被分割成火车和测试集，其中“测试”包含以前在培训集中看不到的电影。如果我的模型要求每部电影至少在训练集中被观看一次，我应该如何分割我的数据？对于所有数据，我是否应该从每个用户的评等中获取除N以外的所有数据，并评估我在被搁置的NxUser_num评级上的性能？

浏览 0提问于2015-08-17得票数 11

3回答

我可以使用Train和Test数据进行补偿吗？

python-2.7、data-science、imputation

有趣的是，我在stackoverflow和其他网站上看到了很多关于这个问题的不同答案：在处理我的训练数据集时，我使用决策树模型估算了某个列的缺失值。所以这是我的问题。使用所有可用的数据(训练和测试)来建立一个用于估算(而不是预测)的模型是否公平，或者当我这样做时，我可以只接触训练集吗？此外，一旦我开始在我的测试集上工作，我必须只使用我的测试集数据，使用在我的训练集中建立的相同的推算模型，或者我可以使用所有可用的数据来重新训练我的推算模型？我认为，只要我没有接触我的预测模型训练的测试集，使用其余的数据来做一些事情，比如估算，就可以了。但这可能会违反一条基本规则。有什么想法？

浏览 0提问于2017-10-15得票数 7

1回答

命名实体识别:将数据拆分成测试和训练集

training-data、named-entity-recognition

在拟合命名实体识别模型时，确保训练数据中的实体不会在测试数据中重复是否很重要？例如，如果我们有一个相对较小的数据集，目标是识别人名。现在假设我们有300个唯一的人名，但希望将我们的提取概括到未来的数据中，这些数据可能包含人名，而不是我们数据中的300个唯一的人名。当我们将数据分成训练集和测试集时，确保300个唯一名称中的任何一个在训练集和测试集中都找不到，这一点很重要吗？

浏览 64提问于2021-07-27得票数 1

回答已采纳

1回答

当使用带sklearn的泡菜文件时，精度急剧提高。

machine-learning、classification、training、accuracy、pickle

我训练了一个xgboost分类器，它的准确率为49.99 %，并将该模型保存到一个泡菜文件中。当我使用泡菜文件(.pkl)运行相同的数据时，它的准确率为88.99 %。我不知道为什么会这样。请帮我摆脱这种情况。 bank_dataset = pd.read_csv(r"dataset.csv") missing_val = pd.DataFrame(bank_dataset.isnull().sum()) bank_dataset[' Balance'] = bank_dataset[' Balance'].fillna(bank_datas

浏览 0提问于2020-09-14得票数 1

3回答

此场景的文本分类技术

machine-learning、classification、cluster-analysis、data-mining

我对机器学习算法完全陌生，我有一个关于数据集分类的快速问题。目前有一个由两列消息和标识符组成的培训数据。消息--从包含时间戳和一些文本标识符的日志中提取的典型消息--应该根据消息内容对类别进行分类。培训数据是通过从工具中提取特定类别并相应地加上标签来编制的。现在，测试数据只包含消息，我正试图获得相应的分类。在这种情况下，哪种方法最有帮助？是监督学习还是非监督学习？我有一个经过训练的数据集，我正试图预测测试数据的类别。谢谢你，亚当

浏览 4提问于2017-08-30得票数 0

回答已采纳

2回答

在分裂成列车和测试集之前或之后应用平均编码

python、categorical-data、encoding

我有一个包含50000个观测数据的数据集，其中列的基数很高。对它们进行编码的最佳方法是平均编码，然后使用正则化。我将使用简历而不是平滑。但是当我看到人们使用它的时候，他们会在火车和测试装置上使用它。应该先将数据集拆分为训练集和测试集，然后对其进行编码，还是可以从一开始就在完整数据集上直接编码？如果我先把数据分割成火车和测试集，有人能告诉我为什么吗？

浏览 0提问于2019-05-19得票数 3

回答已采纳

5回答

在训练和测试数据中保持相同的虚拟变量

python、dataframe、scikit-learn、prediction、dummy-variable

我正在用两个独立的训练和测试集在python中建立一个预测模型。培训数据包含数字类型的分类变量，例如邮政编码，91521,23151,12355，.，以及字符串分类变量，例如，城市“芝加哥”，“纽约”，“洛杉矶”，. 为了训练数据，我首先使用“pd.get_dummies”来获取这些变量的虚拟变量，然后用转换后的训练数据对模型进行拟合。我对我的测试数据进行同样的转换，并使用经过训练的模型来预测结果。但是，我得到了错误 ValueError: Number of features of the model must match the input. Model n_features is 1

浏览 13提问于2016-12-26得票数 47

1回答

无法理解常量训练，请使用hashlib测试拆分。

python、machine-learning

我在做第一章“在sci-kit学习和张量流中的手工机器学习”。我看到了使用hashlib的代码，它将测试训练数据从我们的dataframe.The代码中分离出来，如下所示： """ Creating shuffled testset with constant values in training and updated dataset values going to test set in case dataset is updated, this done via hashlib """ import hashlib import num

浏览 1提问于2020-09-05得票数 0

2回答

如何为mnist数据集中的交叉验证准备数据？

scikit-learn、keras、cross-validation、mnist

如何对MNIST数据集使用k折叠交叉验证？我阅读了关于sci学习的文章文档，在那个例子中，他们使用整个虹膜数据集进行交叉验证。 from sklearn.model_selection import cross_val_score clf = svm.SVC(kernel='linear', C=1) scores = cross_val_score(clf, iris.data, iris.target, cv=5) scores 例如，在keras中导入mnist数据集时 from

浏览 0提问于2018-03-19得票数 2

3回答

保存nltk.ngram.NgramModel结果

python、nltk、n-gram

我正在使用nltk.ngram.NgramModel在布朗语料库上训练一个n-gram模型。它基本上永远都在使用，并且使用了大量的系统内存。我想知道是否有一种方法可以保存模型，这样我就不必在每次运行代码时再次训练它。我看过pickle和BerkeleyDB的引用，但我不完全理解它们是如何工作的。谢谢! *ETA:尽管实现了描述的更改并尝试了所有不同的pickle协议选项，但我一直无法成功地pickle模型。我玩过simplejson (没有运气)和YAML (耗费了我所有的记忆)。

浏览 1提问于2012-06-23得票数 1

回答已采纳

2回答

你好，当我用80%的数据训练我的模型，用20%的数据进行测试时，准确率是49%，而没有分割的话，它的准确率是99%

machine-learning、scikit-learn、training、accuracy

你好，当我用80%的数据训练我的模型，用20%的数据进行测试时，准确率是49%。当我训练我的数据而不分裂的时候，它提供了大约99%的数据。我很困惑。请帮我拿一下这个下面的代码是用split实现的，精度达到了的49% data = pd.read_csv(r"dataset.csv") from sklearn.preprocessing import LabelEncoder le = LabelEncoder() objList = data.select_dtypes(include = "object").columns for feat in

浏览 0提问于2020-09-15得票数 0

1回答