使用要素训练和测试拆分数据_Json数据训练和测试拆分_训练和测试拆分标注 - 腾讯云开发者社区

python、machine-learning、train-test-split、standardized

我是python新手，正在尝试执行一个随机森林回归任务。我导入了总共有5列(包括date列)的数据集。我的数据是时间相关的，所以我不能使用训练/测试拆分。因此，我改为执行以下操作 feature_cols = [ 'Rainfall' ,'Temperature','Usage amount'] target_v = df['water level'] X = df[feature_cols] y = target_v 然后，我使用sklearn中的时间序列拆分将我的数据拆分成训练和测试 from sklearn.model_

浏览 22提问于2020-05-12得票数 1

回答已采纳

1回答

尝试使用gl_model函数时，数据框具有不同的维度

r、machine-learning、model

我有一个关于R代码的问题。当我尝试在我的模型中添加功能时，我遇到了一个问题。我们的教授给了我们一些代码来做套索回归的魔术收集卡价格。如果我按原样运行他的代码，它将会工作。每当我尝试在他的代码中添加另一列作为功能时，我都会遇到问题。下面是错误："Error in cbind2(1，newx) %*%nbeta: Cholmod error 'X and/or Y have error dimensions‘at file./MatrixOps/cholmod_sdmult.c，第90行“ A screenshot of my command line，然后如果我删除更大的训

浏览 14提问于2019-10-10得票数 0

1回答

高基数分类特征转化为数值

python、machine-learning、data-science、data-processing

在大多数学术示例中，我们使用get_dummies或OneHotEncoder来转换分类特征。假设我想使用Country作为一个功能，在数据集中我们有100个不同的国家。当我们在国家/地区应用get_dummies时，我们将获得100列，模型将使用100个国家/地区列加上其他功能进行训练。比方说，我们已经将此模型部署到生产中，但我们只收到了10个国家/地区。当我们使用get_dummies对数据进行预处理时，模型将无法预测，因为“模型训练的特征数与传递的特征不匹配”，因为我们传递了10个国家/地区列以及其他特征。我在下面的文章中看到，我们可以使用监督比率，证据的权重来计算分数。但是，当我们

浏览 2提问于2018-07-01得票数 0

1回答

使用Estimator构建LSTM网络

tensorflow、lstm

我正在尝试使用Estimator构建一个LSTM网络。我的数据看起来像 X = [[1,2,3], [2,3,4], ... , [98,99,100]] y = [2, 3, ... , 99] 我使用的是Estimator： regressor = learn.Estimator(model_fn=lstm_model, params=model_params, ) lstm_model函数的位置 def lstm_model(features, targets, mode, p

浏览 1提问于2016-12-15得票数 3

2回答

分割训练和测试数据

machine-learning、classification

在机器学习中，谁能推荐将训练数据和测试数据分开的最佳百分比是多少？如果我在中分割训练和测试数据，的缺点是什么？

浏览 2提问于2015-08-02得票数 3

回答已采纳

3回答

如何在不重新训练模型的情况下获得XGBoost特征重要性图中的实际特征名称？

python、dataframe、xgboost

我在Stackoverflow上遇到了几个问题，其中大众面临的问题是他们在使用例如拟合/训练XGBoost模型之前对训练数据进行预处理，例如使用中心和尺度等 ` scaler = MinMaxScaler(feature_range=(0, 1)) X = scaler.fit_transform(X) my_model_name = XGBClassifier() my_model_name.fit(X,Y)` 其中X和Y分别是训练数据和标签，缩放将返回2D NumPy数组，从而丢失特征名称。我已经训练了我的XGBoost模型，但使用的是预处理数据(使用MinMaxScaler的中心和

浏览 1提问于2019-03-01得票数 17

2回答

培训集交叉验证后是否需要测试集？

machine-learning、python、cross-validation、training、hyperparameter-tuning

我想引用Aurelien的“与Scikit学习和TensorFlow一起进行机器学习的手”一书中的一段，关于在使用k-折叠交叉验证对训练集进行超参数调整之后对最终测试集的评估： “如果您进行了大量的超参数优化(因为您的系统最终对验证数据进行了很好的调整，并且在未知数据集上的性能可能不太好)，那么性能通常会比使用交叉验证时稍微差一些。”在本例中情况并非如此，但当发生这种情况时，您必须抵制调整超参数以使测试集看起来更好的诱惑；这些改进不太可能推广到新数据。“-Chapter 2: End- to End Machine Learning Project” 我很困惑，因为他说，当测试分数更差时，交叉

浏览 0提问于2020-08-14得票数 1

回答已采纳

1回答

训练和测试数据拆分后，是否需要验证数据集的IID，并对相同的分布进行统计检验？

machine-learning、deep-learning、artificial-intelligence、training-data、statistical-test

我知道大多数机器学习算法都是基于输入数据是IID(独立同分布)的假设。因此，我们通常不会执行统计测试来比较测试和训练数据的统计数据。在实践中，严格地说，我们不能保证数据拆分是均匀分布的。如果不检查两个数据集的分布，就会发生概念转移(或数据转移)。因此，我们的模型不能准确地执行。然而，大多数网站帖子和教科书都没有涉及到这一点。训练和测试数据拆分后，是否需要验证IID并进行统计比较？例如，双样本测试，用于比较训练数据集和测试数据集的平均值

浏览 0提问于2020-01-10得票数 1

1回答

如何从UCI给定的标准数据集生成训练和测试数据集

svm、libsvm

我有一个包含699行和11个属性(包括class属性)的癌症数据集。如何将数据集划分为训练数据集和测试数据集？我知道下面的事情。它们是真的吗？(1)选择初始150行用于测试，剩余549行用于训练(2)选择初始549行用于训练，剩余150行用于测试此外，我是否需要在两个数据集中都包含类属性？是否还需要另一个称为“验证数据集”的数据集？我正在使用SVM进行分类

浏览 3提问于2016-07-01得票数 0

2回答

测试数据中没有目标响应变量

classification、training

我有两个数据集，它们是训练和测试集。训练数据有一个目标变量，但是测试集没有。我应该做些什么来解决测试集的问题？

浏览 0提问于2021-08-10得票数 0

1回答

如何根据组内其他实例对实例进行分类？

python、r、machine-learning、modeling

S.O.社区-寻找机器学习问题的解决方案，如果有人能提供帮助，我们将不胜感激：我希望能够应用机器学习算法，根据每个实例的“组”中的其他实例分配一个分类。该模型学习导致分类为“1”的特征，其中该组中的特征最强，而其他特征为“0”(或者更理想的是，在组内的softmax概率输出加起来为1)。实例可能像其他组中的其他实例一样具有不必要的功能，但它们在组中是更强的指示器也就是说，对于如下所示的数据，我如何让模型一般地了解哪些特征导致'1‘分类，而只根据组中其他实例的其他特征来确定标签训练集 feat1 feat2 feat3 feat4 group label 0 1

浏览 7提问于2020-01-30得票数 0

1回答

如何对Weka中的训练和测试数据集进行分类

machine-learning、classification、random-forest、weka、training-data

我正在使用Weka软件对模型进行分类。我对使用训练和测试数据集分区感到困惑。我将整个数据集的60%划分为训练数据集，并将其保存到我的硬盘上，将40%的数据用作测试数据集，并将这些数据保存到另一个文件中。我使用的数据是不平衡的数据。因此，我在我的训练数据集中应用了SMOTE。之后，在Weka的分类选项卡中，我从Test options中选择了Use training set选项，并使用随机森林分类器对训练数据集进行分类。在获得结果之后，我从Test options中选择了Supplied test set选项，并从硬盘加载我的测试数据集，然后再次运行分类器。我试图找到关于如何在Weka中加载

浏览 39提问于2021-10-21得票数 0

回答已采纳

1回答

使用Keras构建神经网络时，对数据进行预处理以区分输入变量和样本数据

python、tensorflow、keras

我是一个使用Keras的初学者，我正在尝试预处理数据以进行训练，以便建立一个神经网络。然而，我被告知，从我从中获取数据的csv文件中，前6列是x值，其余的是y值。我如何处理这种情况，以便正确地拆分用于训练和测试的数据。数据都是数字的，它不是分类的。它将被用来预测运动。

浏览 45提问于2021-08-13得票数 0

1回答

如何将数据X，Y拆分成训练和测试？

c#、.net、machine-learning、svm、ml.net

大家好)我正在开发股票预测的应用程序(大学项目)为了训练支持向量机模型，我需要将我的数据拆分成训练和测试集<code>D0</code>，我得到了X和Y双重集合，我需要拆分。在python中，我知道有一些函数可以轻松地将数据拆分为四个变量<code>D1</code>，但我在python中找不到这样的函数。在微软的官方网站上，我只找到了这个例子，但正如我前面提到的，它只接受一个变量，在我的例子中，支持向量机将无法正常工作。我听说过microsoft ML项目，但它只拆分了一个变量。我尝试过这个例子，但正如我前面提到的，它只接受一个验证值，并提供训

浏览 41提问于2020-11-21得票数 0

回答已采纳

3回答

关于滑雪的StratifiedShuffleSplit的问题

machine-learning、python、scikit-learn、statistics

我正在阅读Aurélien Géron著的“用Scikit进行机器学习-学习和Tensorflow”一书。在一个关于加州房价的回归项目中，他研究了分层抽样的概念。我想我理解他的解释：“人口被划分为同质的亚组，称为地层，每个阶层抽样正确的实例数，以保证测试集代表整个人口。” 所以用我自己的话说，简单地用sklearn的train_test_split分割数据集就会使训练和测试集很容易被错误地反映出分类变量的比率(即总体有40%的类别，60%的类别，但是这些类别的训练/测试集的比率是完全不同的)，所以分层确保样本是‘随机的’，但是在测试和训练分割中仍然保持适当的比率。如果我错了，请纠正我。以下

浏览 0提问于2019-04-30得票数 6

回答已采纳

1回答

TFF:如何拆分每个客户端的数据

tensorflow-federated

为什么在联邦学习任务中，我们不将数据集分割为训练、测试和验证，而只进行训练和测试。

浏览 0提问于2020-12-26得票数 1

1回答

当选择用于模型训练的训练测试拆分时，它是否从所有类中选择偶数个样本？

python、tensorflow、machine-learning、testing、training-data

假设我有一个CNN模型来对手写数字1到10进行分类。我使用了一个包含20,000个样本的数据集，并进行了50:50的训练测试。这样我就剩下10,000人用于训练和测试。它会自动从每个类中挑选1000个图像进行测试/训练，还是会近似这样做？我正在尝试一个类似的问题(具有不同数量的样本和类)，但我注意到测试数据不是均匀分割的。例如，它有1010个1号被测试，但只有990个2号。这是正常的吗？我找不到任何证明这一点的文件。我的数据集足够大，小的差异是无关紧要的，但我仍然想确认一下。谢谢!

浏览 0提问于2020-11-24得票数 0

1回答

如何在libsvm中创建训练和测试文件的源数据文件？

algorithm、machine-learning、svm、libsvm

我想使用数据集来训练模型。该数据集具有三种不同类型的生理数据。类型1，类型2，类型3。libSVM的格式如下:标签索引1:值1索引2:值2... 现在，我已经将类型1的标签作为1，类型2的标签为2，类型3的标签为3。所有的值都保存为1:(value)。因此，我的训练和测试文件如下所示。 1 1:值\n 1 1:值\n。。。1 1:值\n 2 1:值\n。。。2 1:值\n 3 1:值\n。。3 1:值\n 因此，我正在使用这种源文件训练svm，并使用类似的源文件进行测试。我想确认我是否正确地使用了SVM数据格式。谢谢

浏览 2提问于2016-09-07得票数 0

1回答

具有两列和数据拆分的训练模型:时间

google-cloud-platform、google-cloud-automl

是否可以使用两列数据集来训练模型？数据集包含列"value“(我正在尝试预测)和"timestamp”(Unix时间戳)。我能够加载我的数据集，但当涉及到模型中的训练时，我就卡住了。在“编辑附加参数”中，我选择“时间戳”作为时间列并保存它。现在，当我按下"Train model“时，我无法选择特征列，摘要显示为"Data split: Automatic”。但我选择了Time column作为数据拆分。

浏览 0提问于2019-11-19得票数 1

2回答

我们是否只在使用cross_val_score时才使用训练数据？

python、validation、cross-validation

我们是向cross_val_score提供训练数据还是整个数据？我在使用cross_val_score时感到困惑。我知道我们将数据划分为训练和测试，并为我们的模型提供训练数据。 ? 这是sckit-learn文档中的示例，使用了整个数据。 cross_val_score(model, iris.data, iris.target,scoring=scorer, cv=5)

浏览 76提问于2019-04-25得票数 0

1回答

GATE工具中的机器学习

machine-learning、svm、gate

在使用GATE工具对训练数据运行机器学习算法(SVM)后，我想在测试数据上对其进行测试。我的问题是，我是否应该使用相同的训练数据进行测试，同时，模型如何从测试数据中提取实体，而测试数据没有使用训练数据中学习到的注释进行注释。我遵循了这个链接上的教程，但在最后，当它谈到将数据集拆分为训练和测试时，它有点令人困惑。

浏览 2提问于2014-08-28得票数 0

1回答

在相同数据或不同数据中进行测试和训练

machine-learning、classification、naivebayes

我有两个类别的数据集，我用来分类它的朴素贝叶斯分类器。首先:在我得到的相同数据中训练和测试分类器： Accuracy: 71.1262 False negative rate: FN/FN+TP = FN/P= 284/295 = 0.840 False positive rate: FP/FP+TN = FP/N = 93/886 = 0.104 Sensitivity: Recall:True positive rate: TP/TP+FN = TP/P = 0.1593 Specificity: True negative rate: TN/TN+FP = TN/N = 0.

浏览 20提问于2016-09-03得票数 0

2回答

将k-折叠交叉验证应用于数据集的混淆

machine-learning、cross-validation

我有一个数据集，它已经被分成10倍，每个折叠都有训练、验证和测试集。我无法理解如何在这个数据集上应用10倍交叉验证。通常，如果我们想在数据集上应用k折叠交叉验证，步骤如下： 📷 在我的例子中，数据集已经被划分为10倍，除了训练集之外，每个折叠都包含验证和测试集。如果有人能指导我，如何对这种数据集进行10倍的交叉验证，这将是很有帮助的。

浏览 0提问于2019-03-27得票数 1

1回答

将数据拆分为两个训练集和一个测试集

r、testing、split、training-data

我们如何使用R将数据拆分成两个训练集和一个测试集？我试过了，但是我想把训练分成两个训练集： set.seed(770) sample <- sample.int(n = nrow(datazoo), size = floor(0.75*nrow(datazoo)), replace = F) train <- datazoo[sample, ] test <- datazoo[-sample, ] 谢谢

浏览 2提问于2018-02-11得票数 0

1回答

pandas get_dummies如何记住哪些值成为哪些新类别？

python、pandas、machine-learning、scikit-learn、one-hot-encoding

使用get_dummies方法一次对多个分类变量进行一次热编码似乎很容易，但是如何记住哪一个是哪一个，以便我的测试数据具有与我的训练数据相同的特征？例如：我的训练数据集有一个分类特征： X cat dog lion lion 在get_dummies之后，我得到了类似这样的东西： X_1 X_2 X_3 1 0 0 0 1 0 0 0 1 0 0 1 训练完模型后，我准备测试我的神奇模型，下面是测试数据： X cat cat li

浏览 0提问于2017-09-06得票数 2

1回答

在Weka的图形用户界面下NaiveBayes出现奇怪的结果

user-interface、weka、document-classification

我正在使用Weka的GUI对文本文档进行分类。我的数据集是.arff格式的。我应用了StringToWordVector过滤器。然后，我应用RemovePercentage过滤器将我的数据集划分为训练集和测试集。共包含99个实例和934个属性。训练-测试拆分后，训练集包含66个实例，测试集包含33个实例。我在训练集中学习了模型:结果是3.0303 %的准确率，然后，我测试了在测试集中学习的模型:结果是3.0303%。谁能帮助我理解为什么我会得到3.0303 %，以及如何改善这个结果？

浏览 0提问于2012-03-07得票数 1

2回答

无法按照YOLOv5的Roboflow教程训练数据集

yolov5、roboflow

我正在尝试按照Roboflow上的youtube教程在我的自定义数据集上训练YOLOv5。然而，当我试图训练我的数据集时，我总是得到一个错误。

浏览 58提问于2021-07-10得票数 0

1回答

从模型输入的新数据中得到一个预测，但是产生了一个错误，如何使R代码适应它的工作？

machine-learning、r、text-mining

在下面的R代码中，当我将手工分类结果与词典词典结果进行正、负和中性的比较时，我包括了句子(在matrixdata1中)，模型的结果在表中产生了不同的结果，这是很好的。但是，当执行..。 results2 = classify_models(container2, models) ..when根据模型输入新数据(matrixdata2)，会产生错误消息： Error in predict.svm(model, container@classification_matrix, prob = TRUE, : test data does not match model ! 在检查数据集时，我

浏览 0提问于2020-04-22得票数 0

回答已采纳

1回答

在选择最佳超参数组合后，SparkML CrossValidator是否重新适合完整的训练数据集？

apache-spark、pyspark、cross-validation、apache-spark-mllib、apache-spark-ml

在训练数据集上交叉验证超参数网格后，SparkML的CrossValidator是否重新适合整个训练数据集？如果不是，它会从交叉验证的哪一部分中选择用于推断的bestModel？拟合的CrossValidator使.transform()方法可用。为此，CrossValidator是否使用最佳超参数在整个训练/交叉验证数据集上重新训练，并使用重新拟合的模型进行推理？或者，bestModel用于推断所有交叉验证文件夹中的最佳性能模型(即，来自最佳性能超参数组合的最佳文件夹中的模型，仅对该文件夹的数据进行训练)？我之所以这样问，是因为SparkML CrossValidator和scikit

浏览 22提问于2021-03-23得票数 0

1回答

我可以在整个数据集上使用StandardScaler()吗，或者我应该在列车和测试集上分别计算吗？

python、machine-learning、scikit-learn、svm、scaling

我正在为大约100个连续的特征和一个连续的标签开发一个SVR。为了扩展数据，我写道： #Read in df = pd.read_csv(data_path,sep='\t') features = df.iloc[:,1:-1] #100 features target = df.iloc[:,-1] #The label names = df.iloc[:,0] #Column names #Scale features scaler = StandardScaler() scaled_df = scaler.fit_transform(features) # r

浏览 16提问于2021-03-05得票数 0

回答已采纳

1回答

作者姓名消歧数据

database、author、pubmed、disambiguation

我正在做一个关于作者姓名消歧问题的研究。我想做一些实验。我想对引用记录进行聚类。我需要训练数据和测试数据，其中每个出版物记录的真正作者是可用的。有许多书目数据库，如DBLP，Medline和Pubmed等。我对测试阶段感到困惑。将DBLP划分为训练和测试是否是一种好的做法？是否手动添加DBLP引用记录？我能保证每个引用记录都被分配给DBLP中的真实作者吗？对训练和测试数据库有什么建议吗？注意:在文献中，我注意到在一些论文中，他们使用Pubmed进行训练，使用DBLP进行测试，尽管第一个用于医学出版物，第二个用于计算机。

浏览 5提问于2016-06-21得票数 0

1回答

macgien学习中的数据类型

dataframe、machine-learning、random-forest、data-conversion、sqldatatypes

我有一个具有不同数据类型的表。我的一些专栏是：名称、时间、日期、number_of_files、hour_works、type_of_job 杰克，10:24:54,2015-02-15，82，20，项目经理….etc 我想通过使用随机森林模型来训练这些功能，以预测公司的type_of_job。我的问题是，我是否应该将列转换为特定的数据类型以获得良好的准确性，时间和数据又如何呢？我有大约48970行，这是我第一次使用机器学习。

浏览 0提问于2020-02-10得票数 0

2回答

拆分训练集和测试集时是否进行混洗

shuffle、cross-validation

我需要一个模型来预测一个类。所以我应该把我的数据分成训练集、验证集和测试集。首先，我打乱了我的数据(80%用于训练集，20%用于测试集)。然后，因为我应该确定一些超参数，所以我使用10折交叉验证来拆分我的训练集。最后，我使用训练集(80%的数据)和指定的超参数来训练我的模型。我有个问题。我先打乱我的数据，然后再拆分，这是不是错了？一些研究人员认为，如果你想声称你的模型可以预测未来的数据，你不应该对数据进行混洗。您应该选择最后20%的数据作为测试集。是对的吗？我可以对我的数据进行混洗吗？你能给我介绍一本学术书籍或论文来解决我的问题吗？非常感谢

浏览 0提问于2018-04-30得票数 4

1回答

机器学习-将数据分成测试组和训练组

machine-learning、scikit-learn

如何将给定的数据集划分为训练集和测试集以及它们的正确标签。通过sklearn库有一个相同的实现： from sklearn.cross_validation import train_test_split train, test = train_test_split(df, test_size = 0.2) 其中df是原始的dataset....for例如:字符串列表问题是它没有把目标/标签和数据集一起带走。所以我们无法追踪哪个标签属于哪个数据点..。是否有任何方法将数据点及其标签绑定，然后将数据集分割成训练和测试？

浏览 5提问于2015-09-24得票数 3

回答已采纳

1回答

不带交叉验证的GridSearchCV CV =1

deep-learning、hyperparameters、gridsearchcv

我有一个特殊的数据集，这个数据集可能是%1错误的训练集。我需要在没有拆分训练集的情况下为MLPRegressor进行超参数调整。平均cv = 1。这在GridSearchCV中是可能的吗？

浏览 0提问于2020-06-26得票数 0

1回答

从MNIST数据集中更改训练和测试集的大小

python、keras、mnist

我正在使用MNIST和Keras来学习CNN。我正在下载Keras API下的MNIST手写数字数据库，如下所示。数据集已经被分成60.000个图像用于训练，10.000个图像用于测试(参见Dataset - Keras Documentation)。 from keras.datasets import mnist (x_train, y_train), (x_test, y_test) = mnist.load_data() 我如何加入训练和测试集，然后将它们分成70%用于训练，30%用于测试？

浏览 64提问于2019-01-23得票数 6

回答已采纳

1回答

关于不平衡类的辅助权值

class-imbalance、weighted-data

考虑一个将被拆分为训练和测试的数据集。该模型将使用火车组学习，并使用未见测试集进行评估。现在，数据集是不平衡的--它包含了更多属于特定类的示例。在这种情况下，平衡它的方法之一(除了这里提到的方法：不平衡数据集分类的训练、测试分割)是根据样本分配权重。分配权重的正确方法是什么？我是否应该在整个数据集上分配权重，然后分割成训练和测试？

浏览 0提问于2019-11-24得票数 1

回答已采纳

2回答

我们是否需要将数据集划分为测试和培训？

machine-learning、svm、libsvm

我提前为这么愚蠢的问题道歉！我认为我们需要将数据集划分为svm中的训练和测试，然后使用训练集来找到模型。然后用测试集检验该模型的准确性。在libsvm数据集"“中，有些数据集有训练和测试，而其他数据集则没有训练和测试，因此根据libsvm网站的libsvm指南，相关代码是不同的。例如，在svmguide2数据集中没有指定的测试集。那么，我们如何检验模型的准确性。

浏览 2提问于2013-10-14得票数 0

回答已采纳

1回答

如何在滑雪板中分别创建训练数据集和测试数据集？

python、scikit-learn

我有一个固定的训练数据集文件train.csv和另一个测试数据集文件test.csv。我知道train_test_split()方法在滑雪可以做分裂的工作。但是我想用每个文件中的每个数据集分别创建两个数据集。我已经测试过 # The X,Y and X_, Y_ following are training and test samples/labels (dataframes) trainX, testX, trainY, testY = train_test_split( X, Y, test_size = 0) trainX_, testX_, trainY_, testY_ = tr

浏览 0提问于2018-10-16得票数 0

回答已采纳

1回答

为什么random_state在Scikit Learn的test_train_split中有所不同

python、machine-learning、scikit-learn、train-test-split

我一直在使用Scikit learn为信用卡欺诈检测问题编写一些代码。我使用train_test_split将我的数据划分为训练、测试和验证数据集。 x_train,x_test,y_train,y_test=train_test_split(x,y,train_size=0.7,random_state=123) 我不明白为什么在训练和测试数据集之间拆分数据时random_state是123 part_x_train, x_val, part_y_train, y_val = train_test_split(x_train, y_train, test_size=0.2, random_s

浏览 7提问于2021-04-21得票数 0

1回答

在分割数据之前和之后，规范化步骤的正确顺序是什么？

machine-learning、preprocessing

我在时间序列数据上使用了一个分类模型，在将数据分解为训练和测试之前，我对数据进行规范化。现在，我知道训练数据和测试数据应该分开处理，以防止数据泄漏。在这里，规范化步骤的正确顺序是什么？我是否应该分别应用步骤1、2、3来训练和测试使用滑动窗口分割数据后的数据？我在这里使用一个滑动窗口来比较每一个小时(测试)和它之前的24小时数据(火车)。这是我目前在管道中使用的命令。移动平均(平均数) 每小时重采样一次标准化使用滑动窗口(长度为24小时(火车))将数据分割成列车和测试，每1小时(测试)滑动一次) 利用列车数据拟合模型使用测试数据进行预测

浏览 0提问于2020-07-04得票数 3

回答已采纳

1回答

在训练集中删除实例的Weka分类

classification、weka、outliers

为了一个数据挖掘竞赛，我正在构建一个预测流失的模型。我有一个带标签的训练数据集和一个不带标签的测试数据集。为了构建我的模型，我应用了一些过滤器来预处理训练数据集。我使用InterquartileRange、RemoveWithValues和RemoveAttributes过滤器搜索并删除了异常值和极值(因为InterquartileRange会为异常值和极值创建新的属性)。我知道对于Weka来说，提供的测试集和训练集必须具有相同的过滤器，但我需要测试集中的所有实例来查看预测得分。因此，我不能应用RemoveWithValues过滤器。由于这个原因，我得到了“测试和训练集不兼容”。这个问题能解

浏览 2提问于2014-11-16得票数 0

1回答

如何在训练/测试集中使用拆分大型数据集，但也使用pandas批大小迭代进行更新

loops、testing、dask、chunks

我使用一个非常大的文件中的批处理在每次迭代中更新参数。但在此之前，我想将整个大型数据集分成一个测试集和一个训练集。对于交叉验证，我也想做同样的事情。我尝试使用dask来拆分整个集合，然后将一部分转换为pandas，以使用批处理来更新我的算法。 dask部分(如果可能，我不想使用它)： dict_bag=dff.read_csv("gdrive/My Drive/train_triplets.txt", blocksize=int(1e9),sep='\s+',header=None) df_train, df_test = df_bag.random_spl

浏览 2提问于2019-04-24得票数 0

1回答

Sci学习:调查不正确的分类数据

python、machine-learning、scikit-learn

我想分析的数据已经被错误地分类使用sci学习模型，以便我可以改进我的特性生成。我有这样做的方法，但我对sci学习和熊猫都是新手，所以我想知道是否有一种更有效/直接的方法来完成这个任务。这似乎是标准工作流的一部分，但在我所做的研究中，我没有找到任何东西直接解决从模型分类到原始数据的反向映射。这是我正在使用的上下文/工作流，以及我设计的解决方案。下面是示例代码。上下文。我的工作流程如下所示：首先是一堆JSON blobs，原始数据。这是熊猫DataFrame。提取建模的相关片段，将其称为数据。这是一只熊猫。另外，对于所有的数据，我们都有真实数据，所以我们称之为真或y。在

浏览 4提问于2015-12-31得票数 2

回答已采纳

1回答

如何使用python将多项式朴素贝叶斯用于文本和非文本数据？

python、machine-learning、naivebayes

数据由文本参数和整数参数组成。问题是用这两个数据训练机器。哈希向量器用于文本参数训练。提前感谢....

浏览 0提问于2017-10-12得票数 0

1回答

如何在python/sklearn中交叉验证来自随机森林的预测？

random-forest、prediction、cross-validation

请有人告诉我，如果这是正确的方法，计算交叉验证的精度我的分类器？我将我的数据集划分为训练数据的xtrain和ytrain，以及测试集的xtest & ytest。构建模型： RFC = RandomForestClassifier(n_estimators=100) 适合于训练集的： RFC.fit(xtrain, ytrain) ，这是我不确定的部分： scores = cross_val_score(RFC, xtest, ytest, cv = 10, scoring='precision') 使用上面的代码，“分数”会给我在我的模型上的精确性，而我的模型是关于

浏览 8提问于2015-07-04得票数 3

1回答

复制实验结果的问题

r、machine-learning

我在R中使用CreateDataPartition运行了一些实验，以拆分训练数据和测试数据。我将结果循环了大约500次，并在一台笔记本电脑上进行了测试。当我试图在另一台笔记本电脑上用相同的代码和数据复制这些实验时，它给出了非常不同的结果，与我以前的结果不太一样。我假设这可能是由于种子问题，我正在试图弄清楚如何管理它，以便至少可以复制与以前几乎相同的结果。有什么建议吗？下面是我如何拆分训练和测试数据的快照： for (i in 1:500){ set.seed(i) index = createDataPartition(data$S, p=.75,list=FALSE,times=

浏览 7提问于2020-02-12得票数 0

2回答

在训练GANS的时候进行火车测试分裂是否有意义？

machine-learning、deep-learning、cross-validation、unsupervised-learning、gan

对于正常的监督学习，数据集被分割成训练和测试(让我们保持简单)。生成对抗性网络是一种无监督学习，但在判别器中存在有监督损失函数。在训练GANs时将数据分割成训练和测试是否有意义？我的第一个意见是否定的，但我不能百分之百肯定。有什么原因可以说明为什么有一个测试集可以帮助发电机吗？

浏览 0提问于2020-01-19得票数 3

回答已采纳

1回答

如何对近距离数据进行标准化？

classification、normalization、logistic-regression、data-transfer、normal-distribution

我使用逻辑回归。我有一些功能。它们的值在0和1之间(函数可以产生的最大值是1，最小值是0)，但在训练和测试数据中，最大值都非常低(例如0.11)，因此所有值都很低且彼此接近。我的问题是，将特征值标准化/转移到正常范围(在0和1之间)的最佳标准方法是什么，以便逻辑回归不会受到不适当值的影响。任何帮助都将不胜感激。

浏览 0提问于2016-02-03得票数 0

1回答