如何将清理后的文本数据拆分成除随机抽样以外的训练和测试数据集 - 腾讯云开发者社区

time-series、modeling、random-forest

对于时间序列数据集，我想做一些分析并创建预测模型。通常，我们会将数据(通过整组数据的随机抽样)分割成训练集和测试集，并使用带有randomForest函数的训练集。并保留测试部分，以检查模型的行为。然而，有人告诉我，时间序列数据不可能通过随机抽样来分割数据。如果有人能解释如何将数据分割成时间序列数据的培训和测试，我将不胜感激。或者如果有任何替代做时间序列随机森林。问候

浏览 3提问于2015-09-09得票数 3

回答已采纳

2回答

用于训练和测试的神经网络数据

neural-network

我有一个关于ANN的训练和测试数据的问题。在分类之前，测试数据是否应该经过特征提取过程？我是这个领域的新手。我做的是对的吗？我将数据集分为80%的训练和20%的测试。两个集合，我都提取了特征。对于训练数据，我将其放入训练网络，但不是用于测试数据。然后转到分类。这是正确的吗？因为我的SV说测试数据不应该经过特征提取过程。我想知道如果没有提取特定的特征，ANN如何识别输入。为我糟糕的英语道歉。如果任何人有我可以参考的链接或日志，请提供它。非常感谢。

浏览 2提问于2014-02-11得票数 0

1回答

在将新数据输入机器学习模型之前，您应该清理这些数据吗？

machine-learning、data-cleaning、text-classification

我有我的文本分类问题的训练/测试数据。我使用它们创建和测试了几个ML模型(LogisticRegression、RandomForest和LinearSVC)。训练数据和测试数据由多个文件组成，分为几类。它是从日期和数字中清除的，一切都是小写的，没有标点符号。在清洗日期的地方，我用“日期”一词代替了它们。同样的方法，我也适用于发票号码，用‘发票’一词代替。这极大地帮助了我的模型，因为这个特定的词被赋予了更高的权重，并且它改进了分类。现在我已经选择了最好的模型，我计划将它用于即将到来的新数据。至于这个新的数据，我是应该在它到达经过训练的模型之前清理它(就像我清理我的火车/测试数据一样)，还是

浏览 0提问于2022-09-01得票数 0

回答已采纳

1回答

在选择最佳超参数组合后，SparkML CrossValidator是否重新适合完整的训练数据集？

apache-spark、pyspark、cross-validation、apache-spark-mllib、apache-spark-ml

在训练数据集上交叉验证超参数网格后，SparkML的CrossValidator是否重新适合整个训练数据集？如果不是，它会从交叉验证的哪一部分中选择用于推断的bestModel？拟合的CrossValidator使.transform()方法可用。为此，CrossValidator是否使用最佳超参数在整个训练/交叉验证数据集上重新训练，并使用重新拟合的模型进行推理？或者，bestModel用于推断所有交叉验证文件夹中的最佳性能模型(即，来自最佳性能超参数组合的最佳文件夹中的模型，仅对该文件夹的数据进行训练)？我之所以这样问，是因为SparkML CrossValidator和scikit

浏览 22提问于2021-03-23得票数 0

1回答

使用sklearn进行音乐流派分类:如何准确评估不同的模型

python、machine-learning、scikit-learn、statistical-sampling

我正在做一个项目，对来自5个不同流派(摇滚，电子，说唱，乡村，爵士)的30秒音频样本进行分类。我的数据集包含600首歌曲，每个流派恰好有120首。特征是每首歌曲的13个mfcc的一维阵列，标签是流派。基本上，对于30秒样本的每帧，我取每组13个mfcc的平均值。这导致每首歌曲有13个mfcc。然后，我获得整个数据集，并使用sklearn的缩放函数。我的目标是比较svm、knearest和naive bayes分类器(使用sklearn工具集)。我已经做了一些测试，但我注意到结果会根据我是否进行随机采样/分层采样而有所不同。我在sklearn中执行以下函数来获取训练和测试集： X_train

浏览 3提问于2017-05-15得票数 1

1回答

时间序列异常检测的训练/验证/测试分割

machine-learning、time-series、anomaly-detection、train-test-split

我试着做一个多变量时间序列异常检测。我有由“正常”数据组成的培训数据。我对这些数据进行训练，并在包含正常+异常数据的测试集上检测异常。我的理解是，根据测试集的结果调整模型的超参数是错误的。训练/验证/测试集看起来会是什么样子来训练和评估一个时间序列异常检测器？

浏览 3提问于2021-10-01得票数 0

2回答

将k-折叠交叉验证应用于数据集的混淆

machine-learning、cross-validation

我有一个数据集，它已经被分成10倍，每个折叠都有训练、验证和测试集。我无法理解如何在这个数据集上应用10倍交叉验证。通常，如果我们想在数据集上应用k折叠交叉验证，步骤如下： 📷 在我的例子中，数据集已经被划分为10倍，除了训练集之外，每个折叠都包含验证和测试集。如果有人能指导我，如何对这种数据集进行10倍的交叉验证，这将是很有帮助的。

浏览 0提问于2019-03-27得票数 1

1回答

什么时候应该合并训练和测试数据？

scikit-learn

我对数据科学和机器学习非常陌生。我正在学习有关数据放大器的课程，然后尝试解决关于kaggle/drivendata的问题。我经常尝试使用sklearn.model_selection train_test_split()-method，但是由于我的训练(X)和测试(y)数据的形状不一样，所以我得到了错误： ValueError:找到样本数不一致的输入变量：913000,45000 当我查看其他人的解决方案时，他们似乎经常将培训和测试数据(本例中的数据集:培训和测试)结合在一起，如下所示： all_data = train.append(test, sort = False) 然后，他们再次将

浏览 0提问于2020-03-16得票数 0

回答已采纳

2回答

“训练数据集”、“测试数据集”和“验证数据集”的区别

machine-learning、cross-validation、training-data

我有250张人脸图像，我将用这些图像来训练模型。为了方便起见，我要做的是挑选前10个图像，并使用leave-one-out交叉验证来训练模型，以便每个图像都有机会成为测试图像。我所理解的是，在这种情况下，我的训练数据集的大小是9，测试数据集的大小是1。之后，我将获得下10个图像，然后使用它们来训练模型。在这种情况下，我的训练数据集的大小将是19，测试数据集将是1(这将重复发生20次，以便每个图像都有机会出现在测试集中)。同样，这个过程一直持续到我使用了所有的250张图像来训练模型。我不理解的是“验证数据集”。我做错了吗？在Stackoverflow上有一个答案，但我不清楚。这就是我发布这个

浏览 2提问于2014-07-31得票数 1

1回答

为多个CSV文件实现SVM

python、csv、svm

我想知道是否可以有多个用于培训的CSV文件和一个用于测试的文件。例如，我得到了四个CSV文件，其中包含8列数据和一个标签，这与我所有的4个CSV训练文件不同。有了所有这些数据，我想在一个只包含8列数据的test.scv文件上进行测试，并在同一文件中添加预测的标签。(不确定是怎么做到的) 我只为一个用于测试和训练的CSV文件做到了这一点，下面是代码： svm_data = pd.read_csv('excel1.csv') classifcator=svm_data[['alpha','beta','gama','t

浏览 27提问于2020-05-22得票数 0

5回答

数据科学中的训练数据和测试数据

data-science

我是python中相对较新的数据科学，在探索一些关于数据科学的竞争时，我对“训练数据集”和“测试数据集”感到困惑。一些项目合并了这两个项目，另一些项目则保持分离。拥有两个数据集的基本原理是什么？任何建议都将是有益的，谢谢

浏览 1提问于2017-04-25得票数 0

1回答

避免NLP提取中的泄漏

nlp、training、model-evaluations、data-leakage

应用传统NLP提取技术对ML模型进行预处理的最佳实践是什么？如果有管道：收集原始数据。使用各种传统的NLP技术解析完整的数据集，以创建与模型兼容的特性(例如，实体提取的一个热编码矩阵)。对数据进行ML模型的训练。我的直觉说你必须在第一步和第二步之间分割数据，例如，在你的训练集上只运行TF-国防军或NMF。 But，我在论文和生产中看到了很多，非深度学习NLP技术通常在数据分割之前使用。

浏览 0提问于2022-09-03得票数 1

回答已采纳

4回答

不平衡数据集分类的训练、测试分割

python、classification、training

我有一个做二进制分类的模型。我的数据集是高度不平衡的，所以我认为在训练模型之前，我应该用不适当的抽样来平衡它。因此，平衡数据集，然后随机分割它。这条路对吗？还是应该平衡测试和训练数据集？我只试着平衡整个数据集，我获得了80%的训练精度，但是在测试集上，我得到了30%的准确率。这看起来不对？但我也不认为我应该平衡测试集，因为它可以被认为是偏见。怎样才是正确的方法？谢谢更新:我有40万个样本，10%是1s，90%是0。我无法获得更多的数据。我试着保存整个数据集，但我不知道如何将其分割成训练集和测试集。在列车和测试数据集中是否需要相同的分布？

浏览 0提问于2018-06-08得票数 20

回答已采纳

3回答

分层参数的意义

neural-network、dataset、training

我正在训练一个神经网络，我试图把我的数据分成训练和测试集。我有很多输出类，对于其中一些类，我只有两个例子，所以在这种情况下，我希望在培训中有一个例子，在测试中有一个例子。据我所读，这是使用stratify参数，但分层意味着什么？我把我的数据分成训练和测试： x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1, random_state=42, stratify=y) 因此，根据我的理解，这分为两组:培训(数据的90%)和测试(数据的10%)，但确保每组至少有一个类？

浏览 0提问于2018-11-01得票数 7

回答已采纳

2回答

如何检查训练集和测试集的分布是否相似

machine-learning、classification、dataset、distribution

我一直在玩Kaggle比赛，我发现训练集和测试集的分布是不同的，所以我想知道如何检查训练集和测试集的分布是否相似。然后搜索它，找到一个博客，通过将它转换成一个二进制分类问题来检查分布的相似性。如果获得较高的AUC，则训练集和测试集的分布必须不同。他提出的想法如下：如果存在协变量移位，那么在混合训练和测试时，我们仍然能够准确地分类每个数据点(无论是来自测试还是来自测试)的起源。但我还是不明白为什么他能用这种方式检查这两个分布的相似性。还有其他方法来检查它的相似性吗？如果有人能帮我，我会很感激的。

浏览 0提问于2019-04-18得票数 10

回答已采纳

3回答

此场景的文本分类技术

machine-learning、classification、cluster-analysis、data-mining

我对机器学习算法完全陌生，我有一个关于数据集分类的快速问题。目前有一个由两列消息和标识符组成的培训数据。消息--从包含时间戳和一些文本标识符的日志中提取的典型消息--应该根据消息内容对类别进行分类。培训数据是通过从工具中提取特定类别并相应地加上标签来编制的。现在，测试数据只包含消息，我正试图获得相应的分类。在这种情况下，哪种方法最有帮助？是监督学习还是非监督学习？我有一个经过训练的数据集，我正试图预测测试数据的类别。谢谢你，亚当

浏览 4提问于2017-08-30得票数 0

回答已采纳

3回答

我可以使用Train和Test数据进行补偿吗？

python-2.7、data-science、imputation

有趣的是，我在stackoverflow和其他网站上看到了很多关于这个问题的不同答案：在处理我的训练数据集时，我使用决策树模型估算了某个列的缺失值。所以这是我的问题。使用所有可用的数据(训练和测试)来建立一个用于估算(而不是预测)的模型是否公平，或者当我这样做时，我可以只接触训练集吗？此外，一旦我开始在我的测试集上工作，我必须只使用我的测试集数据，使用在我的训练集中建立的相同的推算模型，或者我可以使用所有可用的数据来重新训练我的推算模型？我认为，只要我没有接触我的预测模型训练的测试集，使用其余的数据来做一些事情，比如估算，就可以了。但这可能会违反一条基本规则。有什么想法？

浏览 0提问于2017-10-15得票数 7

2回答

如何分割和训练生物学数据模型

machine-learning、dimensionality-reduction

我使用的基因表达数据，是浮动数字，并希望训练分类器考虑到二进制分类。由于我是这个领域的新手，我有一些问题：我使用的第一个分类器是SVM。我正在使用sklearn工具，它需要在培训和测试数据集中分离数据集。据我所知，为了构建模型，需要将数据集中的数据集和验证数据集(找到模型的参数)分开，而对于超参数的微调，则需要一个测试数据集。有趣的是，考虑到我在查看sklearn文档时发现的情况，建议只对火车和测试数据集进行分割。验证数据集上没有断言。因此，我怀疑，我是否正确地运行分类器。下面是我使用的代码： from sklearn.model_selection import train_tes

浏览 0提问于2021-06-10得票数 1

3回答

如何正确分割不平衡的数据集以训练和测试集？

python、machine-learning、train-test-split、imbalanced-data

我有一个航班延迟数据集，并试图分割该集，以训练和测试集，然后取样。及时病例约占总数据的80%，延迟病例约占总数的20% . 正常情况下，机器学习率为8:2，但数据过于不平衡。因此，考虑到极端情况，大多数的列车数据都是准时的，而大多数的测试数据都是延迟的情况，而且精度会很低。因此，我的问题是如何正确地分割不平衡的数据集来训练和测试集？

浏览 1提问于2019-07-27得票数 1

回答已采纳

2回答

如何从数据集中训练特定类的模型以进行对象检测？

dataset、data-cleaning、object-detection

我想使用darkflow来执行对象检测。我有5类对象我想检测，比如说， chair bottle door phone computer 我想特别训练我的模型，而不是使用预先训练的重量。我计划把它训练成带有边框标注的图像。但是，所有可用的数据集，如imagenet、COCO，都有图像，其中也包含其他类的对象。那么，如何使用这些数据集对我的5个类进行专门培训呢？我不想让我的模型在图像中的所有其他物体上进行训练。

浏览 0提问于2018-06-12得票数 0

1回答

我应该使用word2vec来进行word嵌入，包括测试数据吗？

machine-learning、nlp、text-classification、word2vec、word-embedding

我是一个新的人在NLP和我尝试做文本分类工作。在做这个工作之前，我知道我们应该做单词嵌入。我的问题是，我应该只在训练数据(使测试数据只从训练前的vec训练数据模型获得向量)上做单词嵌入工作，还是同时对训练数据和测试数据进行嵌入工作？

浏览 2提问于2016-05-22得票数 0

回答已采纳

2回答

Weka InCompatible在文本分类中的训练和测试集

weka、random-forest、text-classification

我有两个关于句子是否包含提到药物不良事件的数据集，训练和测试集都只有两个字段文本和标签{不良事件，无不良事件}我已经使用weka和stringtoWordVector过滤器在训练集上使用随机森林构建了一个模型。我想测试构建的模型，方法是从测试数据集中删除类标签，在其上应用StringToWordVector过滤器，并使用它测试模型。当我尝试这样做时，它给我一个错误，说训练和测试集不兼容，可能是因为过滤器为测试数据集识别了一组不同的属性。我如何解决这个问题，并输出测试集的预测。

浏览 0提问于2018-03-12得票数 0

1回答

rpart:是否需要培训数据？

r、rpart

我有一个问题来理解一些基本知识，所以我被一个回归树困住了。我用一棵分类树来检验环境参数对我测量的树木生长因子的影响。长话短说：将数据分成训练数据和测试数据的目的是什么?我什么时候需要它？我的搜索显示了一些例子，他们要么不做，要么做，但我找不到背景。这仅仅是为了验证修剪吗？先谢谢你！

浏览 1提问于2017-10-28得票数 0

回答已采纳

2回答

使用sci-kit中的训练/测试数据学习曲线，而不是交叉验证

python、machine-learning、scipy、scikit-learn

我有一个独立的训练和测试数据(从不同的CSV加载到不同的pandas数据框中)，我想用这些训练和测试数据绘制学习曲线，而不是使用交叉验证从训练集本身生成训练和测试数据(这似乎是learning_curve的常见工作方式)。似乎scikit希望你的测试和训练数据出现在同一个Dataframe中，但这样分类器也会学习测试数据，这不是我想要的。我该如何着手解决这个问题呢？我是第一次接触科学工具包。

浏览 3提问于2015-09-20得票数 2

1回答

使用Caret's Train方法将模型应用于测试数据集以预测R中标签的问题

r、machine-learning、r-caret、predict

我有一个训练数据集，我们称它为"training_data"，它由19个变量(特征)和1个标签组成，总共20个变量(列)。这个数据集只包含最好的预测器，这意味着低方差列或差预测器已经被删除，我的意思是，这是从特征选择得到的数据帧。让我们将此数据集中的标签命名为："final_score“ 另外，我有一个测试数据集，我们称它为"predictions_data"，它有19个变量(特性)，但是没有标签变量，所以这个集合总共是19个变量(列)。我正在做一个非常简单的回归模型，使用Caret的"train“方法中的”套索回归“来训练模型，并进一步预测&

浏览 13提问于2019-11-23得票数 1

2回答

GridSearchCV是否执行交叉验证？

python、machine-learning、scikit-learn、cross-validation、grid-search

我目前正在解决一个问题，该问题比较了三种不同的机器学习算法在相同数据集上的性能。我将数据集划分为70/30个训练/测试集，然后使用GridSearchCV和X_train, y_train对每个算法的最佳参数进行网格搜索。第一个问题，我是应该在训练集上执行网格搜索，还是应该在整个数据集上执行网格搜索？第二个问题，我知道GridSearchCV在其实现中使用了K-fold，如果我在GridSearchCV中比较的所有三种算法都使用相同的X_train, y_train，这是否意味着我执行了交叉验证？任何答复都将不胜感激，谢谢。

浏览 6提问于2018-03-08得票数 22

回答已采纳

2回答

训练精度很高，验证精度很高，但测试集的精度很低。

machine-learning、keras、deep-learning、computer-vision、conv-neural-network

我已经将数据集(大约28K图像)划分为75%的训练集和25%的测试集。然后，我随机抽取了15%的培训集和15%的测试集来创建验证集。目标是将图像分为两类。精确的图像样本不能共享。但它和附件中的那个相似。我使用这个模型:带有imagenet权重的VGG19，最后两层，可训练的，以及4个密集的层。我还使用ImageDataGenerator来增强图像。对该模型进行了30个历次的训练，发现训练精度为95%，验证精度为96%，在测试数据集上训练后，仅下降到75%。我已经尝试了正规化和辍学，以解决过度适应，如果它是痛苦。我还做了一件事，看看如果我使用测试集作为验证集并在同一个测试集上测试模型会发生什么

浏览 3提问于2019-01-16得票数 2

回答已采纳

2回答

用主成分分析法展开维数

pca、dimensionality-reduction

我试图使用the算法进行降维，我知道这不是这个算法的主要用途，也不推荐。我看到了一个在t上实现的这里。，我不相信这个实现。该算法的工作方式如下：给定训练数据集和测试数据集，将2合并成一个完整的数据集。在完整数据集上运行the (不包括目标变量) 将the的输出作为K个新列添加到完整的数据集中，K是the的映射维数。将整个数据集重新分割为培训和测试。将训练数据集分割成N个折叠在N个折叠上训练机器学习模型并做N个交叉验证。在测试数据集中评估机器学习模型我的主要问题不是关于the但是；在数据转换之前，我可以将数据集分割成训练集和测试集，用于其他降维算法(如PCA )吗？这会有效吗

浏览 0提问于2022-03-14得票数 1

回答已采纳

1回答

在进行文本分类时，训练集中的单词包应该包括测试集数据吗？

machine-learning、text-mining、svm、text-classification、bag-of-words

我正在使用一个简单的单词包模型和一个线性支持向量机分类器从维基百科评论中识别‘攻击’。由于班级不平衡，我使用F1分数作为我的错误度量。我想知道我在培训数据中的标记是否也应该包含只存在于测试数据中的单词，还是不重要？我的印象是，这不应该重要，因为这些功能的计数将是零，无论如何，在培训集。这将使他们在培训时与模型无关。显然，有些人也是这么说的(虽然没有找到明确的答案)。为了测试这一点，我决定用两种方式来训练我的模型，看看不同之处:一次只有训练数据中的特性，另一次有包含测试数据的特性。将CV的n倍设置为10，两者的CV误差非常相似，但当我对我的测试数据进行预测时，模型的F1评分比测试数据高出0.0

浏览 0提问于2021-05-22得票数 2

1回答

深度学习环境下交叉验证--目标检测

machine-learning、deep-learning、computer-vision、object-detection、supervised-learning

我正在从对象检测中建模一个数据集。我对深造比较陌生。在深入学习的背景下，我很难扩展交叉验证的概念。通常情况下，列车运行时间长，网络深度大，k折叠CV不是一种合理的方法.因此，可能1倍交叉验证更有意义(我见过人们在实践中使用这种方法)。我试图推理这一选择，并思考交叉验证背后的想法:超参数调优，或在建模开始过度匹配时进行量化。我的问题如下：关于1倍简历的随机抽样误差怎么办？我的想法是:使用k折叠CV，这个误差在k>1时是平均的。另外，对于k=1，超参数在我看来也不合理:我们最终找到的值可以与我们称为验证集的(随机)样本相耦合。那么，一份简历的意义是什么？我正在处理的数据中已经出现了数据点

浏览 4提问于2020-07-07得票数 0

回答已采纳

1回答

如何训练语音识别的lstm

tensorflow、speech-recognition、keras、speech-to-text、lstm

我正在尝试训练用于语音识别的lstm模型，但不知道要使用什么训练数据和目标数据。我使用的是，它包含音频文件和它们的文字记录。在这一点上，我知道目标数据将被矢量化文本文本。至于训练数据，我在考虑使用每个音频文件(或MFCC特征)中的频率和时间。如果这是解决问题的正确方法，训练数据/音频将是多个数组，我如何将这些数组输入到我的lstm模型中？我需要对它们进行矢量化吗？谢谢!

浏览 1提问于2016-11-26得票数 5

回答已采纳

1回答

使用RapidMiner中的测试数据集

machine-learning、classification、rapidminer

我正在尝试创建一个包含训练数据集的模型，并希望标记测试数据集中的记录。我在网上找到的所有教程或帮助都有关于仅对一个数据集(即训练数据集)使用交叉验证的信息。我找不到如何使用测试数据。我尝试将结果模型应用于测试集。但是测试集似乎给出了不同的结果。比预处理后的训练集更多的属性。这是一个文本分类问题。最后，我得到了一些类似如下的输出 18.03.2013 01:47:00 Results of ResultWriter 'Write as Text (2)' [1]: 18.03.2013 01:47:00 SimpleExampleSet: 5275 examples, 36

浏览 3提问于2013-03-18得票数 1

回答已采纳

1回答

神经网络检测塑料零件

neural-network、deep-learning

利用神经网络对.我对分类数字有一点经验..。我想用网络检查塑料零件。我有从这些塑料零件中生产的视频流。我应该用许多正确的塑料部件的视频来训练网络以获得正的输出，而随机的视频来获得负的输出吗？如果你有任何书籍或链接，我会很高兴看到它们。编辑看起来我问的有点蠢..。在生产过程中，可能会产生错误的塑料零件，这些应该被网络识别。在生产过程中可能会发生很多错误，所以我认为只有用正确的塑料零件来训练网络才是有意义的。

浏览 2提问于2018-01-25得票数 0

回答已采纳

2回答

如何在给定训练和测试数据以及类标签的情况下在R中执行最小二乘回归？

r、data-mining、linear-regression、least-squares

我有一个63*62的训练集，并且还提供了类标签。测试数据是25*62维，并且也有类标签。鉴于此，我将如何执行最小二乘回归？我使用的代码是： res = lm(height~age) 身高和年龄对应的是什么？当我有61个特征+1个类(训练数据为62列)时，我该如何输入参数？另外，如何将模型应用于测试数据？

浏览 0提问于2013-04-10得票数 1

1回答

如何从UCI给定的标准数据集生成训练和测试数据集

svm、libsvm

我有一个包含699行和11个属性(包括class属性)的癌症数据集。如何将数据集划分为训练数据集和测试数据集？我知道下面的事情。它们是真的吗？(1)选择初始150行用于测试，剩余549行用于训练(2)选择初始549行用于训练，剩余150行用于测试此外，我是否需要在两个数据集中都包含类属性？是否还需要另一个称为“验证数据集”的数据集？我正在使用SVM进行分类

浏览 3提问于2016-07-01得票数 0

1回答

数据集上的NLP分类

nlp、text-classification

我正在努力学习NLP。我理解从文本预处理到td-以色列国防军和字嵌入的基本概念.我如何应用这一学习？我有两个列的数据集:答案和性别。我想用NLP将答案列转换成向量，然后使用监督机器学习来训练一个模型，预测某一类型的答案是由男性还是女性给出的。我不知道如何处理后，我Pre_processed文本。

浏览 3提问于2022-02-04得票数 0

2回答

用tf.placeholder API代替feed_dict和tf.data

python、tensorflow、tensorflow-datasets

我有一个现有的TensorFlow模型，它使用tf.placeholder作为模型输入，使用tf.Session().run的feed_dict参数来输入数据。以前，整个数据集被读取到内存中，并以这种方式传递。我希望使用更大的数据集，并利用tf.data API的性能改进。我从它定义了一个tf.data.TextLineDataset和一次迭代器，但是我很难弄清楚如何将数据输入到模型中来训练它。起初，我尝试将feed_dict定义为从占位符到iterator.get_next()的字典，但这给了我一个错误，即提要的值不能是tf.Tensor对象。更深入的研究让我明白，这是因为iterato

浏览 1提问于2018-04-10得票数 20

回答已采纳

1回答

为什么WEKA-TestSets必须有class属性？

machine-learning、weka

我有非常好定义的机器学习训练集(只有字符串属性)。例如： @relation training_rel @attribute class {politics,sports} @attribute text string @data politics,'some text about politics over here' ... // a lot of other training instances of class politics sports,'and now some sports over here' ... // a lot of other

浏览 1提问于2014-10-11得票数 2

2回答

Scikit-Learn:避免交叉验证期间的数据泄漏

scikit-learn、pipeline、cross-validation

我刚刚阅读了k-折交叉验证，并意识到我在当前的预处理设置中无意中泄漏了数据。通常，我有一个训练和测试数据集。我在我的整个训练数据集上进行了一系列数据推算和one-hot编码，然后运行k折交叉验证。泄漏是因为，如果我进行5次交叉验证，我将在80%的训练数据上进行训练，并在剩余的20%的训练数据上进行测试。我真的应该根据80%的训练来推算这20% (而我之前使用的是100%的数据)。 1)这是考虑交叉验证的正确方式吗？ 2)我一直在研究sklearn.pipeline中的Pipeline类，它似乎对执行一系列转换，然后最终将模型拟合到结果数据很有用。然而，我正在做一系列的事情，比如“用均值来

浏览 9提问于2018-01-28得票数 11

2回答

K折叠交叉验证不会使数据的任何部分对模型盲目。

machine-learning、data-science、cross-validation

我有一个关于K折叠交叉验证的概念性问题。一般情况下，我们根据测试数据训练一个学习模型，并用测试数据对其进行验证，假设系统对这些数据是盲目的，这就是为什么我们可以评估系统是否真的学会了。现在使用k折叠，最后的模型实际上已经(间接地)看到了所有数据，那么为什么它仍然有效？它已经看到了所有的数据，我们不知道它是如何预测未知数据的。这就是我的问题，基于这个事实，为什么我们知道这个方法是有效的？谢谢。

浏览 0提问于2022-06-11得票数 -1

1回答

我想在R编程中创建用户定义的函数，用于将数据拆分成训练和测试并返回样本，训练和测试来自该函数

r、machine-learning、regression

totalrows=nrow(x) s=sample(seq(1,totalrows),0.7*totalrows) train=x[s,] test=x[-s,] 我应该如何将这些数据放在用户定义的函数中，这样我就不必重复它了，当我传递一个我读取的文件时，它将拆分数据并返回样本，训练和测试数据？

浏览 10提问于2020-03-19得票数 0

1回答

毫升调优-火花交叉验证

apache-spark、machine-learning、apache-spark-mllib

我正在查看在中找到的交叉验证代码示例上面写着： CrossValidator首先将数据集分割成一组折叠，这些褶皱用作单独的训练和测试数据集。例如，使用k=3折叠，CrossValidator将生成3个(训练，测试)数据集对，每个使用2/3的数据进行培训，1/3用于测试。因此，我不明白为什么代码中的数据在培训和测试中是分开的： // Run cross-validation, and choose the best set of parameters. val cvModel = cv.fit(training) // Prepare test documents, which a

浏览 4提问于2021-11-10得票数 0

回答已采纳

5回答

如何加载集成测试数据

java、spring、maven、jpa

我们有一个Java-Tomcat项目，使用Spring、JPA和maven build，使用JUnit进行单元测试，使用TestNG进行集成测试。一些集成测试将需要一个数据库，因此每次运行mvn verify时都会创建一个新的DB。现在的问题是填充它以获得测试数据。我应该查看，自己使用JPA持久化对象，还是其他方式？如何将测试数据加载到数据库中，每次集成测试运行时都有一个稳定的测试环境？

浏览 0提问于2013-03-28得票数 1

1回答

关于网格搜索和KFold的问题

machine-learning、hyperparameter-tuning、grid-search

我正在尝试一个示例，我正在使用Cudf和CUml在一个巨大的数据集上训练500万行(只有4个特性)，并且我使用SGD逻辑回归，因为我必须预测病人是否生病。我使用分层k折叠，因为数据集有大约20474受感染，其余的4_979_256是健康的。我将使用召回或f1评分作为衡量标准。我已经做了5个分层k倍，现在我想做一个网格搜索。我在手册https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html上见过 (cuml具有相同的参数) 我的问题s: cv =5(默认)，我想问一下

浏览 0提问于2023-02-27得票数 0

2回答

我应该将唯一的数据集拆分到一个培训和测试中，还是可以将其中的全部用于回归问题？

regression、data-science、train-test-split

在Kaggle比赛中，我们有一个训练和测试数据集。因此，我们通常在训练数据集上开发一个模型，并使用该算法所看不到的测试数据集对其进行评估。我想知道，如果只给我们一个数据集而没有任何测试数据集，那么验证回归问题的最佳方法是什么。我认为可能有两种方法：在第一步中，在导入数据集之后，将其转换为训练和测试数据集，使用这种方法，算法直到最后一步才能看到测试集。经过预处理和特征工程，我们可以在训练数据集上使用交叉验证技术，或者使用训练测试分割来提高模型的误差。最后，模型的质量可以通过看不见的数据进行检验。也看到，对于回归问题，一些数据科学家使用整个数据集进行测试和验证，我的意思是他们同时使用所有的数据

浏览 1提问于2020-09-04得票数 0

1回答

在培训、测试和验证集中拟合和转换文本数据

classification、feature-extraction、cross-validation

我试图实现一个简单的文本分类器，其中数据被分成训练集(70%)和测试集(30%)，但是交叉验证(k=10)要在训练集上执行。我在这里主要关注的是用于转换给定集合的基础。我已经看过一些教程，其中使用了整个数据集来适应Count/TF下手向量器，但是在转换验证和测试集时，这会不会带来偏见，因为前面提到的集合都包含在整个数据集中？还是说偏倚太小，可以接受呢？在一个折叠范围内，如果使用训练集来安装向量器并转换验证集，会更好吗？对于测试，应该使用培训+验证集来适应向量器来转换测试集吗？在这一点上，验证集是否也应被视为类似于测试集的“未见”数据？许多教程和注释在线显示现成的数据集，但在某些情况下，

浏览 0提问于2018-05-13得票数 1

回答已采纳

2回答

图像数据集的分割训练测试与验证

deep-learning、convolutional-neural-network、training、accuracy、validation

我在培训文件夹中有600个图像，在验证文件夹中有200个图像，在测试文件夹中有200个图像。假设为了学习目的，我将训练数据生成器和验证数据生成器相匹配-- model.fit(train,val)，然后添加600 + 200 = 800这样的训练和验证数据，而对于这800个图像，我拟合了由200个图像组成的新测试数据集，并找到了这方面的准确性。这是为了获得更好的模型性能而进行的良好实践吗？我刚开始深入学习，你的答案将非常有助于获得一些关于数据分裂的洞察力。

浏览 0提问于2021-08-10得票数 1

3回答

是否可以使用测试数据集来选择模型？

machine-learning

我试图了解测试数据集是否可以用来选择一个经过训练的最终模型。让我们假设这个场景：我首先分割了整个数据集: 70%的训练，30%的测试。然后我拟合了几个模型(假设NN，RandomForest，AdaBoost，.)在训练数据集上进行交叉验证，对超参数进行调优，以获得最佳的列车数据性能。我知道这些分数是有偏见的，因为我调整了这些数据上的超参数。然后，使用测试数据集来获得对无偏数据的真实性能，并选择哪个模型的性能最好。这是使用测试数据集的正确方式吗？一些混淆来自于测试数据集的internet定义：用于对最终模型进行无偏评估的数据样本，适合于培训数据集。似乎它应该只用于获得一个最后训练的模

浏览 0提问于2018-12-27得票数 2

回答已采纳

1回答

高度不平衡的分类步骤。我应该上采样和下采样数据，还是只上采样不平衡的类

python-3.x、imbalanced-data、smote

我有一个高度不平衡的二进制(是/否)分类数据集。数据集当前有appx 0.008% 'yes‘。我需要使用SMOTE来平衡数据集。我遇到了两种方法来处理这种不平衡。在对变量运行MinMaxScaler之后，执行以下步骤 from imblearn.pipeline import Pipeline oversample = SMOTE(sampling_strategy = 0.1, random_state=42) undersample = RandomUnderSampler(sampling_strategy=0.5, random_state=42) steps = [(&

浏览 3提问于2020-05-14得票数 0

1回答

Tensorflow对象检测样本小批量是如何实现的？

tensorflow、object-detection、tensorflow-datasets、mini-batch

我试图建立一个目标检测模型，作为硕士学位项目的一部分。当我们使用神经网络时，批量大小是一个重要的超参数。从以前的问题中，我了解到，每个小批都是随机抽样的，而不需要从dataset ()中替换。然而，我不确定TFOD处理小型批次的方法：如何将训练数据中的图像采样成一个小批量？(没有replacement?)What的随机抽样，如果我们没有替换采样，并且到达数据集的末尾，我们会这样做吗？)数据重复吗？我试图在TFOD框架的内部函数中寻找答案，但只找到了dataset_builder.build()函数，它只构建就绪数据集，，但不负责批抽样。任何想法我都会感激的！谢谢你们！ def bui

浏览 5提问于2022-09-06得票数 0