在Scala中使用SparkML训练/测试数据_在训练时期使用测试数据集的PyTorch教程_在python中手动创建训练和测试数据集 - 腾讯云开发者社区

apache-spark、pyspark、cross-validation、apache-spark-mllib、apache-spark-ml

在训练数据集上交叉验证超参数网格后，SparkML的CrossValidator是否重新适合整个训练数据集？如果不是，它会从交叉验证的哪一部分中选择用于推断的bestModel？拟合的CrossValidator使.transform()方法可用。为此，CrossValidator是否使用最佳超参数在整个训练/交叉验证数据集上重新训练，并使用重新拟合的模型进行推理？或者，bestModel用于推断所有交叉验证文件夹中的最佳性能模型(即，来自最佳性能超参数组合的最佳文件夹中的模型，仅对该文件夹的数据进行训练)？我之所以这样问，是因为SparkML CrossValidator和scikit

浏览 22提问于2021-03-23得票数 0

1回答

可以用tree_method='exact‘来训练XGBoost4J-Spark吗？

apache-spark-mllib、xgboost

我打算在SparkML管道中使用经过训练的带有tree_method='exact‘的xgboost模型，因此我需要使用XGBoost4J-Spark；但是文档显示“分布式和外部内存版本只支持近似算法。”()。有什么办法可以解决这个问题吗？或者，我可以使用基于C的xgboost来训练模型，以及如何将训练后的模型转换为XGBoostEstimator，这是一个SparkML估计器，可以无缝地集成到SparkML管道中。有没有人遇到过这样的转换器？我不介意在单个节点上运行，而不是在集群上运行，因为我可以等待。任何真知灼见，我们都很感激。

浏览 3提问于2018-03-13得票数 2

1回答

我可以使用没有一个的StringIndexer -热编码它在PMML (从火花导出)？

apache-spark、apache-spark-ml、pmml

我正在尝试采用一个功能性的、合适的SparkML管道(出于兼容性原因，Scala2.1.1)并将其转换为SparkML，以实现互操作性和存储目的。目前，管道的形式如下: Array(StringIndexer，StringIndexer，VectorAssembler，VectorIndexer)。我尝试过标准的org.jpmml.sparkml.PMMLBuilder，它在我已经为数据库中的字符串建立了索引的情况下工作得非常好。(我知道这些列中有多少不同的字符串，并且我完全确定它们将保持绝对。)我计划在决策树和其他一些基于树的方法中使用它们，SparkML对树中的分类变量进行了很好的处理

浏览 13提问于2019-05-10得票数 0

1回答

如何计算使用corenlp时的精度

stanford-nlp、sentiment-analysis

如果我不清楚，请告诉我，我在用scala或java编写的GitHub中发现了一些项目，目的是通过corenlp获取文本的情感。我已经尝试过其他的方法来获取文本的情感，方法是这样的，我们有训练数据，所以我们训练数据并建立一个模型，然后我们可以用测试数据来评估我们的模型，所以测试数据是准确的，关于这一点，为什么没有人在使用corenlp时对计算结果的准确性感兴趣？在使用corenlp时，我可以问您一些想法或方法吗？一些例子：

浏览 15提问于2017-05-25得票数 0

回答已采纳

1回答

在DSX中使用tensorflow部署管道

python、tensorflow、jupyter-notebook、data-science-experience

我有一个使用python和tensorflow构建的模型。该模型经过训练，运行良好。我不知道该如何部署它？我的意思是，我如何调用此模型才能获得实际数据的分数？由于TensorFlow的原因，我无法使用Watson ML deploy。

浏览 1提问于2017-10-21得票数 0

1回答

如何将SparkML模型作为实时How服务进行操作？

apache-spark、pyspark、apache-spark-ml

一旦SparkML模型在星火库集群上接受了培训，我如何才能将经过训练的模型用于通过restful进行评分？问题是，它需要一个SparkContext才能加载，但是是否有一种方法来“伪造”它，因为它似乎并不是真正必要的，或者创建一个SparkContext所需的最低限度是什么？

浏览 3提问于2017-08-16得票数 1

回答已采纳

1回答

如何在DataFrame中获取矢量

scala、apache-spark

利用SparkML TF-以色列国防军算法得到一些特征向量.现在我想在"idfFeatures“列中得到向量。我的代码是： val vectors = allDF.select("idfFeatures").map{ case Row(vector: Vector) => vector } vectors.foreach(println(_)) 控制台中有一个bug： Error:(38, 24) type Vector takes type parameters case Row(vector: Vector) =>

浏览 0提问于2016-11-16得票数 0

回答已采纳

2回答

scala中火花数据的有序分裂

scala、apache-spark、apache-spark-sql

我有一个sql.DataFrame，我想将它与scala分割成训练和测试数据格式。我现在正在使用这个代码： val Array(trainingData, testData) = data.randomSplit(Array(0.7, 0.3)) 但是我不想随机地分割我的数据。我想要的是把它的前70%作为火车，其余的作为测试。做这件事最好的方法是什么？

浏览 1提问于2020-06-05得票数 0

回答已采纳

1回答

函数参数中的RDD[Vector]误差

scala、apache-spark、apache-spark-mllib、apache-spark-ml

我试图在scala中定义一个函数，以便使用Spark在其上进行迭代。这是我的代码： import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SQLContext import org.apache.spark.ml.{Pipeline, PipelineModel} import org.apache.spark.ml.clustering.KMeans import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.m

浏览 4提问于2016-05-13得票数 0

回答已采纳

1回答

输入类型必须是字符串类型，但在使用Scala时得到ArrayType(StringType，true)错误

scala、apache-spark

我是星火新手，我正在使用Scala创建一个基本分类器。我从文本文件中读取数据集，并将其分成训练和测试数据集。然后我尝试标记训练数据，但是它失败了 Caused by: java.lang.IllegalArgumentException: requirement failed: Input type must be string type but got ArrayType(StringType,true). at scala.Predef$.require(Predef.scala:224) at org.apache.spark.ml.feature.RegexTokenizer.vali

浏览 0提问于2016-10-26得票数 1

回答已采纳

2回答

分割训练和测试数据

machine-learning、classification

在机器学习中，谁能推荐将训练数据和测试数据分开的最佳百分比是多少？如果我在中分割训练和测试数据，的缺点是什么？

浏览 2提问于2015-08-02得票数 3

回答已采纳

2回答

使用sci-kit中的训练/测试数据学习曲线，而不是交叉验证

python、machine-learning、scipy、scikit-learn

我有一个独立的训练和测试数据(从不同的CSV加载到不同的pandas数据框中)，我想用这些训练和测试数据绘制学习曲线，而不是使用交叉验证从训练集本身生成训练和测试数据(这似乎是learning_curve的常见工作方式)。似乎scikit希望你的测试和训练数据出现在同一个Dataframe中，但这样分类器也会学习测试数据，这不是我想要的。我该如何着手解决这个问题呢？我是第一次接触科学工具包。

浏览 3提问于2015-09-20得票数 2

1回答

TreeBagger() (MATLAB)和不同数量的训练和测试集上的变量

matlab、machine-learning、random-forest

我正在使用MATLAB函数TreeBagger()进行随机森林分类，以完成一项任务。当测试数据的变量数量与训练数据的变量数量不同时，它会给出错误。我被告知，变量选择应该只在训练数据上进行，而不是在测试数据上，这样测试数据上就没有偏见。因此，在将初始数据集(50个变量)拆分为训练集和测试集后，我对训练集执行变量选择(独立性的卡方检验)。因此，训练集由37个变量组成，而测试集仍有50个变量。我使用训练训练集，然后使用测试集进行预测(函数)。我得到了一个错误，因为测试集的变量数量与模型训练时使用的变量数量不同。仅在训练集上执行变量选择是否错误？有没有一种方法可以使用这个函数执行预测？

浏览 0提问于2015-12-20得票数 1

1回答

GATE工具中的机器学习

machine-learning、svm、gate

在使用GATE工具对训练数据运行机器学习算法(SVM)后，我想在测试数据上对其进行测试。我的问题是，我是否应该使用相同的训练数据进行测试，同时，模型如何从测试数据中提取实体，而测试数据没有使用训练数据中学习到的注释进行注释。我遵循了这个链接上的教程，但在最后，当它谈到将数据集拆分为训练和测试时，它有点令人困惑。

浏览 2提问于2014-08-28得票数 0

2回答

如何使用Spark从HDFS读取文件？

java、apache-spark、hadoop

我已经构建了一个使用Apache的推荐系统，它的数据集存储在我的项目文件夹中，现在我需要从HDFS访问这些文件。如何使用Spark从HDFS读取文件？我就是这样初始化我的星火会话的： SparkContext context = new SparkContext(new SparkConf().setAppName("spark-ml").setMaster("local") .set("fs.default.name", "hdfs://localhost:54310").set("f

浏览 0提问于2019-06-15得票数 2

回答已采纳

2回答

训练集和测试集大小

machine-learning、deep-learning、training

如何正确处理培训/测试集的生成？我正在做几个实验来测试我的神经网络模型的泛化能力，所以在所有实验中，我的测试集都不同于我的训练集(例如，在一个实验中，训练集和测试集之间的句子结构是相同的，而在训练集中我使用一组单词，在测试集中使用另一组单词)。因此，我的问题是:为了能够比较实验之间的准确性，我是否必须在实验之间保持相似的训练集/测试集的大小？我应该只确保训练集的大小总是相似的还是测试集的大小？在一个实验中，我有一个大小为29160的数据集，它是我为训练而生成的，而在其他实验中，我有更大的数据集(有时是122472大小的数据集)，所以在第一个实验中，我应该使用整个数据集，并从其他实验中的其他较大

浏览 0提问于2021-07-08得票数 1

2回答

MLPClassifier阈值因子，用于消除与训练数据不匹配的测试样本

python、machine-learning、scikit-learn

我使用的是中的MLPClassifer示例训练代码： from sklearn.neural_network import MLPClassifier X = [[0., 0.], [1., 1.]] y = [0, 1] clf = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5, 2), random_state=1) clf.fit(X, y) 在预测步骤，我们使用测试数据2.，2.，-1.，-2。在

浏览 0提问于2018-03-07得票数 0

1回答

关于过度适应和击打的问题

machine-learning、overfitting、oversampling

因此，我理解，当您有良好的精度，例如，训练数据集和测试数据集的一个坏的准确性，但为什么我甚至要检查训练数据集的准确性？如果我在测试数据集上有很好的准确性，这意味着我很有可能不会过度适应，对吗？(假设我们确保模型没有对任何测试数据进行训练) 我还有另一个问题:使用SMOTE的过度采样是否会导致过度拟合(测试数据集的准确性很高，但在现实中却是过度拟合？)斯马特画了一条线，并在上面画出新的点，这样它就不会重复数据。

浏览 0提问于2022-12-30得票数 0

回答已采纳

1回答

我应该使用word2vec来进行word嵌入，包括测试数据吗？

machine-learning、nlp、text-classification、word2vec、word-embedding

我是一个新的人在NLP和我尝试做文本分类工作。在做这个工作之前，我知道我们应该做单词嵌入。我的问题是，我应该只在训练数据(使测试数据只从训练前的vec训练数据模型获得向量)上做单词嵌入工作，还是同时对训练数据和测试数据进行嵌入工作？

浏览 2提问于2016-05-22得票数 0

回答已采纳

1回答

Orange:如何确保相同的PCA同时应用于训练数据集和测试数据集？

orange

在Orange中，我可以将数据集附加到PCA以进行降维。通常，在代码中，我会在将经过训练的PCA与训练数据进行拟合后，将其应用于测试数据。在Orange中，PCA似乎只能放置在列车或测试集的下游。有没有一种方法可以在测试数据的训练数据上运行PCA转换？

浏览 72提问于2020-02-22得票数 0

回答已采纳

2回答

在PCA过程中，测试集的数据会“泄漏”到预测器中吗？

dimensionality-reduction、pca

在阅读了这篇文章之后，我有一个关于PCA的问题。作者讨论了在计算PCA时是否使用测试集。但是，很少有需要理解的重要问题: 1)不应将训练集和测试集相结合，同时获得整个数据的PCA分量。因为，这将违反泛化的整个假设，因为测试数据会被“泄漏”到培训集中。换句话说，测试数据集将不再是“看不见的”。最终，这将削弱模型的泛化能力。2)不应分别对测试数据集和训练数据集进行主成分分析。因为，来自训练和测试PCA的结果向量将有不同的方向(由于不相等的方差)。因此，我们最终将比较在不同轴上注册的数据。因此，从列车和测试数据产生的向量应该有相同的轴。作者提到，“因为这违反了泛化的整个假设，因为测试数据会被‘

浏览 0提问于2017-05-28得票数 1

2回答

在列车数据为fit_transform()-ed之后，不转换()测试数据是否可以接受？

machine-learning、python、data、preprocessing

我们知道数据预处理的最佳实践(如标准化、规范化、.在对训练数据进行fit_trasform()处理的同时，应用transform()测试数据，将从训练数据缩放中获得的参数应用到测试数据中。与此类似： from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_train = sc.fit_transform(X_train) X_test = sc.transform (X_test) 问题是:对训练数据执行fit_transform()也是有意义的，而对transform()测试数据则没有意义，这样我们就可

浏览 0提问于2020-05-31得票数 4

回答已采纳

2回答

用主成分分析法展开维数

pca、dimensionality-reduction

我试图使用the算法进行降维，我知道这不是这个算法的主要用途，也不推荐。我看到了一个在t上实现的这里。，我不相信这个实现。该算法的工作方式如下：给定训练数据集和测试数据集，将2合并成一个完整的数据集。在完整数据集上运行the (不包括目标变量) 将the的输出作为K个新列添加到完整的数据集中，K是the的映射维数。将整个数据集重新分割为培训和测试。将训练数据集分割成N个折叠在N个折叠上训练机器学习模型并做N个交叉验证。在测试数据集中评估机器学习模型我的主要问题不是关于the但是；在数据转换之前，我可以将数据集分割成训练集和测试集，用于其他降维算法(如PCA )吗？这会有效吗

浏览 0提问于2022-03-14得票数 1

回答已采纳

2回答

交叉验证--使用测试集还是验证集来预测？

validation、machine-learning

我有个关于交叉验证的问题。在机器学习中，我们知道有训练，验证，测试集。测试集是最终运行，以查看最终模型/分类器的性能。但是在交叉验证的过程中:我们将数据分成训练集和测试集(大多数教程都使用这个术语)，所以我很困惑。我们是否需要将整个数据分成三个部分:培训、验证、测试？因为在交叉验证中，我们一直在谈论与2组的关系:训练和另一组。有人能帮我澄清一下吗？谢谢

浏览 2提问于2017-04-27得票数 7

回答已采纳

1回答

训练和测试数据集是否应该使用相同的计算机系数？

scikit-learn、imputation、train-test-split

我正在学习如何准备数据，构建估计器，并使用训练/测试数据拆分进行检查。我的问题是如何正确地准备测试数据集。我将我的数据分成测试和训练集。正如"Hands on with machine learning with Scikit-Learn"教我的那样，我为我的数据准备建立了一个管道： num_pipeline = Pipeline([ ('imputer', SimpleImputer(strategy="median")), ('std_scaler', StandardScaler()),

浏览 19提问于2019-08-21得票数 0

2回答

将Scala数据集拆分为培训和测试集

scala

在Scala中，我有一个数据集表示为SeqT。我想把它分成训练数据集和测试数据集。这是可以的，这是基于简单的随机抽样。我知道如何用一对ListBuffers等来做这件事，但是这个配方也是正确的吗？ def splitIntoTrainingAndTest[T](all: Seq[T], samplingRate: Double): (Seq[T], Seq[T]) = { val r1 = new Random(123) val r2 = new Random(123) ( all.filter({ i: T => r1.nextDouble() < sampl

浏览 15提问于2013-12-09得票数 0

回答已采纳

1回答

如何应用PCA和随机森林训练的模型对数据进行测试？

python-2.7、machine-learning、scikit-learn、random-forest

在解决其中一个机器学习问题的过程中，我对训练数据进行主成分分析，然后利用学习方法对训练数据进行.transform处理。在观察了这些差异之后，我只保留了那些从转换后的数据中得到的列，这些列的方差很大。然后，我正在使用RandomForestClassifier训练模型。现在，我很困惑如何在测试数据上应用经过训练的模型，因为测试数据的列数和保留的转换数据(应用随机林的数据)是不同的。如有任何解决办法，将不胜感激。谢谢。

浏览 0提问于2016-04-03得票数 3

回答已采纳

1回答

在对训练数据进行模型评估后，如何在test.csv上找到准确的评分？

python、scikit-learn

为了获得准确的评分，我们对训练集执行model.score(X_train，y_train)。model.score(X_val，y_val)用于验证集。现在，在我的例子中，测试数据是一个单独的csv文件。我已经在我的训练和测试数据上应用了模型。我知道训练数据的得分，但在测试数据上找不到分数。下面是我的代码： model_dt = make_pipeline( SimpleImputer(strategy="mean"), DecisionTreeClassifier(random_state=42) ) model_dt.fit(X_train, y_tra

浏览 5提问于2022-08-09得票数 2

2回答

火花ML错误:不正确的否。使用线性SVC时检测到的类的

machine-learning、pyspark、classification、svm、apache-spark-ml

我正在研究一个二进制分类问题，并使用SparkML，我使用随机森林和Logistic回归模型训练和评估我的数据，现在我想检查支持向量机如何对我的数据进行分类。我的训练数据的片段_：- +----------+------+ | spam | count| +----------+------+ | No|197378| | Yes| 7652| +----------+------+ Note:- My dependent variable: 'spam': string (nullable = true) +-----+------+

浏览 1提问于2018-09-04得票数 2

1回答

如果在训练模型时，我的测试精度比训练精度高得多，那好吗？我怎么才能阻止这一切？

machine-learning、pytorch

我的训练代码： import torch from torch.utils.data import DataLoader from torch.utils.tensorboard import SummaryWriter from torchvision import datasets, transforms from CNN import CNNmodel SEED = 5 device = "cuda" if torch.cuda.is_available() else "cpu" BATCH_SIZE = 16 torch.manual_seed(

浏览 0提问于2023-03-28得票数 0

回答已采纳

2回答

我应该将唯一的数据集拆分到一个培训和测试中，还是可以将其中的全部用于回归问题？

regression、data-science、train-test-split

在Kaggle比赛中，我们有一个训练和测试数据集。因此，我们通常在训练数据集上开发一个模型，并使用该算法所看不到的测试数据集对其进行评估。我想知道，如果只给我们一个数据集而没有任何测试数据集，那么验证回归问题的最佳方法是什么。我认为可能有两种方法：在第一步中，在导入数据集之后，将其转换为训练和测试数据集，使用这种方法，算法直到最后一步才能看到测试集。经过预处理和特征工程，我们可以在训练数据集上使用交叉验证技术，或者使用训练测试分割来提高模型的误差。最后，模型的质量可以通过看不见的数据进行检验。也看到，对于回归问题，一些数据科学家使用整个数据集进行测试和验证，我的意思是他们同时使用所有的数据

浏览 1提问于2020-09-04得票数 0

1回答

什么时候用翻转和旋转来增强图像的数据集？

training、methodology

我是机器学习的初学者，所以如果我的问题有点琐碎，我很抱歉。假设我有一个图像数据集，我想对其进行分类，比如说使用一个神经网络。对我来说，尝试通过翻转和旋转图像来增强我的数据集是有意义的，以便获得更多的训练观察结果。在某种程度上，我希望将我的数据集拆分到一个训练集和一个测试集中，并且可能还需要对训练集进行额外的细分以进行交叉验证。我的问题是:何时应该使用翻转/旋转的图像增强数据集？如果我在训练和测试样本中分割数据集之前就这样做了，那么测试样本将包含例如训练样本中的观察结果的旋转，所以我觉得它可能是“受污染的”，并且低于--代表测试错误。对于交叉验证的分割也是一样的。是否就如何进行达成了共识？而

浏览 0提问于2019-05-11得票数 1

1回答

列车测试数据的预处理

machine-learning、data-science

我把X numpy array作为我的特性，把y numpy array作为我的目标。我把它们分成训练数据和测试数据。我从许多QnA中读到，他们只说preprocess训练和测试是分开的。我假设我只对我的特征(X)训练和测试数据这样做，而不是对目标(y)。我们也要preprocess目标吗？

浏览 0提问于2020-03-15得票数 0

4回答

如果测试数据中存在新的因子水平，则R中的随机森林包在预测()期间显示错误。有什么方法可以避免这个错误吗？

r、random-forest

在我的训练数据中，我有30个预测因子水平。在我的测试数据中，同样的预测因子也有30个因子水平，但有些水平是不同的。除非这些水平完全相同，否则randomForest不会预测。它显示错误。表示，predict.randomForest(模型、测试)中的错误训练数据中不存在新的因子水平

浏览 2提问于2013-06-12得票数 4

回答已采纳

3回答

是否可以使用测试数据集来选择模型？

machine-learning

我试图了解测试数据集是否可以用来选择一个经过训练的最终模型。让我们假设这个场景：我首先分割了整个数据集: 70%的训练，30%的测试。然后我拟合了几个模型(假设NN，RandomForest，AdaBoost，.)在训练数据集上进行交叉验证，对超参数进行调优，以获得最佳的列车数据性能。我知道这些分数是有偏见的，因为我调整了这些数据上的超参数。然后，使用测试数据集来获得对无偏数据的真实性能，并选择哪个模型的性能最好。这是使用测试数据集的正确方式吗？一些混淆来自于测试数据集的internet定义：用于对最终模型进行无偏评估的数据样本，适合于培训数据集。似乎它应该只用于获得一个最后训练的模

浏览 0提问于2018-12-27得票数 2

回答已采纳

1回答

如何防止测试数据泄漏到机器学习算法的训练过程中？

machine-learning、training、model-evaluations、data-leakage

我在许多不同的来源中看到，我需要将我的数据分成一个训练集和一个测试集。然后，我必须确保算法只对训练数据进行训练，并尽量避免测试数据泄漏到训练过程中。为了避免学习不重要的数据细节(这将提高算法的泛化能力)，我可以将训练数据进一步分割成适当的训练集和验证集，并选择算法的参数，为所有这些分割提供最佳的平均性能。最后，我在测试集上对我的算法进行了评估，得到了一些数字: MSE，RMSE，等等。但是这些数字是否真的表明，我的算法有多好，并且它们不受测试集的影响？当然，我没有在训练期间使用我的测试数据，但是我得到的算法参数只对这种分割成训练和测试集的参数有效。如果我以不同的方式分割数据，我将得到不同

浏览 0提问于2020-01-23得票数 1

回答已采纳

1回答

Featuretools:在新数据上使用在训练数据中计算的要素

python-3.x、feature-extraction、feature-engineering、featuretools

我想知道如何使用在训练时间中开发的功能对新数据进行预测。有问题的数据集是来自的预约取消数据集考虑一下特性locations.PERCENT_TRUE(no_show)：给定位置过去取消约会的百分比。假设我有新的传入测试数据，其位置与我已经知道这些值的训练数据中的位置相同。如何在测试数据中使用此功能？当然，我可以将测试数据合并到训练数据中，并使用featuretools.dfs()重新计算所有特征，但这很耗时。有没有更简单的方法？

浏览 2提问于2020-03-17得票数 1

1回答

如何在Sklearn中重塑我的测试数据？(特征选择)

python、machine-learning、scikit-learn、feature-selection

我有两个数据集，一个用于培训，另一个用于测试： y_train.shape = (5000, 1)Testing数据只有X_test.shape = (5000, 30)，训练数据有X_train.shape = (5000, 30)。在训练中，我应用了特征选择(SelectKBest())，得到了一个新的形状(5000, 10)。问题从测试数据开始:没有输出，因此我不能应用SelectKBest()，因为它需要y_test。考虑到我的训练数据的新形状和新特性，我如何重塑测试数据？

浏览 0提问于2020-02-05得票数 0

回答已采纳

1回答

KNN给出了K=1最高的准确率？

classification、weka、knn

我正在使用Weka的IBk对文本(Tweet)执行分类。我将训练和测试数据转换到向量空间，当我对测试数据进行分类时，最好的结果来自K=1。训练和测试数据是相互独立的。为什么K=1能给出最好的准确性？

浏览 0提问于2016-04-26得票数 0

1回答

在训练和测试中，一个数据点有不同数量的类别，我该如何处理分类数据？

python-3.x、jupyter-notebook、data-science

我正在做以下Kaggle项目：https://www.kaggle.com/c/house-prices-advanced-regression-techniques。我的问题是，如果测试数据中有分类值的选项，但训练数据中没有，反之亦然。例如，如果数据点a在训练数据中具有选项a、b，但在测试数据中具有选项a、b、c，反之亦然。谢谢你的帮忙! 我只想能够正确地训练和运行我的神经网络。

浏览 19提问于2019-05-03得票数 1

回答已采纳

1回答

范畴数据集的一种热编码:如何处理分类数据中的不同值(减数)

python-3.x、machine-learning、scikit-learn、random-forest、one-hot-encoding

训练数据集总分类栏: 27 测试数据集总分类列: 27 OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False) OH_cols_test = pd.DataFrame(OH_encoder.fit_transform(X_test[test_low_cardinality_cols])) 在编码后，在准备测试数据用于预测时，来自测试数据的列数: 115 列数来自列车数据: 122 我检查了测试数据中的基数，与训练数据列相比，少数列的基数较低。 Train_data.column#1: 2 Test_

浏览 2提问于2019-11-28得票数 2

回答已采纳

1回答

Weka中不兼容的训练和测试集

machine-learning、classification、weka

我有一套训练。我在训练集上执行了以下过滤器，四分位数范围&RemoveWithValues(用于移除异常值和极值)。替换丢失的值。 NumerictoNominal 我使用了带有交叉验证的朴素贝叶斯分类器(10倍)。准确率为62%。拯救了模型。我在测试数据上使用了"NumerictoNominal“过滤器。测试数据缺少值，而且Class属性也是空的。属性的数量和顺序在测试和培训数据中是相同的。当我在Weka中使用提供的测试集选项运行朴素贝叶斯时，我会发现一个错误，即训练和测试数据不兼容。

浏览 2提问于2013-04-01得票数 1

1回答

我的模型训练精度和交叉验证精度之间的差异是否被认为是过分合适的？

scikit-learn、weka

所以我用weka来确定我的训练准确性和交叉验证的准确性。结果表明，我的训练准确率为84.9167 %，交叉验证正确率为83.9167 %。我还尝试用sklearn来确定我的训练和交叉验证的准确性，给出了以下结果: 83.5%的训练和82.67%的交叉验证精度。训练精度和交叉验证精度之间的差异是否足以考虑我的模型是否过分合适？

浏览 0提问于2022-02-01得票数 0

1回答

pyspark-2.3 sparkml模型加载问题

python、apache-spark、apache-spark-ml

我正在做一个样例pyspark ml练习，其中我需要存储一个模型并将其读回来。我能够成功地保存模型，但当我试图读取/加载它时，它抛出了下面的异常。我是spark ml和python的新手，请在这方面指导我。代码： from pyspark.sql import * from pyspark.ml.feature import RFormula from pyspark.ml.classification import LogisticRegression from pyspark.ml import Pipeline from pyspark.ml.tuning import ParamGr

浏览 0提问于2018-12-12得票数 0

1回答

如何使用非常小的训练、测试和验证数据集来度量模型的特异性的可靠性？

machine-learning、statistics、generalization

这里是新手。我有一个小的数据集646个样本，我已经训练了一个合理的性能模型(~99%的测试和瓦尔的准确性)。让事情变得更复杂一点的是，这些类有些不平衡。这是一个二元分类问题。这是我对训练数据的混淆矩阵。 [[387 1] [ 1 73]] 关于测试数据： [[74 1] [ 0 10]] 关于验证数据： [[85 1] [ 0 13]] 训练特异性：.986 检测特异性：.909 验证特异性：.928 我认为测试和验证的特异性很低，而训练的特异性相对较高。然而，考虑到在测试和验证数据集中只遗漏了一个样本，我的真实世界的特异性是什么？是否有更好的泛化措施？给定负样本类的大小，

浏览 0提问于2019-03-04得票数 0

1回答

当训练集具有比测试集更多不同的因素级别时，randomForest不工作。

r、random-forest

当尝试在比我的培训数据更少的新测试数据上测试经过训练的模型时，predict()返回以下内容：新数据中的预测器类型与培训数据的类型不匹配。我的训练数据有一个包含7个因子级别的变量，而我的测试数据有相同的6个因子级变量(所有6个都在训练数据中)。当我添加一个包含“缺失”第7因子的观察时，模型就会运行，所以我不知道为什么会发生这种情况，甚至不知道背后的逻辑。我可以看到测试集是否有更多/不同的因素级别，那么randomForest会窒息，但是为什么在训练集有“更多”数据的情况下呢？

浏览 3提问于2014-07-21得票数 5

回答已采纳

2回答

如何利用测试数据量化分类器(多类SVM)的性能？

svm、matlab、confusion-matrix

我正在使用比利时交通标志数据集在MATLAB中编写交通标志识别代码。数据集由培训数据和测试数据组成。我使用VL_HOG函数从VL_feat库中调整给定图像的大小并提取HOG特征，然后使用训练数据集中的所有标记训练多类支持向量机。我特别感兴趣的是探测到8个信号。问题1:我是否应该只使用这8个符号的训练集来训练模型，还是用整个训练数据集来训练模型，而忽略我在检测阶段不感兴趣的迹象？在训练多类支持向量机时，我想利用测试数据测试分类器的性能.问题2:有人能指导我如何做到这一点吗？我发现了一些与我正在寻找的可用这里类似的东西。如果我能获得定量数据，如百分比形式的混淆矩阵，那就太好了。谢谢!

浏览 0提问于2018-05-14得票数 0

3回答

测试/培训拆分-是否总是有必要(监督学习)？

machine-learning、dataset、machine-learning-model

我目前正在研究我的第一个机器学习模型( Penguins数据集)。我将训练三种机器学习模型，每个模型使用不同的模型结构(决策树、随机森林和梯度提升)，并相互比较。我知道，在我的特殊情况下，如果我想比较三种不同型号的精度，测试/列车分割将是必要的。但是，是否总是需要将数据集划分为训练集和测试集？让我们以随机森林算法为例--我们可以使用OOB评分来评估我们的模型，并在不执行训练/测试分割的情况下执行实际的测试。由于我们的训练集中已经有一堆样本不会实际用于训练，所以我认为使用它们进行测试是个好主意，而不是通过显式地将训练集分割成训练/测试集来减少训练集。我认为，当我们拥有小型数据集(例如Palme

浏览 0提问于2021-12-15得票数 1

1回答