使用Pyspark进行交叉验证

Pyspark是一个基于Python的Apache Spark API，它提供了处理大规模数据的分布式计算能力。使用Pyspark进行交叉验证是一种常见的模型评估方法，用于评估机器学习模型的性能和泛化能力。

交叉验证（Cross-validation）是一种将数据集划分为训练集和验证集的技术。它将数据集分成多个子集，然后每个子集轮流作为验证集，其他子集作为训练集。通过多次迭代训练和验证，可以更好地评估模型在不同数据子集上的表现，从而减少对特定数据集的依赖性，并更好地估计模型的性能。

使用Pyspark进行交叉验证的一般步骤如下：

导入必要的库和模块：

from pyspark.ml import Pipeline
from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml.tuning import ParamGridBuilder, CrossValidator

定义模型和参数：

from pyspark.ml.classification import RandomForestClassifier

# 定义随机森林分类器
rf = RandomForestClassifier()

# 定义参数网格
paramGrid = ParamGridBuilder() \
    .addGrid(rf.maxDepth, [5, 10, 20]) \
    .addGrid(rf.numTrees, [10, 20, 30]) \
    .build()

定义交叉验证评估器和管道：

# 定义二分类评估器
evaluator = BinaryClassificationEvaluator()

# 定义交叉验证器
crossval = CrossValidator(estimator=rf,
                          estimatorParamMaps=paramGrid,
                          evaluator=evaluator,
                          numFolds=3)

使用交叉验证进行模型训练和选择：

# 训练模型
cvModel = crossval.fit(train_data)

# 选择最佳模型
bestModel = cvModel.bestModel

在上述步骤中，我们首先导入了必要的库和模块，然后定义了一个随机森林分类器和一组参数网格。接下来，我们定义了一个二分类评估器和一个交叉验证器，并指定了交叉验证的折数。最后，我们使用交叉验证器对训练数据进行训练，并选择在验证集上性能最佳的模型作为最终模型。

Pyspark的交叉验证功能可以应用于各种机器学习模型和数据集，适用于多个领域和行业，特别是在大规模数据处理和分布式计算方面具有优势。如果您希望在腾讯云上使用Pyspark进行交叉验证，您可以考虑使用腾讯云提供的弹性MapReduce（EMR）服务，该服务提供了Spark的分布式计算能力。

参考链接：

Pyspark官方文档：https://spark.apache.org/docs/latest/api/python/index.html
弹性MapReduce（EMR）产品介绍：https://cloud.tencent.com/product/emr

使用CrossValidator和ParamGridBuilder找到最佳管道模型

、、、、

我有一个可以接受的模型，但我想通过调整它的参数在CrossValidator和ParamGridBuilder的Spark管道中进行改进。作为一名估计者，我将把现有的管道。在ParamMaps中，我不知道该放什么，我不明白。作为评估器，我将使用前面已经创建的RegressionEvaluator。我要做5倍，在树中列出10个不同的深度值。如何为最低的RMSE选择和显示最佳模型？实际例子： from pyspark.ml import Pipeline from pyspark.ml.regression import DecisionTreeRegressor

浏览 0提问于2018-05-23得票数 0

回答已采纳

1回答

如何在PySpark MLlib中确定随机森林算法的树数参数？

、、、、

我正在研究Random Forest algorithm in PySpark MLlib，并且对传递给模型的树参数的数量有疑问。Random Forest modeling在PySpark MLlib中的标准格式是： model = RandomForest.trainRegressor(trainingData, categoricalFeaturesInfo={}, numTrees=3, featureSubsetStrategy="auto",

浏览 0提问于2016-01-21得票数 2

1回答

CrossValidation线性回归梯度下降

、、、

我正试图在pyspark中对SGD模型执行交叉验证，我正在使用来自pyspark.mllib.regression、ParamGridBuilder和CrossValidator的pyspark.mllib.regression、ParamGridBuilder和CrossValidator的交叉验证，它们都来自pyspark.ml.tuning库。在跟踪了星火网站上的之后，我希望运行这个程序可以工作 lr = LinearRegressionWithSGD() pipeline=Pipeline(stages=[lr]) paramGrid = ParamGridBuilder()\

浏览 2提问于2017-10-30得票数 1

1回答

理解python中Spark的LinearRegressionWithSGD示例中的问题？

、、、、

因此，我是machine learning和Spark的新手，并且正在阅读关于Regression的MLlibs文档，特别是LinearRegressionWithSGD at 。我在理解python代码方面遇到了一些困难。这里提供了我到目前为止所理解的信息--代码加载数据，然后形成labeledpoint。然后建立模型，根据训练数据对模型进行评价，并计算出MSE值。现在，让我困惑的是，在正常的machine learning过程中，我们首先将数据划分为训练集和测试集。利用训练集建立模型，最后用测试集对模型进行评价。现在，在Spark文档的代码中，我没有看到任何关于训练和测试集的划分。最重要

浏览 4提问于2015-09-15得票数 3

回答已采纳

2回答

集成scikit-learn与pyspark

、、

我正在探索pyspark和整合scikit-learn与pyspark的可能性。我想使用scikit-learn在每个分区上训练一个模型。这意味着，当我的RDD被定义并分布在不同的工作节点上时，我想使用scikit-learn并在每个工作节点上存在的每个分区上训练一个模型(假设是一个简单的k- means )。由于scikit-learn算法需要一个Pandas数据帧，所以我最初的想法是为每个分区调用toPandas，然后训练我的模型。但是，toPandas函数将DataFrame收集到驱动程序中，这不是我想要的。有没有其他方法可以达到这个目标呢？

浏览 4提问于2016-07-04得票数 4

1回答

PySpark中的分层交叉验证

、

我正在使用python中的Apache Spark API，PySpark (--version 3.0.0)，理想情况下，我希望以分层的方式执行标记数据的交叉验证，因为我的数据非常不平衡！我目前正在使用下面的模块。 from pyspark.ml.tuning import CrossValidator 在scikit-learn中，这可以通过定义一个StratifiedKFold并将其放在任何网格搜索函数的cv参数中来实现。这确保了训练给定估计器的每个K倍都以比例表示的方式包含标记的数据。在PySpark中有没有等价物呢？ < rant>我很乐意向Spark团队提出这个问题

浏览 23提问于2020-09-01得票数 1

1回答

有没有办法在没有参数网格的情况下使用spark MLLib CrossValidator？

、、、

我想使用交叉验证，而不是普通的验证集方法，作为一种更好地估计测试错误率的方法。我使用的是基于spark-MLLib Dataframe的API。但是，如果我运行以下代码- cv = tuning.CrossValidator(estimator=randomForestRegressor, evaluator=evaluator, numFolds=5) cv_model = cv.fit(vsdf) 我得到了错误- KeyError Traceback (most recent call last) <ipython-i

浏览 36提问于2021-09-12得票数 1

4回答

隐式pyspark.ml ALS矩阵分解模型参数的pyspark.ml CrossValidator整定

、、、

我试图调优使用隐式数据的ALS矩阵因式分解模型的参数。为此，我尝试使用pyspark.ml.tuning.CrossValidator在参数网格中运行并选择最佳模型。我相信我的问题是在评估者，但我无法解决它。对于使用回归RMSE评估器的显式数据模型，我可以这样做，如下所示： from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext from pyspark.ml.recommendation import ALS from pyspark.ml.tuning import CrossValid

浏览 4提问于2016-05-16得票数 15

3回答

电火花: CrossValidator不工作

、、、

我试图调优ALS的参数，但总是选择第一个参数作为最佳选项 from pyspark.sql import SQLContext from pyspark import SparkConf, SparkContext from pyspark.ml.recommendation import ALS from pyspark.ml.tuning import CrossValidator, ParamGridBuilder from pyspark.ml.evaluation import RegressionEvaluator from math import sqrt from opera

浏览 8提问于2016-07-17得票数 2

回答已采纳

1回答

Spark实现Scala的并行交叉验证

、、、

Pyspark提供了一个很大的可能性，可以通过将模型的交叉验证并行化，简单地用 from spark_sklearn import GridSearchCV 我如何才能实现类似的功能，斯派克的Scala CrossValidator，即并行化每一个折叠？

浏览 1提问于2017-01-05得票数 3

回答已采纳

2回答

基于火花的超参数整定

、、

我正在处理一个数据集，我使用线性回归来拟合一个模型。在注销之前，我想尝试使用超参数调优来获得最佳可用模型。我一直在通过管道运行数据，首先将字符串转换为数字，然后对其进行编码，然后向量化所有列，然后在应用线性回归之前对其进行缩放。我很想知道如何设置网格来启动超参数滚球(可以这么说)。 import pyspark.ml.feature as ft WD_indexer = ft.StringIndexer(inputCol="Wind_Direction", outputCol="WD-num") WD_encoder = ft.OneHotEncoder(in

浏览 1提问于2018-02-16得票数 4

1回答

方法用于PySpark DataFrame的所有行。

、、

浏览 0提问于2018-04-26得票数 0

回答已采纳

1回答

从网格搜索中获取模型的cross_validation_holdout_predictions()

我正试图用一种不同的方式来计算性能，它现在是如何为模型内置的。我想访问交叉验证期间的原始预测，这样我就可以自己计算性能了。 g = h2o.get_grid(grid_id) for m in g.models: print "Model %s" % m.model_id rrc[m.model_id] = m.cross_validation_holdout_predictions() 我可以用数据集上的模型运行预测，但我认为这个测试可能会有偏差，因为模型以前见过这些数据，还是没有呢？我是否可以对同一数据集进行新的预测，并使用它来计算性能？

浏览 2提问于2017-09-16得票数 2

回答已采纳

1回答

Pyspark ML:如何使用CrossValidator()获取subModels值

、、

我想使用PySpark end ML库获得cross-validation的(内部)训练精度： lr = LogisticRegression() param_grid = (ParamGridBuilder() .addGrid(lr.regParam, [0.01, 0.5]) .addGrid(lr.maxIter, [5, 10]) .addGrid(lr.elasticNetParam, [0.01, 0.1]) .b

浏览 10提问于2019-07-13得票数 1

回答已采纳

1回答

何时使用交叉验证？

、、

Cross-validation 嗨，我正在使用Weka在我的MSc论文中部署机器学习模型。我已经注意到，当我在训练数据集中使用10倍交叉验证时，与在整个数据集上没有交叉验证的情况下训练模型相比，我得到了较低的评估指标，如果我在测试数据集上测试该模型时获得更好的性能，这将是有意义的，然而，它保持相同的性能。例如，我为一个回归问题训练了一个随机森林模型，这些是我得到的结果： 1.没有交叉验证：培训： R = 0.97; Mae = 1.31; Rmse = 1.78 测试： R = 0.91; Mae = 2.70; Rmse = 3.57 2.具有10倍交叉验证：培训： R = 0.76;

浏览 0提问于2021-01-23得票数 0

1回答

(pyspark.ml)对ALS模型进行CrossValidator错误的调优！：需求失败:没有向该摘要程序添加任何内容

、、、

我试图调优ALS矩阵分解模型的参数。因此，我使用pyspark.ml.tuning.CrossValidator在参数网格中运行，并选择最佳模型。但是在使用CrossValidator进行调优时，我总是会出现错误.. 错误如下图所示，参考中的答案，当从ALS模型中的有效数据推断非列车数据的用户时，似乎会发生错误。另外，参考，假设CrossValidator会导致错误，当拟合错误在多个节点上并行运行时停止主线程，但我不知道如何解决它。当我直接使用for语句应用GridSearch时，没有错误，所以我不知道为什么下面的错误只发生在CrossValidator中。此外，ALS超参数cold

浏览 15提问于2022-06-03得票数 1

1回答

如何在python/sklearn中交叉验证来自随机森林的预测？

、、

请有人告诉我，如果这是正确的方法，计算交叉验证的精度我的分类器？我将我的数据集划分为训练数据的xtrain和ytrain，以及测试集的xtest & ytest。构建模型： RFC = RandomForestClassifier(n_estimators=100) 适合于训练集的： RFC.fit(xtrain, ytrain) ，这是我不确定的部分： scores = cross_val_score(RFC, xtest, ytest, cv = 10, scoring='precision') 使用上面的代码，“分数”会给我在我的模型上的精确性，而我的模型是关于

浏览 8提问于2015-07-04得票数 3

1回答

Pyspark错误:要求失败:列必须是numeric类型，但实际上是字符串错误类型

、

我尝试将pandas数据帧转换为PySpark格式 mySchema = StructType([ StructField("movieId", IntegerType())\ ,StructField("title", StringType()), StructField("userId", IntegerType()), StructField("rating", FloatType())

浏览 1提问于2021-06-12得票数 0

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame 注意:我之所以使用pyspark列，是因为我从我使用的库(远大期望)中获得了它的输入。 @column_condition_partial(engine=SparkDFExecutionEngine) def _spark(cls, column, ts_formats, **kwargs): return column.isin([3]) # need to replace the abov

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

Spark中的随机森林

、、、、

因此，我尝试将某些文本文档分为三类。我在spark中编写了下面的交叉验证代码 from pyspark.ml.tuning import CrossValidator, ParamGridBuilder from pyspark.ml.evaluation import MulticlassClassificationEvaluator # Define a grid of hyperparameters to test: # - maxDepth: max depth of each decision tree in the GBT ensemble # - maxIter: iter

浏览 1提问于2017-01-28得票数 0

1回答

栅栏模型的验证？

、

我构建了一个栅栏模型，然后使用该模型通过预测命令从已知数据点预测到未知数据点。有没有办法验证模型和这些预测？我是否必须分两部分来做这件事，例如使用模型的二项式部分的敏感性和特异性？关于如何评估此模型的有效性，还有其他想法吗？

浏览 1提问于2016-11-14得票数 0

1回答

交叉验证有多少倍？

22680次观测数据集上的交叉验证。希望培训设置包含21420个条目。您的交叉验证可以使用多少个折叠？你怎么计算褶皱？

浏览 0提问于2015-10-08得票数 1

2回答

从带有帐户密钥认证和ABFS驱动程序的Synapse笔记本中读取ADLS

、、、、

我试图在Synapse中从ADLS Gen2读取一个文件，并希望使用帐户密钥进行身份验证。中，以下内容应该有效，但在Synapse中不起作用： spark.conf.set(f"fs.azure.account.key.{adls_account_name}.dfs.core.windows.net", adls_account_key) 我想按照的建议使用ABFS驱动程序：优化驱动程序: ABFS驱动程序是专门针对大数据分析而优化的。相应的REST通过端点dfs.core.windows.net出现。不起作用的是：当我使用pyspark+ABFS并在Syn

浏览 13提问于2022-02-23得票数 0

回答已采纳

2回答

利用matlab中交叉验证的Knn分类器模型预测新数据集(测试数据)的标签

、、、、

我有一个训练数据集(50000×16)和测试数据集(5000×16)，这两个数据集中的第16列是决策标签或响应。测试数据集中的决策标签用于检验训练分类器的分类精度。我使用我的训练数据来训练和验证我的交叉验证的knn分类器。我使用以下代码创建了一个交叉验证的knn分类器模型： X = Dataset2(1:50000,:); % Use some data for fitting Y = Training_Label(1:50000,:); % Response of training data %Create a KNN Classifier model rng(10); % For rep

浏览 4提问于2016-05-06得票数 1

回答已采纳

2回答

结合不同的训练和测试数据集使用sklearn的cross_val_score

、、、、

关于以下简短的代码片段，我有一个简短的问题(我的sklearn版本(从其中导入cross_val_score和LinearDiscriminantAnalysis )是1.1.1)： cv_results = cross_val_score(LinearDiscriminantAnalysis(),data,isTarget,cv=kfold,scoring='accuracy') 我试图在'data‘变量和'isTarget’变量上训练一个isTarget ML算法，这两个变量分别是ML数据集中样本特性的numpy数组和一个样本为目标(1)或非目标(0)的列表

浏览 5提问于2022-06-17得票数 0

回答已采纳

2回答

libsvm中的交叉验证

、、、

我在我的项目中使用libsvm库，最近发现它提供了开箱即用的交叉验证。我正在查看文档，它清楚地说明我必须调用带有-n开关的svm-train才能使用CV功能。当我使用-v开关调用它时，我无法获得svm-predict所需的模型文件。从头开始实现支持向量机超出了我的项目范围，所以如果它坏了，我宁愿修复它，或者向社区寻求支持。有人能帮上忙吗？这是用C和C++实现的，这是。

浏览 5提问于2011-03-05得票数 2

回答已采纳

1回答

什么时候对测试数据也进行模型的训练是个好主意？

、、、

我有一个小的受限制的数据集，它不是很小，但是如果我有更多的数据，它的准确性会更好。我把它分割成训练和测试数据集: 85%/15%。我选择了神经网络模型，并训练了它，测量损失，它是好的。现在我应该在生产中使用它。我是否应该对测试数据进行额外的培训，因为这样我就能获得更好的准确性。

浏览 0提问于2018-03-10得票数 0

2回答

在插入符号R中随机选择10%的训练集进行交叉验证

、

我有一个类似如下的模型： library(mlbench) data(Sonar) library(caret) set.seed(998) my_data <- Sonar fitControl <- trainControl( method = "cv", number = 10, classProbs = T, savePredictions = T, summaryFunction = twoClassSummary ) model <- train( Class ~ ., data =

浏览 17提问于2018-01-31得票数 2

回答已采纳

1回答

K折叠交叉验证/分区模型

、、

我有41个样本和6个预测因子的数据集。在Matlab中，我使用了树作为分类树。尽管oob误差很高，但该模型对41个标签进行了准确的预测。但在此基础上，我尝试用k折叠交叉验证模型，验证准确率仅为41%。我对此感到困惑。我的另一个问题是，当我试图交叉验证一个已经建立的集成模型时，k折叠算法是如何工作的。任何帮助都会很感激的。

浏览 0提问于2018-04-02得票数 0

回答已采纳

1回答

天蓝色ML中的K-折叠交叉验证

、、、

目前，我正在使用使用sdk构建的azure管道来训练模型。我正试图在我的ml步骤中添加交叉验证。我注意到，您可以在配置autoML时将其添加到参数中。我的数据集由30%标签0和70%标签1组成。我的问题是，在执行交叉验证时，azure autoML是否分层数据？如果不是，在将其传递给autoML之前，我必须自己进行拆分/分层。

浏览 3提问于2022-09-15得票数 0

1回答

使用r和weka。如何将元算法与nfold评估方法一起使用？

、、、

下面是我的问题的一个例子 library(RWeka) iris <- read.arff("iris.arff") 执行nfolds以获得正确的分类器精度。 m<-J48(class~., data=iris) e<-evaluate_Weka_classifier(m,numFolds = 5) summary(e) 此处提供的结果是通过使用数据集的一部分构建模型并使用另一部分进行测试来获得的，因此可提供准确的精度现在我执行AdaBoost来优化分类器的参数 m2 <- AdaBoostM1(class ~. , data = temp ,cont

浏览 4提问于2010-10-06得票数 4

回答已采纳

1回答

对CRFSuite使用k折交叉验证，并将其保存在模型文件中

、、

我是CRFSuite库的新手，但我知道如何训练模型并将其保存到文件中，这要归功于"-m“选项。然而，我试图掌握de k-折叠交叉验证，但是"-m“选项似乎不能将de进程保存在文件中。该命令根本不创建模型文件。我可以举一个简单的例子来说明k折交叉验证在CRFSuite中的良好使用，它将流程写入一个文件(不是日志文件，而是模型文件)。在文档中，作者解释了如何进行k折叠交叉验证，但没有指定保存模型的文件。我真的想知道，如果我们不保存生成的模型，为什么要执行交叉验证…… 我在这里找到了关于CRFSuite的文档：但这还不足以满足我的需求。谢谢。

浏览 15提问于2014-12-09得票数 1

1回答

如果Spark evaluator只返回1个值，为什么它有avgMetrics属性？

、

我使用在PySpark中检索一些指标，如F1-Score或accuracy in a Cross Validation： cross_result = CrossValidator(estimator=RandomForestClassifier(), estimatorParamMaps=ParamGridBuilder().build(), evaluator=MulticlassClassificationEvaluator(metricName='f1'

浏览 38提问于2021-06-01得票数 0

回答已采纳

1回答

R glm -如何进行多重交叉验证

、

我有训练数据，我随机分成两部分： 70% -> train_train 30% -> train_cv (用于交叉验证) 我使用train_train拟合glm (glmnet)模型，然后与train_cv交叉验证. 我的问题是，对于train_train和train_cv，不同的随机分割返回不同的交叉验证结果(使用曲线下的面积“AUC”进行评估)：第一次为0.6381583 第二次AUC = 0.6164524 有没有一种方法可以运行多个交叉验证，而不重复代码？

浏览 5提问于2014-05-14得票数 3

回答已采纳

2回答

我们是在cross_val_score上评估准确性，然后评估测试数据的准确性吗？

、、、、

嗨，如果我们要用以下方法来评估cv的准确性： X_train, X_test, y_train, y_test = train_test_split( X, y, random_state=42) model=RandomForestClassifier(random_state=0) k_folds = KFold(n_splits=5) splits = k_folds.split(X_train, y_train) cv_acc = cross_val_score(model, X_train, y_train, cv=splits, scoring='accurac

浏览 3提问于2020-09-14得票数 1

回答已采纳

7回答

如何从spark.ml中提取PySpark中的模型超参数？

、、、、

我正在修改PySpark文档中的一些交叉验证代码，并试图让PySpark告诉我选择了什么模型： from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import BinaryClassificationEvaluator from pyspark.mllib.linalg import Vectors from pyspark.ml.tuning import ParamGridBuilder, CrossValidator dataset = sqlContext.creat

浏览 9提问于2016-04-18得票数 36

回答已采纳

1回答

cross_val_predict后新文档的分类

、、、、

我有一个大约10,000条推文的样本，我想将其分类为“相关”和“不相关”两个类别。我正在使用Python的scikit-为这个模型学习。我手动编码1000条推文为“相关”或“不相关”。然后，以80%的人工编码数据作为训练数据，其余作为测试数据，运行支持向量机模型。我获得了很好的结果(预测精度~0.90)，但为了避免过度拟合，我决定对所有1000个手工编码的tweet进行交叉验证。下面是我的代码，在我的样本中已经获得tf矩阵的tweet之后。"target“是一个数组，列出了tweet是否被标记为”相关“或”不相关“。 from sklearn.linear_model import

浏览 15提问于2017-01-23得票数 2

回答已采纳

1回答

如何在R中正确使用plsr()？

、

我正在学习R中的plsr，遇到了几个让我困惑的不同的例子。在以下两种方法中，我看到了两种方法来拟合和找到最佳数量的部件。我只想知道哪一种是合适的，哪一种更好？ 1)假设我们有一个叫做数据的数据，它被划分为列车数据data.train和测试数据data.test。然后，将plsr安装为 plsr.fit = plsr(formula, data = data.train, validation = "CV", scale = TRUE) summary(plsr.fit) 然后根据最小的ncomp值求出CV值。 2)不分割任何数据，只需将模型拟合成完整的数据。 plsr(form

浏览 4提问于2017-07-19得票数 0

回答已采纳

1回答

使用相同的参数，GridSearchCV的性能比香草支持向量机差。

、、、、

社区。我正在编写一些ML代码，以便将一些数据分类为组。我尝试了不同的方法，但当我得到支持向量机时，我遇到了这个问题。我有一个简单的数据集(3个类，6个特征)，当我使用具有固定参数的支持向量机(C=10，gamma=1)并对相同的数据进行预测时，我得到了100%的准确性(这些可能是过拟合的向量，但这是另一个问题)。我发现很难理解的是，然后我尝试了GridSearchCV (sklearn.model_selection.GridSearchCV)，对C和γ，从10^-5到10^5的所有幂都进行了扫描(当然包括C=10和gamma=1)，结果是best_params：C= 10 ^-5和

浏览 1提问于2018-10-22得票数 0

1回答

获得良好的交叉验证分数，但Roc_auc分数非常低

、、、

我对此非常陌生，所以任何类型的信息都会有所帮助。抱歉，如果我问了一个非常琐碎的问题。我正在处理一个中等大小的数据集，其中有很多零。我们已经应用了很多模型，k=10的cv-skf得分已经超过了0.85，但roc_auc得分却停留在0.5左右。我正在使用sklearn。下面是代码片段。 train_dataset = pd.read_csv('./input/train.csv', index_col='ID') test_dataset = pd.read_csv('./input/test.csv', index_col='ID'

浏览 0提问于2016-03-25得票数 0

5回答

交叉验证和网格搜索有什么区别？

、、、

简单地说，交叉验证和网格搜索的区别是什么？网格搜索是如何工作的？我是不是应该先做交叉验证，然后再做网格搜索？

浏览 17提问于2013-10-12得票数 53

1回答

Maxent中具有更多折叠的K-折叠交叉验证

、

您好，我正在使用MacMac3.4.0版本的Maxent软件，我想了解一个关于k-折交叉验证的问题。基本上，我知道我的数据集被分成k个折叠，每个折叠或多或少都有相同的大小。因此，如果我的数据集有100个观察值，10次交叉验证将把数据集分成10个观察值，Maxent将训练10个模型，每个模型有9个观察值，第10个模型将对其进行测试。我的问题是:我可以将我的数据集拆分成10倍以上(例如50倍)，但每个折叠有10个观察值吗？当然，在这种情况下，不会使用一次实例，而是使用它们在不同的文件夹中出现的次数。我能做到吗(没有命令行，我不知道如何使用它)？结果会有意义吗？

浏览 60提问于2020-12-07得票数 1

2回答

如果您已经知道模型中的预测器，那么回归是否需要交叉验证？

、

假设您想要建模Y= X1 + X2的行为，并且您知道这是您想要建立的模型。这是否能很好地接近真正的关系尚不得而知。但是既然你想要有系数来解释Xi是如何影响Y的，你就建立了一个回归模型。您不打算添加/减去预测器(因为您没有任何额外的数据)，也不打算将该模型与另一个模型进行比较(没有其他模型允许解释)。仍然使用样本分割或交叉验证是否有意义？如果你做交叉验证，你平均系数吗？或者你能不能用你的全部数据来训练模型。谢谢!

浏览 0提问于2020-11-09得票数 1

回答已采纳

1回答

交叉验证:培训/测试集必须分开吗？

、、、、

假设我想使用随机森林模型来预测未来的数据。我正在考虑两种方法来训练这个模型，选择最好的超参数，并将这个模型投入生产。这两种方法的不同之处在于，第一种方法将数据分割成训练和测试集，而第二种方法没有。这两种方法我都能用吗？其中一种比另一种更好吗？我想第二种方法的一个缺点是，没有公正的性能评估，但这真的重要吗？ 1) modelUse 将数据分解为列车和测试集(80/20)，在列车数据集上使用k重交叉验证，选择在k个验证集上性能最好的超参数。对完全训练数据的最佳模型<代码>H 19</代码>得到测试集上的无偏性能评估<代码>H 210</代码>&l

浏览 9提问于2020-11-20得票数 0

1回答

K-折叠交叉验证和样本外交叉验证

、、、、

K-fold cross validation和Out of sample cross validation有什么区别？你能用几句话来描述每种简历方法的步骤吗？

浏览 3提问于2020-05-13得票数 0

1回答

SpaCy 3交叉验证

、、

我在猜测是否有一些内置选项将SpaCy 3与k-folds交叉验证结合使用。我想在一个大约为10倍的数据集上运行10折交叉验证。17.5k职位描述，最终获得最佳性能模型。文档中没有任何关于这些选项的信息。如果该选项不存在，我想我可以手动解决一些问题。提前感谢！

浏览 1提问于2021-05-18得票数 2

1回答

Libsvm参数(c，g，p)搜索

、、

有没有办法在MATLAB中找到回归的libsvm参数(c，g，p)？用gridgregression.py可以找到它们，但是如果我们想在Matlab中使用它们呢？导出列车x和y矩阵并通过gridregression.py查找参数有点费时。

浏览 0提问于2013-11-21得票数 0

1回答

帮助理解交叉验证。

、

我对交叉验证的理解是，我们将数据集划分为第1-k部分，然后使用第1部分作为验证集，第2-k部分作为培训集，然后使用第2部分作为验证集，其余部分作为培训集等等，直到我们使用每个部分作为验证集。我不完全明白的是：这里的实际目标是什么？我知道我们平均要做k轮交叉验证，但是我们的输出是什么？我读到过，在计算验证错误之后，我们放弃了每一轮的结果，那么我们如何从这个结果产生一个模型呢？验证和测试集(如果有的话)有什么区别？也就是说，我们通常将我们的数据分为培训数据和测试数据，但是我们是将我们的培训数据进一步划分为验证集，并在交叉验证过程中将我们的测试数据放在一边，还是对整个数据集进行交叉验证？

浏览 0提问于2019-05-07得票数 2

回答已采纳

1回答

如何对机器学习模型进行物理测试？

我是机器学习的新手。我已经实现了一个机器学习模型，它检测声音(例如:喇叭、警报器、锤子等)并预测声音的类型。我必须在任何物体的实际声音上对模型进行物理测试。我该怎么做？

浏览 0提问于2018-07-12得票数 -2

1回答

使用scikit-learn对文本文档进行分类的交叉验证

、、

在使用scikit-learn对文本文档进行分类时，您是先进行交叉验证，然后再进行特征提取，还是采用其他方式？以下是我的工作流程： union = FeatureUnion( transformer_list = [ ('tfidf', TfidfVectorizer()), ('featureEx', FeatureExtractor()), ('spell_chker', Spellingchecker()), ], n_jobs = -1) 我用下面的方法来做，但是我想知道我是否应该首先提取特征并进行交叉验证。在本例中，X是文档列

浏览 2提问于2015-09-23得票数 0