Pyspark k重交叉验证平均RMSE

在PySpark中，我们可以使用pyspark.ml.evaluation.RegressionEvaluator和pyspark.ml.tuning.CrossValidator来进行k重交叉验证并计算平均RMSE。以下是一个示例：

from pyspark.sql import SparkSession
from pyspark.ml.regression import LinearRegression
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.evaluation.RegressionEvaluator
from pyspark.ml.tuning.CrossValidator, CrossValidatorModel
from pyspark.ml.tuning.ParamGridBuilder

# 创建Spark会话
spark = SparkSession.builder.appName("K-Fold Cross Validation").getOrCreate()

# 加载数据
data = spark.read.csv("your_data.csv", header=True, inferSchema=True)

# 假设数据中包含特征列和一个目标列"target"
feature_cols = data.columns[:-1]
assembler = VectorAssembler(inputCols=feature_cols, outputCol="features")
data = assembler.transform(data).select("features", "target")

# 创建线性回归模型
lr = LinearRegression(featuresCol="features", labelCol="target")

# 创建评估器
evaluator = RegressionEvaluator(labelCol="target", predictionCol="prediction", metricName="rmse")

# 创建参数网格
paramGrid = ParamGridBuilder() \
    .addGrid(lr.regParam, [0.1, 0.01]) \
    .addGrid(lr.elasticNetParam, [0.0, 0.5, 1.0]) \
    .build()

# 创建k重交叉验证对象
k = 5
crossValidator = CrossValidator(estimator=lr,
                                  estimatorParamMaps=paramGrid,
                                  evaluator=evaluator,
                                  numFolds=k)

# 训练模型
cvModel = crossValidator.fit(data)

# 获取最佳模型
bestModel = cvModel.bestModel

# 使用最佳模型进行预测
predictions = bestModel.transform(data)

# 计算RMSE
rmse = evaluator.evaluate(predictions)
print("Root Mean Squared Error (RMSE):", rmse)

# 关闭Spark会️话
spark.stop()

在这个示例中，我们首先加载数据并将其转换为适合模型训练的格式。然后，我们创建一个线性回归模型、一个评估器和一个参数网格。接下来，我们创建一个k重交叉验证对象，并使用它来训练模型。最后，我们使用最佳模型进行预测，并计算RMSE。

Pyspark k重交叉验证平均RMSE

、

我使用Pyspark在数据集上运行线性回归和k重交叉验证。目前我只能确定最佳模型的均方根误差。但我想要在交叉验证中评估的所有模型的平均RMSE。如何在交叉验证中获得所有评估模型的平均RMSE？from pyspark.ml.regression import LinearRegression from pyspark.ml.ev

浏览 9提问于2018-12-17得票数 2

1回答

不同尺寸多个测试集RMSE的比较

、、、

虽然从本能上看，选择一个产生最低RMSE的窗口大小似乎是显而易见的，但我如何确保比较是公平的呢？如果没有，那么应该如何选择最佳的培训窗口？

浏览 0提问于2021-08-13得票数 0

1回答

用插入符号交叉验证计算样本内预测精度

、、

我想计算样本内和样本外预测的某些指标的准确性，所有同时使用插入符号的k-折叠交叉验证。lev = NULL, c(RMSEcv_linear_model <- train(y~., data = full_df, method = "lm", trControl = train.Control) 这应该给

浏览 3提问于2020-10-15得票数 0

回答已采纳

1回答

R包插入:如何访问培训和测试数据的结果？

、、、

Resampling results: 6048.516 0.7443666 4203.6531.)卡雷特正在进行20倍的交叉验证。是存储在中的所有测试数据结果的平均值。总体上:我的目标是比较模型在训练数据和测试数据上的性能。但我不知道怎样才能两者兼得。

浏览 7提问于2022-12-04得票数 0

1回答

PySpark: CrossValidator.avgMetrics与collectSubModels计算平均值之间的不一致性

、、、

更具体地说，我在9个不同的设置上运行了5倍的交叉验证，这是由两个超参数(每个参数为3个值)组合产生的，并且通过将collectSubModels标志设置为True来跟踪所有45个最终的模型。) (即每个折叠的9个模型)并且我尝试“手动”计算每个折叠的平均值之外，所有这些都运行得很顺利，得到的9个平均值与我使用CrossValidator的内部avgMetrics属性时得到的值根本不匹配。: 149868.621 如您所见，RMSE的所有值都在150,000以下。我的期望是，如果我取上述值的平均</

浏览 0提问于2020-04-09得票数 0

1回答

回归模型中的高根均方误差

、、

当我将Lasso回归应用于数据并计算RMSE值时，RMSE值为13.11。我认为RMSE值应该接近于零。回归模型中RMSE的允许值是多少？计算中有什么会出错呢？print(ans)print(mean_squared_error(Yts, ans)) 然而，当我尝试交叉验证时

浏览 0提问于2018-03-20得票数 3

3回答

电火花: CrossValidator不工作

、、、

我试图调优ALS的参数，但总是选择第一个参数作为最佳选项from pyspark import SparkConf, SparkContextfrom pyspark.ml.recommendation import ALS from pyspark.ml.tuning import CrossValidator, ParamGridBuilderfrom pyspark.ml.evaluation import Regression

浏览 8提问于2016-07-17得票数 2

回答已采纳

1回答

Matlab中广义线性模型的交叉验证

、、、、

GeneralizedLinearModel.fit(Xtrain,Ytrain,'linear','distr','poisson'); res = (Ypred - Ytest);下面的代码用于计算多重回归的交叉验证，如从此获得的。c = cvpartition(Y,'k',10); regf=@(Xtrain,Ytr

浏览 4提问于2014-05-28得票数 3

回答已采纳

1回答

使用交叉验证时获取单个数据点的错误(scikit-learn)

、、

我正在使用交叉验证来评估我的ML模型，但现在我想了解误差的分布，即当特定数据点在测试集中时，我想获得它们的平均误差。KFold(n_splits=10) rmse_scores= [np.sqrt(abs(s)) for s in scores] print('Testing RMSE (lin reg): {:.3f

浏览 13提问于2019-10-08得票数 0

1回答

如何实现10折交叉验证？

、、

我有一个在数据集上执行10折交叉验证的代码。代码是通过将数据划分为k-1部分用于训练，其余部分用于测试来创建的。

浏览 0提问于2018-11-18得票数 2

1回答

使用pyspark调整回归树模型的K-折叠交叉验证

、、

我正在尝试使用k-折交叉验证来调整在pyspark中生成的回归树。然而，就我目前所见，将pyspark的CrossValidator与pyspark的DecisionTree.trainRegressor结合起来是不可能的。以下是相关代码。DecisionTree.trainRegressor(trainingData, categoricalFeaturesInfo={}, impurity='variance', maxDepth=5, maxBins=32) 那

浏览 28提问于2019-10-04得票数 0

回答已采纳

1回答

交叉验证试验与训练误差

、

我偶然发现了这样的流程图：在流程图下面，如下所示：他们只提到交叉验证错误(验证)，而从来没有提到列车交叉验证错误。 “具有最低的总体交叉<

浏览 0提问于2019-09-09得票数 1

1回答

重复K次交叉验证对随机森林有意义吗？

、、

当使用随机森林时，使用常规交叉验证和仅取不同随机状态的多个模型的平均结果会给出与重复的K倍交叉验证相同的结果吗？重复的K倍交叉验证基本上重复交叉验证与多个不同的分裂数据和报告的平均结果。

浏览 0提问于2021-03-23得票数 0

回答已采纳

1回答

一种K-折交叉验证模型选择方法

、、

我想知道我们是如何从k折交叉验证方法中选择模型的。在k折交叉验证中，我们可以得到k个模型和使用k个模型精度的平均值的准确度分数。您能提供一种从交叉验证中获得最终最佳模型的方法吗？

浏览 5提问于2017-10-21得票数 1

1回答

关于如何处理不平衡数据的主要选项

、、、、

据我所知，大致上有三种处理二进制不平衡数据集的方法：随机创建k折叠交叉验证样本(或者更好地使用分层k折叠：https://scikit-learn.org/0.16/modules/generated选项2不要应用任何重采样技术。使用“替代”度量来评估:例如，精确召回曲线的AUC或类似

浏览 0提问于2020-06-07得票数 2

1回答

如何利用遗传算法优化参数

、、

trainset, cost=0.1, gamma=0.1, epsilon=0.1, type="eps-regression", kernel="radial")rmse<- function(error) #root mean sqaured error sqrt(mean(error^2))rmse(error) 在这里，我把成本，伽马和epsilonGA <- ga(type = "real-valued",

浏览 1提问于2015-08-15得票数 8

回答已采纳

1回答

如何使用sklearn获得交叉验证的平均精确度、召回率、f1、准确率？

、、

我在Weka的整个训练集上使用k重交叉验证进行超参数调整，它显示了交叉验证的平均精度、召回率和f1。我希望在python中使用Sklearn获得相同的结果。

浏览 1提问于2016-11-01得票数 0

6回答

Weka中的交叉验证

、、

从我所读到的情况来看，我一直认为交叉验证是这样执行的：在k次交叉验证中，将原始样本随机分成k个子样本.在k个子样本中，保留一个子样本作为模型测试的验证数据，其余的k−1子样本作为训练数据。然后交叉验证过程被重复k次(褶皱)，每个k个子样本精确地使用一次作为验证数据。从褶皱中得到的k值可以被平均(或以其他方式组

浏览 8提问于2012-05-03得票数 29

回答已采纳

1回答

grid.score(X_valid，y_valid)和grid.best_score_有什么区别？

、、、

在做GridSearchCV时，通过grid.score(.)获得的分数之间有什么区别？和grid.best_score_grid = GridSearchCV(X_train, y_train)scores = grid.score(estimator=my_model, param_grid=params, cv=3, return_train_score=True, scoring='neg_me

浏览 3提问于2021-09-03得票数 0

回答已采纳

3回答

错误: AttributeError：'DataFrame‘对象没有属性'_jdf’

我想要执行k-折叠交叉验证，使用吡火花来细化参数，我使用的是pyspark.ml。我得到了属性错误。AttributeError: DataFrame对象没有属性“_jdf”from pyspark import SparkConf, SparkContext from pyspark.ml.cla

浏览 3提问于2019-04-10得票数 20

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pyspark k重交叉验证平均RMSE

相关·内容

Pyspark k重交叉验证平均RMSE

不同尺寸多个测试集RMSE的比较

用插入符号交叉验证计算样本内预测精度

R包插入:如何访问培训和测试数据的结果？

PySpark: CrossValidator.avgMetrics与collectSubModels计算平均值之间的不一致性

回归模型中的高根均方误差

电火花: CrossValidator不工作

Matlab中广义线性模型的交叉验证

使用交叉验证时获取单个数据点的错误(scikit-learn)

如何实现10折交叉验证？

使用pyspark调整回归树模型的K-折叠交叉验证

交叉验证试验与训练误差

重复K次交叉验证对随机森林有意义吗？

一种K-折交叉验证模型选择方法

关于如何处理不平衡数据的主要选项

如何利用遗传算法优化参数

如何使用sklearn获得交叉验证的平均精确度、召回率、f1、准确率？

Weka中的交叉验证

grid.score(X_valid，y_valid)和grid.best_score_有什么区别？

错误: AttributeError：'DataFrame‘对象没有属性'_jdf’

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐