开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Pyspark ML:如何使用CrossValidator()获取subModels值

Pyspark ML是一个基于Python的机器学习库，用于在Apache Spark平台上进行大规模数据处理和分析。CrossValidator是Pyspark ML中的一个模型选择工具，用于自动选择最佳的模型参数。

使用CrossValidator获取subModels值的步骤如下：

导入必要的库和模块：

from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
from pyspark.ml.evaluation import BinaryClassificationEvaluator

创建一个机器学习模型，例如逻辑回归模型：

from pyspark.ml.classification import LogisticRegression

lr = LogisticRegression()

创建一个参数网格，定义要调优的参数及其取值范围：

paramGrid = ParamGridBuilder() \
    .addGrid(lr.regParam, [0.01, 0.1, 1.0]) \
    .addGrid(lr.elasticNetParam, [0.0, 0.5, 1.0]) \
    .build()

创建一个交叉验证器，设置评估器、参数网格和交叉验证的折数：

evaluator = BinaryClassificationEvaluator()

crossval = CrossValidator(estimator=lr,
                          estimatorParamMaps=paramGrid,
                          evaluator=evaluator,
                          numFolds=3)

使用交叉验证器拟合训练数据：

cvModel = crossval.fit(train_data)

获取最佳模型及其参数：

bestModel = cvModel.bestModel
bestParams = bestModel.extractParamMap()

获取每个子模型及其对应的评估指标：

subModels = cvModel.subModels
for i, model in enumerate(subModels):
    params = model.extractParamMap()
    score = evaluator.evaluate(model.transform(test_data))
    print("Sub-model", i+1, "params:", params)
    print("Sub-model", i+1, "score:", score)

在上述步骤中，我们首先导入了必要的库和模块，然后创建了一个逻辑回归模型和一个参数网格。接下来，我们创建了一个交叉验证器，并设置了评估器、参数网格和交叉验证的折数。然后，我们使用交叉验证器拟合训练数据，并获取最佳模型及其参数。最后，我们通过遍历子模型，获取每个子模型及其对应的评估指标。

关于Pyspark ML和CrossValidator的更多信息，您可以参考腾讯云的相关产品和文档：

Pyspark ML产品介绍：Pyspark ML
CrossValidator产品介绍：CrossValidator

相关搜索:使用PySpark但不使用色调读取数据时获取空值在不使用PySpark函数的SQL中获取每月最大值如何使用Firebase-CloudVision(ML)获取图像的特定信息如何使用PySpark从SPARK中的RDD中获取特定值如何使用pyspark从Spark获取批量行如何使用Pyspark在dataframe中乘以列值(Python)如何使用pyspark按小时获取x最频繁的位置？如何使用pySpark获取Nats消息(非Scala)如何使用pyspark计算连续的值？如何使用spark ML计算pyspark分类模型中的基尼指数？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Spark 模型选择和调参

Spark - ML Tuning 官方文档：https://spark.apache.org/docs/2.2.0/ml-tuning.html 这一章节主要讲述如何通过使用MLlib的工具来调试模型算法和...它依然是一种更加合理和自动化的调参手段； from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression...from pyspark.ml.evaluation import BinaryClassificationEvaluator from pyspark.ml.feature import HashingTF..., Tokenizer from pyspark.ml.tuning import CrossValidator, ParamGridBuilder # Prepare training documents...； from pyspark.ml.evaluation import RegressionEvaluator from pyspark.ml.regression import LinearRegression

9505 3

图解大数据 | Spark机器学习(下)—建模与超参调优

import DecisionTreeClassifier from pyspark.ml.feature import StringIndexer, VectorIndexer from pyspark.ml.evaluation...import DecisionTreeRegressor from pyspark.ml.feature import VectorIndexer from pyspark.ml.evaluation...在找出最好的ParamMap后，CrossValidator 会使用这个ParamMap和整个的数据集来重新拟合Estimator。...pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation...import BinaryClassificationEvaluator from pyspark.ml.feature import HashingTF, Tokenizer from pyspark.ml.tuning

1.1K2 1

【干货】Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

【导读】近日，多伦多数据科学家Susan Li发表一篇博文，讲解利用PySpark处理文本多分类问题的详情。我们知道，Apache Spark在处理实时数据方面的能力非常出色，目前也在工业界广泛使用。...本文通过使用Spark Machine Learning Library和PySpark来解决一个文本多分类问题，内容包括：数据提取、Model Pipeline、训练/测试数据集划分、模型训练和评价等...每天都有大量的数据需要被处理，如何实时地分析这些数据变得极其重要。另外，Apache Spark可以再不采样的情况下快速处理大量的数据。...from pyspark.ml import Pipeline from pyspark.ml.feature import OneHotEncoder, StringIndexer, VectorAssembler...明显，我们会选择使用了交叉验证的逻辑回归。

26K54 38

在机器学习中处理大量数据！

为了支持Python语言使用Spark，Apache Spark社区开发了一个工具PySpark。...='string'] 对于类别变量我们需要进行编码，在pyspark中提供了StringIndexer, OneHotEncoder, VectorAssembler特征编码模式： from pyspark.ml...原来是使用VectorAssembler直接将特征转成了features这一列，pyspark做ML时需要特征编码好了并做成向量列，到这里，数据的特征工程就做好了。...= 'features', labelCol = 'label',maxIter=10) lr_model = lr.fit(train) 可以看到ML的用法和sklearn非常的像，因此使用起来也是相当的方便...spark通过封装成pyspark后使用难度降低了很多，而且pyspark的ML包提供了基本的机器学习模型，可以直接使用，模型的使用方法和sklearn比较相似，因此学习成本较低。

2.3K3 0

探索MLlib机器学习

MLlib库包括两个不同的部分： pyspark.mllib 包含基于rdd的机器学习算法API，目前不再更新，以后将被丢弃，不建议使用。...pyspark.ml 包含基于DataFrame的机器学习算法API，可以用来构建机器学习工作流Pipeline，推荐使用。...pyspark.ml import Pipeline,PipelineModel from pyspark.ml.linalg import Vector from pyspark.sql import...这个模型在spark.ml.feature中，通常作为特征预处理的一种技巧使用。...Tokenizer from pyspark.ml.tuning import CrossValidator, ParamGridBuilder # 准备数据 dfdata = spark.createDataFrame

4.1K2 0

SparkML模型选择（超参数调整）与调优

Spark ML模型选择与调优本文主要讲解如何使用Spark MLlib的工具去调优ML算法和Pipelines。内置的交叉验证和其他工具允许用户优化算法和管道中的超参数。...例子以下示例演示如何使用CrossValidator从参数网格中进行选择。请注意，参数网格上的交叉验证非常耗性能的。...例如，在下面的例子中，参数网格中hashingTF.numFeatures有三个值，并且lr.regParam两个值，CrossValidator使用了2folds。...lr.regParam有两个值， //该网格将会有3*2=6组参数被CrossValidator使用 val paramGrid = new ParamGridBuilder() .addGrid(...//使用ParamGridBuilder构建一个parameters网格，用来存储查询参数 //TrainValidationSplit会尝试所有值的组合使用evaluator来产生一个最佳模型 val

2.5K5 0

pyspark-ml学习笔记：LogisticRegression

具体查看下面代码及其注释：数据可以查看github：https://github.com/MachineLP/Spark-/tree/master/pyspark-ml import os import...regParam=0.01, labelCol='INFANT_ALIVE_AT_REPORT') print ('logistic:', logistic) # 创建一个管道 from pyspark.ml...Pipeline.load(pipelinePath) loadedPipeline.fit(births_train).transform(births_test).take(1) # 保存整个模型 from pyspark.ml...func import pyspark.ml.feature as ft from svm_predict import SVMPredict def skl_predict(spark):...labelCol='INFANT_ALIVE_AT_REPORT') print ('logistic:', logistic) # 创建一个管道 from pyspark.ml

1.8K3 0

Apache Spark 2.0预览：机器学习模型持久性

使用在Databricks中的笔记介绍机器学习（ML）的应用场景：数据科学家生成一个ML模型，并让工程团队将其部署在生产环境中。...参阅JIRA获取Scala / Java，Python和R贡献者的完整名单。...学习API 在Apache Spark 2.0中，MLlib的DataFrame-based的API在Spark上占据了ML的重要地位（请参阅曾经的博客文章获取针对此API的介绍以及它所介绍的“Pipelines...点击笔记获取完整的加载数据、填充模型、保存和加载它们的完整示例代码。保存和加载单个模型我们首先给出如何保存和加载单个模型以在语言之间共享。...（点击笔记获取使用ML Pipelines分析共享自行车数据集的教程。） MLlib允许用户保存和加载整个Pipelines。

2K8 0

基于PySpark的流媒体用户流失预测

定义客户流失变量：1—在观察期内取消订阅的用户，0—始终保留服务的用户由于数据集的大小，该项目是通过利用apache spark分布式集群计算框架，我们使用Spark的Python API，即PySpark...import IntegerType, DateType, TimestampType from pyspark.ml import Pipeline from pyspark.ml.feature...import VectorAssembler, Normalizer, StandardScaler from pyspark.ml.regression import LinearRegression...from pyspark.ml.classification import LogisticRegression, RandomForestClassifier, GBTClassifier from...pyspark.ml.clustering import KMeans from pyspark.ml.tuning import CrossValidator, ParamGridBuilder from

3.3K4 1

从Spark MLlib到美图机器学习框架实践

感谢阅读「美图数据技术团队」的第 23 篇原创文章，关注我们持续获取美图最新数据技术动态。.../ 机器学习简介 / 在深入介绍 Spark MLlib 之前先了解机器学习，根据维基百科的介绍，机器学习有下面几种定义：机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能...CrossValidator ?...($id, $text) --> prob=$prob, prediction=$prediction") } TrainValidationSplit TrainValidationSplit 使用...与 CrossValidator 不同的是，TrainValidationSplit 只有一次验证过程，可以简单看成是 CrossValidator 的 n 为 2 时的特殊版本。 ?

1.1K3 0

PySpark｜ML（评估器）

PySpark ML（评估器） ?...引言在PySpark中包含了两种机器学习相关的包：MLlib和ML，二者的主要区别在于MLlib包的操作是基于RDD的，ML包的操作是基于DataFrame的。...数据集获取地址1：https://gitee.com/dtval/data.git 数据集获取地址2：公众号后台回复spark 01 评估器简介 ML中的评估器主要是对于机器学习算法的使用，包括预测、...df0.toPandas().isna().values.any() # False 没有缺失值 # 先使用StringIndexer将字符转化为数值，然后将特征整合到一起 old_columns_names...pyspark.ml.regression import GBTRegressor from pyspark.ml.evaluation import RegressionEvaluator spark

1.5K1 0

使用CDSW和运营数据库构建ML应用3:生产ML模型

在最后一部分中，我们将讨论一个演示应用程序，该应用程序使用PySpark.ML根据Cloudera的运营数据库（由Apache HBase驱动）和Apache HDFS中存储的训练数据来建立分类模型。...有关更多上下文，此演示基于此博客文章如何将ML模型部署到生产中讨论的概念。在阅读本部分之前，请确保已阅读第1部分和第2部分。...合并两组训练数据后，应用程序将通过PySpark加载整个训练表并将其传递给模型。建立模型现在我们有了所有训练数据，我们将建立并使用PySpark ML模型。...为了模拟实时流数据，我每5秒在Javascript中随机生成一个传感器值。生成新数字后，Web应用程序将在HBase的Batch Score Table中进行简单查找以获取预测。... 结论与总结此应用程序演示了如何利用PySpark来使用HBase作为基础存储系统来构建简单的ML分类模型。无论如何，该演示应用程序都有一些收获。

2.8K1 0

从Spark MLlib到美图机器学习框架实践

/ 机器学习简介 / 在深入介绍 Spark MLlib 之前先了解机器学习，根据维基百科的介绍，机器学习有下面几种定义：机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能...*「Spark ML」不是官方名称，偶尔用于指代基于 MLlib DataFrame 的 API 首先了解 ML Pipelines 内几个重要组件。...CrossValidator ?...($id, $text) --> prob=$prob, prediction=$prediction") } TrainValidationSplit TrainValidationSplit 使用...与 CrossValidator 不同的是，TrainValidationSplit 只有一次验证过程，可以简单看成是 CrossValidator 的 n 为 2 时的特殊版本。 ?

9111 0

pyspark-ml学习笔记：如何在pyspark ml管道中添加自己的函数作为custom stage?

（3）https://stackoverflow.com/questions/32331848/create-a-custom-transformer-in-pyspark-ml 测试代码如下：（pyspark...缺失值处理） (pyspark使用可以参考这个：https://blog.csdn.net/u014365862/article/details/87825398 ) #!...如何在pyspark ml管道中添加自己的函数作为custom stage?...''' from start_pyspark import spark, sc, sqlContext import pyspark.sql.functions as F from pyspark.ml...import keyword_only from pyspark.ml import Transformer from pyspark.ml.param.shared import HasOutputCols

3.2K2 0

基于Apache Spark机器学习的客户流失预测

认识并应用正确的机器学习算法来从数据中获取价值。 2.在生产中使用模型进行预测。 3.使用新数据发现和更新模型。...import org.apache.spark.ml.tuning.CrossValidator import org.apache.spark.ml.feature.VectorAssembler 我们使用...，它们需变换并放入特征向量中，特征向量是代表每个特征值的数字的向量。...在CrossValidator 使用管道评估，参数网格和分类评估。...Apache Spark机器学习教程 Apache Spark培训需求 MapR和Spark Apache Spark ML概述在这篇博文中，我们向您展示了如何开始使用Apache Spark的机器学习决策树和

3.4K7 0

深入理解XGBoost：分布式实现

使用该操作的前提是需要保证RDD元素的数据类型相同。 filter：对元素进行过滤，对每个元素应用函数，返回值为True的元素被保留。 sample：对RDD中的元素进行采样，获取所有元素的子集。...missing：数据集中指定为缺省值的值（注意，此处为XGBoost会将 missing值作为缺省值，在训练之前会将missing值置为空）。模型训练完成之后，可将模型文件进行保存以供预测时使用。...它有如下参数： 1）withStd：默认值为真，使用统一标准差方式。 2）withMean：默认为假。这种方法将产生一个稠密输出，所以不适用于稀疏输入。...例如，设置k值为3，CrossValidator将产生3组数据，每组数据中的2/3作为训练集进行训练，1/3作为测试集进行测试。CrossValidator计算3组数据训练模型的评估准则的平均值。...确定了最佳参数之后，CrossValidator使用最佳参数重新对整个数据集进行拟合得到最终模型。

3.9K3 0

分布式机器学习原理及实战(Pyspark)

/存储结构化的键值数据；大数据挖掘的问题：有Hadoop的mahout，spark的ml等，可以使用分布式机器学习算法挖掘信息； 1.2 Spark的介绍 Spark是一个分布式内存批计算处理框架，Spark...PySpark是Spark的Python API，通过Pyspark可以方便地使用 Python编写 Spark 应用程序，其支持了Spark 的大部分功能，例如 Spark SQL、DataFrame...二、PySpark分布式机器学习 2.1 PySpark机器学习库 Pyspark中支持两个机器学习库：mllib及ml，区别在于ml主要操作的是DataFrame，而mllib操作的是RDD，即二者面向的数据集不一样...相比于mllib在RDD提供的基础操作，ml在DataFrame上的抽象级别更高，数据和操作耦合度更低。注：mllib在后面的版本中可能被废弃，本文示例使用的是ml库。...PySpark项目实战注：单纯拿Pyspark练练手，可无需配置Pyspark集群，直接本地配置下单机Pyspark，也可以使用线上spark集群(如: community.cloud.databricks.com

3.6K2 0

来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵

df_melt_copy.randomSplit([0.8, 0.2], seed=42)train, val = rest.randomSplit([0.75, 0.25], seed=42)② 建模流水线# 导入工具库from pyspark.ml...import Pipelinefrom pyspark.ml.feature import VectorAssembler, StandardScaler, MinMaxScaler, OneHotEncoder..., StringIndexer from pyspark.ml.classification import LogisticRegression, RandomForestClassifier, GBTClassifierfrom...pyspark.ml.tuning import CrossValidator, ParamGridBuilderfrom sklearn.metrics import accuracy_score,...交叉验证我们上面的建模只是敲定了一组超参数，超参数会影响模型的最终效果，我们可以使用spark的CrossValidator进行超参数调优，选出最优的超参数。

1.5K3 2

如何使用Apache Spark MLlib预测电信客户流失

该仓库还包含一个脚本，显示如何在CDH群集上启动具有所需依赖关系的IPython笔记本。...特别是我们将要使用的ML Pipelines API，它是一个这样的框架，可以用于在DataFrame中获取数据，应用转换来提取特征，并将提取的数据特征提供给机器学习算法。...from pyspark.ml.feature import StringIndexer from pyspark.ml.feature import VectorAssembler label_indexer...from pyspark.ml import Pipeline from pyspark.ml.classification import RandomForestClassifier classifier...通过采用二值分类预测器来产生ROC曲线，该预测器使用阈值来给连续预测值的定标签。

4K1 0

Spark Extracting,transforming,selecting features

inputCol和outputCol参数，指定threshold用于二分数据，特征值大于阈值的将被设置为1，反之则是0，向量和双精度浮点型都可以作为inputCol； from pyspark.ml.feature...（即主成分）的统计程序，PCA类训练模型用于将向量映射到低维空间，下面例子演示了如何将5维特征向量映射到3维主成分； from pyspark.ml.feature import PCA from pyspark.ml.linalg...，最多有maxCategories个特征被处理；每个特征索引从0开始；索引类别特征并转换原特征值为索引值；下面例子，读取一个含标签的数据集，使用VectorIndexer进行处理，转换类别特征为他们自身的索引...0也有可能被转换为非0值，转换的输出将是密集向量即便输入是稀疏向量； from pyspark.ml.feature import MinMaxScaler from pyspark.ml.linalg...”1“； from pyspark.ml.feature import MinHashLSH from pyspark.ml.linalg import Vectors from pyspark.sql.functions

21.8K4 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭