如何使用spark ML计算pyspark分类模型中的基尼指数？_如何使用Swift、UIkit和CoreML在iOS应用程序中访问图像分类器ML模型的预测结果 - 腾讯云开发者社区

pyspark、apache-spark-ml

我正在尝试计算一个分类模型的基尼指数，该分类模型是从pyspark ml模型中使用GBTClassifier完成的。我似乎找不到一个指标，可以给出像python sklearn中那样的roc_auc_score。下面是我到目前为止在databricks上使用的代码。我当前使用的是来自databricks的数据集 %fs ls databricks-datasets/adult/adult.data from pyspark.sql.functions import * from pyspark.ml.classification import RandomForestClassifie

浏览 24提问于2020-01-08得票数 0

1回答

基于pyspark.ml的数据随机林

machine-learning、pyspark、random-forest、apache-spark-ml

我正在尝试使用pyspark.ml库构建一个随机森林分类器，用于数据挖掘(，而不是RDD的mllib )。我是否必须使用文档中给出的管道？我只想建立一个简单的模型， rf = RandomForestClassifier(labelCol = labs, featuresCol = rawdata) 我遇到以下错误 Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/lib/spark/python/pyspark/__ini

浏览 0提问于2017-10-18得票数 0

1回答

PySpark MLlib: AssertionError:分类器不是从HasRawPredictionCol扩展的

apache-spark、pyspark、svm、apache-spark-mllib、apache-spark-ml

我是星火公司的新手。我想在PySpark MLlib中对支持向量机进行多类分类。我在Windows上安装了Spark2.3.0。但是，我搜索发现支持向量机只在星火库中实现了二进制分类，所以我们必须使用一种-vs-all策略。这给了我一个错误，当我试图使用一个-vs-所有的支持向量机。我寻找错误，但没有找到解决办法。我使用了来自这个链接的one-vs-all代码。这是我的代码： from pyspark.mllib.classification import SVMWithSGD , SVMModel from pyspark.ml.classificati

浏览 1提问于2018-04-29得票数 1

回答已采纳

1回答

pyspark如何保存和加载一个与rest分类器逻辑回归

pyspark、logistic-regression、apache-spark-ml

我正在使用pyspark 2.4.5，我在保存和加载一个与rest分类器时遇到了问题下面是代码 from pyspark.ml.classification import LogisticRegression, OneVsRest start=time.time() lr = LogisticRegression(maxIter=10, tol=1E-6, fitIntercept=True) # instantiate the One Vs Rest Classifier. ovr = OneVsRest(classifier=lr) # train the multicla

浏览 38提问于2020-07-18得票数 0

1回答

火花ML:使用ChiSqSelector进行特征选择后训练中的问题

apache-spark、machine-learning、apache-spark-mllib、feature-selection、apache-spark-ml

我是新来的。我正在研究一个分类模型，并希望使用ChiSqSelector来选择用于模型培训的重要特性。但是，当我使用ChiSqSelector选择的特性进行训练时，它会引发以下错误： "IllegalArgumentException: U‘’Feature 0被标记为标称(分类)，但它没有指定值的数量“。有趣的是，当我使用基于树的算法时，我得到了上面提到的错误。因为，天真的偏见和logistic回归，我没有得到错误。当我使用spark文档中的示例代码中提供的数据时，我发现了同样的结果。该错误可以通过使用spark 2.1.1文档中的代码来再现： from pyspark.ml.f

浏览 4提问于2017-09-17得票数 5

1回答

Pyspark k重交叉验证平均RMSE

machine-learning、pyspark

我使用Pyspark在数据集上运行线性回归和k重交叉验证。目前我只能确定最佳模型的均方根误差。但我想要在交叉验证中评估的所有模型的平均RMSE。如何在交叉验证中获得所有评估模型的平均RMSE？ from pyspark.ml.regression import LinearRegression from pyspark.ml.evaluation import RegressionEvaluator from pyspark.ml.feature import VectorAssembler from pyspark.ml.evaluation import BinaryClassifica

浏览 9提问于2018-12-17得票数 2

1回答

用管道从Pyspark.ml加载S3模型

apache-spark、pyspark、pipeline、apache-spark-ml

我正在尝试将一个经过训练的模型保存到S3存储中，然后尝试通过来自pyspark.ml的管道包加载和预测这个模型。下面是我如何拯救我的模型的一个例子。 #stage_1 to stage_4 are some basic trasnformation on data one-hot encoding e.t.c # define stage 5: logistic regression model stage_5 = LogisticRegression(featuresCol='features',labelCol='

浏览 7提问于2021-02-08得票数 1

回答已采纳

1回答

R中向量的基尼杂质的计算

r、classification

我正在处理R中的一个问题，并试图将基尼指数作为二进制分类问题的一部分来计算，最初是针对所有值都不同的向量。我有点困惑，因为我期望得到的结果是1才是完美的ienquality，然而使用基尼函数我得到了不同的结果，例如使用DescTools库中的Gini()函数： samplevector <- c(0:20) Gini(samplevector) [1] 0.3666667 这里我漏掉了什么？

浏览 11提问于2019-02-15得票数 0

1回答

预测后的pyspark ml model map id列

machine-learning、pyspark、apache-spark-sql、apache-spark-mllib、apache-spark-ml

我已经使用pyspark.ml.classification.RandomForestClassifier训练了一个分类模型，并将其应用于一个新的数据集进行预测。在将数据集提供给模型之前，我删除了customer_id列，但不确定如何在预测之后映射回customer_id。因此，我无法确定哪一行属于哪个客户，因为Spark数据帧本质上是无序的。

浏览 9提问于2019-09-17得票数 1

回答已采纳

1回答

不能从火花放电加载管道模型

apache-spark、pyspark、apache-spark-mllib

你好，我试着用管道模型加载节省的管道。 selectedDf = reviews\ .select("reviewerID", "asin", "overall") # Make pipeline to build recommendation reviewerIndexer = StringIndexer( inputCol="reviewerID", outputCol="intReviewer" ) produc

浏览 1提问于2018-07-10得票数 6

回答已采纳

1回答

火花放电不可加载pipelineModel

python、pyspark

我遇到了一个问题，无法在实际环境中加载PipelineModel i测试我的模型，但是无法在生产环境中应用这个模型和代码。 Traceback (most recent call last): File "/home/fwfx_yaofei/telbd-yjy/src/ml/complain_user_it/predict/model_predict.py", line 228, in <module> main(xdr_input_file,model_file,xdr_output_file) File "/home/fwfx_yaofe

浏览 3提问于2021-12-03得票数 0

2回答

pyspark.sql.utils.IllegalArgumentException: U‘’Field "features“不存在。‘

apache-spark、pyspark、apache-spark-sql、spark-dataframe、apache-spark-ml

我正在尝试执行随机森林分类器，并使用交叉验证来评估模型。我和pySpark一起工作。输入的CSV文件被加载为火花DataFrame格式。但我在构建模型时遇到了一个问题。下面是代码。 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.ml import Pipeline from pyspark.ml.classification import RandomForestClassifier from pyspark.ml.tuning import CrossValidator, P

浏览 1提问于2017-10-12得票数 2

回答已采纳

1回答

基尼指数的含义是什么？

machine-learning、random-forest、decision-trees、gini-index

我在研究随机森林模型，但我不明白吉尼指数是什么，它是干什么用的。有人对此有任何资料或能给我解释吗？谢谢!

浏览 0提问于2021-09-23得票数 2

回答已采纳

2回答

如何从火花放电阵列中编码标签

python、apache-spark、pyspark、pyspark-sql

例如，我在DataFrame中有name中的分类特性 from pyspark.sql import SparkSession spark = SparkSession.builder.master("local").appName("example") .config("spark.some.config.option", "some-value").getOrCreate() features = [(['a', 'b', 'c'], 1),

浏览 0提问于2018-12-04得票数 3

回答已采纳

2回答

LabeledPoint在pyspark.mllib中的类型转换误差，用于pyspark.ml中的线性回归模型

pyspark、linear-regression

我有以下使用pyspark.ml包进行线性回归的代码。但是，当模型适合时，我得到了最后一行的错误消息： org.apache.spark.mllib.linalg.VectorUDT@f71b0bce.：U‘IllegalArgumentException:列特性必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型，但实际上是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 有没有人知道遗漏了什么？pyspark.ml中有LabeledPoint在pyspark.mllib中的替代品吗？ from

浏览 5提问于2017-02-14得票数 8

回答已采纳

1回答

SparkML交叉验证是否只适用于“标签”列？

apache-spark、pyspark、cross-validation、apache-spark-ml

当我使用一个包含标签的数据集运行交叉验证时，(而不是)列中的标签名为" label“，我在Spark3.1.1上观察到了一个IllegalArgumentException。为什么？下面的代码已被修改为将“标签”列重命名为“目标”，并将labelCol设置为回归模型的“目标”。此代码导致异常，而"label“处的所有内容都正常工作。 from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import

浏览 1提问于2021-04-28得票数 1

回答已采纳

1回答

ConsoleBuffer‘object没有属性'isatty’

apache-spark、deep-learning、databricks

我正在使用databricks社区版上的sparkdl进行图像分类。我添加了所有的库.我使用图像数据创建了数据帧. from pyspark.ml.classification import LogisticRegression from pyspark.ml import Pipeline from sparkdl import DeepImageFeaturizer featurizer = DeepImageFeaturizer(inputCol="image", outputCol="features", modelName="Incepti

浏览 3提问于2017-11-02得票数 0

回答已采纳

1回答

机器学习算法导致电火花算法的精度低。

python、machine-learning、pyspark、dataset、multiclass-classification

我使用数据集和机器学习算法，根据87个特征(列)对75个网络流量类进行分类。数据集由3.577.296个实例(行)组成。首先对标签进行索引，对具有连续值的列进行标准化，应用特征选择，然后使用ML算法进行分类: Logistic回归、随机森林、决策树和朴素基。所有算法的精度都很低(在NV中使用DT & 0.005 )为0.59。这些低准确度背后的原因是什么？拜托我需要帮助。没有理由投反对票。谢谢 from pyspark.sql import SparkSession from pyspark.sql.functions import col from pyspark.sql im

浏览 8提问于2022-02-13得票数 -1

1回答

尝试使用pyspark加载已保存的Spark模型时出现“空集合”错误

python、apache-spark、pyspark、apache-spark-mllib

我正在使用Spark构建一个随机森林模型，我想保存它以便以后再次使用。我在不带HDFS的pyspark (Spark 2.0.1)上运行这个程序，所以文件被保存到本地文件系统。我试着这样做： import pyspark.sql.types as T from pyspark.ml.feature import VectorAssembler from pyspark.ml.classification import RandomForestClassifier data = [[0, 0, 0.], [0, 1, 1.], [1, 0, 1.],

浏览 4提问于2017-01-27得票数 6

1回答

Apache Spark和Apache Apex有什么不同？

apache-spark、machine-learning、pyspark、stream-processing、apache-apex

-是一个开源的企业级统一流和批处理平台。它用于GE Predix平台的物联网。这两个平台之间的主要区别是什么？问题从数据科学的角度来看，它与Spark有什么不同？提供像Spark MLlib一样的功能吗？如果我们必须在Apache to上构建可伸缩的ML模型，该如何做&使用哪种语言？数据科学家将不得不学习Java来构建可伸缩的ML模型吗？它有像pyspark那样的python API吗？ Apache Apex可以与Spark集成吗?我们可以在Apex之上使用Spark MLlib来构建ML模型吗？

浏览 109提问于2016-02-23得票数 16

1回答

pyspark-2.3 sparkml模型加载问题

python、apache-spark、apache-spark-ml

我正在做一个样例pyspark ml练习，其中我需要存储一个模型并将其读回来。我能够成功地保存模型，但当我试图读取/加载它时，它抛出了下面的异常。我是spark ml和python的新手，请在这方面指导我。代码： from pyspark.sql import * from pyspark.ml.feature import RFormula from pyspark.ml.classification import LogisticRegression from pyspark.ml import Pipeline from pyspark.ml.tuning import ParamGr

浏览 0提问于2018-12-12得票数 0

1回答

spark java.lang.stackoverflow逻辑回归拟合大数据集

apache-spark、pyspark

我正在尝试为具有470个特征和1000万个训练实例的数据集拟合逻辑回归模型。下面是我的代码片段。 from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression from pyspark.ml.feature import RFormula formula = RFormula(formula = "label ~ .-classWeight") bestregLambdaVal = 0.005 bestregAlphaVal = 0.01 lr = Log

浏览 2提问于2017-09-22得票数 1

4回答

隐式pyspark.ml ALS矩阵分解模型参数的pyspark.ml CrossValidator整定

python、apache-spark、pyspark、apache-spark-ml

我试图调优使用隐式数据的ALS矩阵因式分解模型的参数。为此，我尝试使用pyspark.ml.tuning.CrossValidator在参数网格中运行并选择最佳模型。我相信我的问题是在评估者，但我无法解决它。对于使用回归RMSE评估器的显式数据模型，我可以这样做，如下所示： from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext from pyspark.ml.recommendation import ALS from pyspark.ml.tuning import CrossValid

浏览 4提问于2016-05-16得票数 15

1回答

pyspark ml模型的顶点ai自定义模型训练

apache-spark、pyspark、apache-spark-mllib、machine-learning-model、google-cloud-vertex-ai

是否可以使用VertexAI自定义容器模型构建来训练spark/pyspark ML库模型？我在vertex ai文档中找不到任何关于spark模型训练的参考。对于分布式处理模型构建，可用的选项只有PyTorch或TensorFlow。

浏览 30提问于2021-09-03得票数 0

1回答

使用CrossValidator和ParamGridBuilder找到最佳管道模型

machine-learning、pyspark、pipeline、cross-validation、apache-spark-ml

我有一个可以接受的模型，但我想通过调整它的参数在CrossValidator和ParamGridBuilder的Spark管道中进行改进。作为一名估计者，我将把现有的管道。在ParamMaps中，我不知道该放什么，我不明白。作为评估器，我将使用前面已经创建的RegressionEvaluator。我要做5倍，在树中列出10个不同的深度值。如何为最低的RMSE选择和显示最佳模型？实际例子： from pyspark.ml import Pipeline from pyspark.ml.regression import DecisionTreeRegressor

浏览 0提问于2018-05-23得票数 0

回答已采纳

1回答

将矩阵从MongoDB加载/反序列化为pySpark，添加新的向量列

python、mongodb、serialization、pyspark

我正在学习星火，以便使用它的ML模块来构建分类器。我已经成功地使用了Pandas来完成这项任务，但是数据量已经增加了，现在它们不适合RAM了。我也有使用Dask的积极经验，但是它的机器学习库还没有准备好生产。我的数据存储在MongoDB中，包含用cPickle序列化的小图像。下面是创建它们的代码片段： import os import numpy as np import pymongo from bson.binary import Binary records = [] for file_path in file_paths: for r in file(fn):

浏览 4提问于2017-04-26得票数 0

回答已采纳

2回答

PySpark中的CrossValidator是否分发执行？

apache-spark、machine-learning、parameters、pyspark

我正在使用PySpark中的机器学习，并且使用的是RandomForestClassifier。到目前为止，我一直在使用Sklearn。我正在使用CrossValidator来调整参数并获得最佳模型。下面是取自Spark网站的示例代码。根据我所读到的内容，我不明白spark是否也分发了参数调整，或者它与Sklearn的GridSearchCV的情况相同。任何帮助都将不胜感激。 from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression from pyspark.ml.eva

浏览 0提问于2017-08-22得票数 5

1回答

(pyspark.ml)对ALS模型进行CrossValidator错误的调优！：需求失败:没有向该摘要程序添加任何内容

pyspark、cross-validation、apache-spark-mllib、matrix-factorization

我试图调优ALS矩阵分解模型的参数。因此，我使用pyspark.ml.tuning.CrossValidator在参数网格中运行，并选择最佳模型。但是在使用CrossValidator进行调优时，我总是会出现错误.. 错误如下图所示，参考中的答案，当从ALS模型中的有效数据推断非列车数据的用户时，似乎会发生错误。另外，参考，假设CrossValidator会导致错误，当拟合错误在多个节点上并行运行时停止主线程，但我不知道如何解决它。当我直接使用for语句应用GridSearch时，没有错误，所以我不知道为什么下面的错误只发生在CrossValidator中。此外，ALS超参数cold

浏览 15提问于2022-06-03得票数 1

1回答

在火花放电中读取svm模型时的问题

python、pyspark、svm

我刚开始使用pyspark，我刚刚将我的LinearSVC模型保存在一个名为"svm.model“的文件夹中。我有两个文件夹:数据和元数据。现在我正试着加载模型。这是我加载模型的代码： # Spark environment from pyspark.sql import SparkSession from pyspark.ml.classification import LinearSVC spark = SparkSession.builder.getOrCreate() # read model lsvc = LinearSVC(maxIter=10, regParam=0.

浏览 0提问于2020-11-19得票数 0

回答已采纳

1回答

故障加载PySpark ALS模型

java、apache-spark、pyspark

我试着加载一个用派斯喀斯特创建的模型。我用以下代码创建了模型： import pandas as pd from pyspark.ml.evaluation import RegressionEvaluator from pyspark.ml.recommendation import ALS from pyspark.ml.tuning import TrainValidationSplit, ParamGridBuilder from pyspark.context import SparkContext from pyspark.sql.session import SparkSessi

浏览 0提问于2019-03-27得票数 3

回答已采纳

1回答

在toDebugString ML中从DecisionTreeClassifier中获取PySpark

python、apache-spark、pyspark

我用这样的管道训练了一个DecisionTreeClassifier模型： from pyspark.ml import Pipeline from pyspark.ml.feature import VectorAssembler, StringIndexer from pyspark.ml.classification import DecisionTreeClassifier cl = DecisionTreeClassifier(labelCol='target_idx', featuresCol='features') pipe = Pipeline

浏览 2提问于2016-05-03得票数 3

回答已采纳

2回答

负荷模型电火花

python、pyspark

我刚开始使用pyspark，我刚刚将我的RandomForestRegressor模型保存在一个名为" model“的文件夹中。我有三个文件夹:数据、元数据和treesMetadata。每个人都有一些文件。现在我正在尝试在一个新的木星笔记本加载模型。这是我加载模型的代码： from pyspark.sql import SparkSession import pyspark from pyspark.sql.types import FloatType,StructField,StringType,IntegerType,StructType from pyspark.ml.regr

浏览 0提问于2019-07-15得票数 4

回答已采纳

1回答

如何在PySequ2.4.0中从polynomialExpansion获取特征名

python-3.x、pyspark

如何获得在pyspark 2.4.0中应用多项式展开时应用的各种组合的特征名。以下是守则： from pyspark.ml.feature import PolynomialExpansion from pyspark.ml.linalg import Vectors df = spark\ .createDataFrame([(Vectors.dense([-2.0, 2.3]),), (Vectors.dense([0.0, 0.0]),), (Vectors.dense([0.6, -1.

浏览 1提问于2020-12-26得票数 0

回答已采纳

2回答

火花决策树

apache-spark、classification、pyspark、decision-tree

我正在阅读下面的网站为决策树分类部分。我将提供的示例代码内置到我的笔记本电脑中，并试图理解它的输出。但我一点也听不懂。下面是代码，sample_libsvm_data.txt可以在下面找到请参考输出，并让我知道我的意见是否正确。这是我的意见。测试误差意味着它在训练数据的基础上有大约95%的校正。 (最奇怪的是)如果特征434大于0.0，那么它将是基于基尼杂质的1吗？例如，该值为434:178，则为1。从__future__进口print_function从pyspark.mllib.tree进口DecisionTree进口SparkContext，从pyspark.mllib.

浏览 5提问于2016-03-21得票数 0

回答已采纳

1回答

用PySpark进行多类分类的Logistic回归问题

apache-spark、pyspark、apache-spark-mllib、logistic-regression、apache-spark-ml

我试图使用Logistic Regression对特征向量中含有稀疏向量的数据集进行分类：有关完整的代码库和错误日志，请检查我的 Case 1：我尝试使用ML的管道，如下所示： # imported library from ML from pyspark.ml.feature import HashingTF from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression print(type(trainingData)) # for checking only print(

浏览 6提问于2016-08-27得票数 5

回答已采纳

1回答

Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.runJob.时出错ModuleNotFoundError:没有名为“numpy”的模块

python、machine-learning、pyspark、jupyter-notebook、data-science

有人能帮助解决这个问题吗？它没有显示名为'numpy‘的模块，但我已经在笔记本中安装并导入了它。 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 223.0 failed 1 times, most recent failure: Lost task 0.0 in stage

浏览 118提问于2019-12-03得票数 0

1回答

撤消缩放数据pyspark

apache-spark、pyspark、apache-spark-mllib

from pyspark.ml.feature import MinMaxScaler from pyspark.ml.linalg import Vectors df = spark.createDataFrame([ (0, Vectors.dense([5.0, 0.1, -1.0]),), (1, Vectors.dense([2.0, 2.1, 1.0]),), (2, Vectors.dense([3.0, 10.1, 7.0]),) ], ["id", "features"]) scaler = MinMaxScaler(in

浏览 0提问于2018-08-30得票数 4

回答已采纳

1回答

Pyspark ML -随机森林分类器-一种不适用于标签的热编码

pyspark、random-forest、apache-spark-ml、one-hot-encoding

我尝试使用pyspark ml (spark 2.4.0)运行一个随机森林分类器，并使用OHE对目标标签进行编码。当我将标签作为整数(字符串索引器)输入时，该模型训练得很好，但当我使用OneHotCodeEstimator输入一个热编码的标签时，该模型就失败了。这是火花限制吗？ #%% # Test dataframe import pyspark.sql.functions as F from pyspark.ml.feature import StringIndexer,OneHotEncoderEstimator from pyspark.ml import Pipeline from

浏览 74提问于2020-06-30得票数 0

回答已采纳

1回答

Flask + Pyspark:重复的spark会话

python、apache-spark、flask、pyspark

我正在使用PySpark和Flask，以便有一个web服务。 #!/usr/bin/env python # -*- coding: utf-8 -*- from flask import Flask, jsonify from pyspark import SparkFiles from pyspark.ml import PipelineModel from pyspark.sql import SparkSession, SQLContext from pyspark.sql.functions import col, udf from pyspark.sql.types impor

浏览 49提问于2019-02-11得票数 1

回答已采纳

1回答

如何从CrossValidatorModel中获取权重？

apache-spark、machine-learning、pyspark

我使用的以下代码使用交叉验证训练了一个logistic回归模型现在我想得到权值和拦截，但是我得到了这个错误： AttributeError：'CrossValidatorModel‘对象没有属性’权重‘ 我如何获得这些属性？ *与(trainingSummary = cvModel.summary)相同的问题 from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import BinaryCl

浏览 2提问于2017-07-27得票数 1

回答已采纳

1回答

Pyspark.ml -加载模型和管道时的误差

apache-spark、pyspark、spark3

我想要导入一个经过训练的电火花模型(或管道)到一个电火花脚本。我训练了一个这样的决策树模型： from pyspark.ml.classification import DecisionTreeClassifier from pyspark.ml.feature import VectorAssembler from pyspark.ml.feature import StringIndexer # Create assembler and labeller for spark.ml format preperation assembler = VectorAssembler(inputCo

浏览 2提问于2020-10-14得票数 0

回答已采纳

3回答

从numpy矩阵创建Spark数据帧

numpy、apache-spark、pyspark、apache-spark-sql、apache-spark-mllib

这是我第一次使用PySpark (Spark2)，我正在尝试为Logit模型创建一个玩具数据帧。我成功地运行了，并希望将我自己的数据传递给它。我试过了： %pyspark import numpy as np from pyspark.ml.linalg import Vectors, VectorUDT from pyspark.mllib.regression import LabeledPoint df = np.concatenate([np.random.randint(0,2, size=(1000)), np.random.randn(1000), 3*np.random.r

浏览 0提问于2017-07-13得票数 17

回答已采纳

2回答

在Apache Spark & Elephas中使用Keras模型作为广播变量

apache-spark、keras、broadcast

我有一个keras模型，预训练权重h5df约为700mb。我想在Apache Spark中使用它作为广播变量。1.这似乎是不可能的，因为keras模型本身不是spark感知的，也是不可序列化的。2.我在谷歌上搜索了一下，发现了Elephas库。因此，尝试在ElephasTransformer中包装Keras预训练模型。这抛出了多个错误(我使用的是python 2.7 )。例如，在Elephas的ml_model.py文件"from pyspark.ml.util import keyword_only“中，导入不可用。即使我试图注释掉这一点并在代码中进行适当的修改，它似乎也无法处理ke

浏览 6提问于2017-09-30得票数 3

1回答

火花放电中ML算法的训练

python、apache-spark、pyspark、apache-spark-mllib

我对Pyspark还不熟悉，我试图在Pyspark中创建一个ML模型--我的目标是创建一个TFidf向量器并将这些特性传递给我的支持向量机模型。我试过这个 import findspark findspark.init() from pyspark import SparkContext, SparkConf conf = SparkConf().setMaster("local[2]").setAppName("Stream") sc = SparkContext(conf=conf) parallelized = sc.parallelize(Datase

浏览 0提问于2018-02-26得票数 0

回答已采纳

1回答

如何从MultilayerPerceptronClassifier中获取神经元的权重

python、apache-spark、pyspark

我在pySpark (使用Spark1.6.0)中使用MLP多类分类器，或多或少与中的示例类似。因为我对训练模型一次，然后在不同的数据集上使用已经训练过的模型感兴趣，所以我想检索神经元的权重(就像使用pickle包为python sklearn解释一样)。但是，在读取之后，我无法获得模型的权重和内部参数。如果有帮助，我的代码是： # Importing PySpark libraries from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, HiveContext from pysp

浏览 1提问于2018-08-14得票数 0

2回答

Microsoft是否自动并行运行作业？

python、azure、pyspark、parallel-processing、random-forest

我正在使用pyspark.ml.classification库和RandomForestClassifier在Microsoft中运行一个分类模型。我的问题是：我知道在sklearn.ensemble.RandomForestClassifier中，您可以指定n_jobs parameter来配置并行运行的作业数量。在Azure中使用pyspark.ml.classification.RandomForestClassifier时，我发现每个作业都分别运行。它首先运行，作业1，当它运行工作2等。是否有一种方法可以指定在pyspark.ml.classification.RandomFo

浏览 12提问于2022-04-28得票数 0

2回答

PySpark ML: LinearSVC的OnevsRest策略

python、apache-spark、pyspark、svm、apache-spark-ml

我是PySpark的新手。我在Windows10上安装了Spark 2.3.0。我想使用线性支持向量机分类器进行交叉验证的训练，但对于有3个类的数据集。因此，我正在尝试应用Spark ML的一种vs Rest策略。但是似乎我的代码中有一些错误，因为我得到了一个错误，表明LinearSVC是用于二进制分类的。以下是我在调试时尝试执行"crossval.fit“行时出现的错误： pyspark.sql.utils.IllegalArgumentException: u'requirement failed: LinearSVC only supports binary clas

浏览 2提问于2018-05-15得票数 2

2回答

PySpark上分类输入的随机森林回归

string、machine-learning、pyspark、one-hot-encoding

我一直在尝试在PySpark上做一个简单的随机森林回归模型。我在R上有不错的机器学习经验。然而，对我来说，Pyspark上的ML似乎完全不同--特别是当涉及到处理分类变量、字符串索引和OneHotEncoding时(当只有数值变量时，我能够通过以下示例执行RF回归)。虽然有很多处理分类变量的示例，比如和，但我没有成功地使用它们中的任何一个，因为它们中的大多数都超出了我的理解(可能是因为我不熟悉Python ML)。我将感谢任何人谁可以帮助解决这个问题。这是我的尝试： from pyspark.mllib.linalg import Vectors from pyspark.ml import

浏览 4提问于2017-09-23得票数 5

2回答

用PySpark作为多类分类的Logistic回归及问题

machine-learning、logistic-regression、multiclass-classification、pyspark

我试图使用Logistic Regression对特征向量中含有稀疏向量的数据集进行分类：案例1:我尝试在MLLIB中使用ML管道，如下所示： # used libraries from pyspark.ml.feature import HashingTF from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression print(type(trainingData)) # for checking only print(trainingData.take(2)) # To

浏览 0提问于2016-08-25得票数 2

1回答

PySpark TypeError：'ParamGridBuilder‘类型的对象没有len()

pyspark、apache-spark-ml

我正在尝试使用Pyspark在Databricks上调整我的模型。我收到以下错误: TypeError：'ParamGridBuilder‘类型的对象没有len() 下面列出了我的代码。 from pyspark.ml.recommendation import ALS from pyspark.ml.evaluation import RegressionEvaluator als = ALS(userCol = "userId",itemCol="movieId", ratingCol="rating", coldStar

浏览 26提问于2019-02-09得票数 0

回答已采纳