PySpark Mllib预测DataFrame中的所有行

文章/答案/技术大牛

发布

2回答

、、、、

我正在使用Spark Streaming从Kafka获取批量的JSON读数。生成的批处理从RDD转换为dataframe。我的目标是对此数据帧的每一行进行分类，因此我使用VectorAssembler来创建将传递给模型的特征：rawReadingloadedModel = RandomForestModel.load(sc, "MyRandomForest.model") 我

浏览 1提问于2016-08-09得票数 0

1回答

如何使用pyspark.mllib rdd api度量来测量pyspark.ml (新数据帧api)？

、、

MlLib的旧API有评估指标类：，而新的dataframe API没有这样的类：它有计算器类，但它是有限的。

浏览 0提问于2016-09-06得票数 0

1回答

星火DataFrame如何区分不同的VectorUDT对象？

、、、、

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。|-- old_DenseVector: vector (nullable = true)但是当我一行行地检索它们时<class 'py

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

分类树的倾向- mlib火花

、

我正在建立一个预测模型来预测一个客户根据某个因变量进行购买的倾向。我正在使用决策树。我需要在0到1之间购买的倾向。我如何获得这些值，因为我的目标是二进制1或0(不管是否会)。

浏览 2提问于2015-03-18得票数 1

回答已采纳

1回答

如何从文件中读取数据并将其传递给Spark/PySpark中的FPGrowth算法

、、、

我试图从文件(用逗号分隔的项)中读取数据，并使用FPGrowth算法将这些数据传递给PySpark算法。到目前为止，我的代码如下：from pyspark import SparkContext ----> 4 model = fpg.fit

浏览 4提问于2017-12-11得票数 0

回答已采纳

2回答

无法将<class‘pyspark.ml.linalgs.parseVector’>类型转换为向量

、、、、

考虑到我的火花放电行对象：Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}))>>> row.features>>> type(row.features) <class 'pyspark.ml.linalg.SparseVecto

浏览 2提问于2016-12-10得票数 6

回答已采纳

2回答

将pyspark算法的结果添加到数据中？

、、

我有一个包含地理信息的火花数据。.| 42.6753 | 23.3218 | 我把经度和纬度从我的数据中取出来，并用火花放电库计算了一些中心点。有谁知道如何在我的数据中添加匹配中心吗？

浏览 6提问于2017-08-15得票数 0

1回答

如何用MLlib在星火上生成元组(原标签，预测标签)？

、、

我试图用我从星火上的MLlib上得到的模型来做预测。目标是生成(orinalLabelInData，predictedLabel)的元组。然后将这些元组用于模型评价。实现这一目标的最佳途径是什么？假设parsedTrainData是LabeledPoint的RDDfrom pyspark.mllib.treeimpo

浏览 1提问于2015-07-28得票数 2

回答已采纳

1回答

在未指定类数的情况下，为U‘’DecisionTreeClassifier提供了无效标签列标签的输入。请参阅StringIndexer

、、

import Vectors from pyspark.mllib.regression importLabeledPoint import org.apache.spark.mllib.linalg._fit_java(dataset)文件第130行<

浏览 2提问于2017-04-21得票数 0

2回答

使用MLLIB的pyspark数据帧中的点积

、、、

我在pyspark中有一个非常简单的dataframe，类似于： from pyspark.sql import Row offer_row(DenseVector([1, 1, 1]), DenseVector([1, 0, 0])), ]).toDF() 我想要计算这些向量的点积spark MLLI

浏览 17提问于2019-05-02得票数 1

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。有一篇优秀的StackOverflow文章展示了如何在PySpark：中执行PCA>>> from pyspark.ml.featureimport * >>> from <

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

MatrixFactorizationModel在PySpark中的缓存因子

、、、

加载保存的MatrixFactorizationModel后，我会得到警告: MatrixFactorizationModelWrapper: Product没有分区程序。对个别记录的预测可能很慢。添加演示问题的代码：import sys from p

浏览 2提问于2015-08-25得票数 5

回答已采纳

1回答

如何在流查询中使用MLlib模型(“字段”功能失败“不存在”)？

、、、、

我试图使用保存的Mllib模型来预测实时流数据的情绪。root |-- words: array (nullable = true) .load()\

浏览 0提问于2019-11-07得票数 1

1回答

火花放电中数据的稀疏向量

、

我在“火花放电”中找到了像这样的稀疏矢量我怎样才能把它转换成熊猫的数据，有两个像这样的栏1 5 2

浏览 0提问于2018-04-09得票数 0

回答已采纳

3回答

将dataframe转换为libsvm格式

、、、、

我有一个由sql查询产生的数据帧我需要将此数据帧转换为libsvm格式，以便将其作为输入提供给import org.apache.spark.mllib.util.MLUtils No module named org.apache.spark.mllib.util.MLUti

浏览 0提问于2017-05-11得票数 8

回答已采纳

1回答

如何在实际预测中使用吡火花mllib* RegressionMetrics*

、、

使用pyscema1.4，我尝试使用RegressionMetrics()来进行由LinearRegressionWithSGD生成的预测。在RegressionMetrics()中给出的所有示例都用于“人工”预测和观察，如下面是一个简短的可重复的例子。from pyspark.mllib

浏览 2提问于2015-07-16得票数 4

回答已采纳

1回答

我是火花，大数据和scala的初学者，我试图用一个样本数据集在星火中建立一个预测模型。我想要使用pySpark，但是当前mllib对于pyspark有限制，因为它不进行保存和加载。0,24000，1，1，1，0，0，26，0，0，1，1，0，0，0，0,75000，1，1，1，1，1，0，15，1，0，1，1，1，1，0，0 基本上，这些数据有助于根据所有给定参数预测用户是否购买此杂志如何将这些数据转换为Spark轻松解释的格式？(我在这里看过

浏览 3提问于2015-07-06得票数 2

4回答

PySpark计算相关性

、、、、

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。

浏览 12提问于2016-06-03得票数 16

回答已采纳

2回答

火花决策树

、、、

我将提供的示例代码内置到我的笔记本电脑中，并试图理解它的输出。但我一点也听不懂。下面是代码，sample_libsvm_data.txt可以在下面找到 (最奇怪的是)如果特征434大于0.0，那么它将是基于基尼杂质的1吗？例如，该值为434:178，则为1。从__future__进口print_function从<e

浏览 5提问于2016-03-21得票数 0

回答已采纳

1回答

MLlib regexTokenizer正在忽略重音

、、

我正在用pySpark(Python3)测试MLlib标记器： # -*- coding: utf-8 -*- frompyspark.sql.functions import row_numbersentenceData = spark.createDa

浏览 9提问于2020-01-07得票数 0

点击加载更多