腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
PySpark
Mllib
预测
DataFrame
中
的
所有
行
、
、
、
、
我正在使用Spark Streaming从Kafka获取批量
的
JSON读数。生成
的
批处理从RDD转换为
dataframe
。我
的
目标是对此数据帧
的
每一
行
进行分类,因此我使用VectorAssembler来创建将传递给模型
的
特征:rawReadingloadedModel = RandomForestModel.load(sc, "MyRandomForest.model") 我
浏览 1
提问于2016-08-09
得票数 0
1
回答
如何使用
pyspark
.
mllib
rdd api度量来测量
pyspark
.ml (新数据帧api)?
、
、
MlLib
的
旧API有评估指标类:,而新
的
dataframe
API没有这样
的
类: 它有计算器类,但它是有限
的
。
浏览 0
提问于2016-09-06
得票数 0
1
回答
星火
DataFrame
如何区分不同
的
VectorUDT对象?
、
、
、
、
我正在尝试理解
DataFrame
列类型。当然,
DataFrame
不是一个物化
的
对象,它只是一组Spark
的
指令,将来要转换成代码。但我认为,这个类型列表代表了在执行操作时JVM
中
可能出现
的
对象类型。|-- old_DenseVector: vector (nullable = true)但是当我一
行
行
地检索它们时<class '
py
浏览 1
提问于2016-07-31
得票数 7
回答已采纳
1
回答
分类树
的
倾向- mlib火花
、
我正在建立一个
预测
模型来
预测
一个客户根据某个因变量进行购买
的
倾向。我正在使用决策树。我需要在0到1之间购买
的
倾向。我如何获得这些值,因为我
的
目标是二进制1或0(不管是否会)。
浏览 2
提问于2015-03-18
得票数 1
回答已采纳
1
回答
如何从文件
中
读取数据并将其传递给Spark/
PySpark
中
的
FPGrowth算法
、
、
、
我试图从文件(用逗号分隔
的
项)
中
读取数据,并使用FPGrowth算法将这些数据传递给
PySpark
算法。到目前为止,我
的
代码如下:from
pyspark
import SparkContext ----> 4 model = fpg.fit
浏览 4
提问于2017-12-11
得票数 0
回答已采纳
2
回答
无法将<class‘
pyspark
.ml.linalgs.parseVector’>类型转换为向量
、
、
、
、
考虑到我
的
火花放电
行
对象:Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}))>>> row.features>>> type(row.features) <class '
pyspark
.ml.linalg.SparseVecto
浏览 2
提问于2016-12-10
得票数 6
回答已采纳
2
回答
将
pyspark
算法
的
结果添加到数据
中
?
、
、
我有一个包含地理信息
的
火花数据。.| 42.6753 | 23.3218 | 我把经度和纬度从我
的
数据
中
取出来,并用火花放电库计算了一些中心点。有谁知道如何在我
的
数据
中
添加匹配中心吗?
浏览 6
提问于2017-08-15
得票数 0
1
回答
如何用
MLlib
在星火上生成元组(原标签,
预测
标签)?
、
、
我试图用我从星火上
的
MLlib
上得到
的
模型来做
预测
。目标是生成(orinalLabelInData,predictedLabel)
的
元组。然后将这些元组用于模型评价。实现这一目标的最佳途径是什么?假设parsedTrainData是LabeledPoint
的
RDDfrom
pyspark
.
mllib
.treeimpo
浏览 1
提问于2015-07-28
得票数 2
回答已采纳
1
回答
在未指定类数
的
情况下,为U‘’DecisionTreeClassifier提供了无效标签列标签
的
输入。请参阅StringIndexer
、
、
import Vectors from
pyspark
.
mllib
.regression importLabeledPoint import org.apache.spark.
mllib
.linalg._fit_java(dataset)文件第130
行
<
浏览 2
提问于2017-04-21
得票数 0
2
回答
使用
MLLIB
的
pyspark
数据帧
中
的
点积
、
、
、
我在
pyspark
中有一个非常简单
的
dataframe
,类似于: from
pyspark
.sql import Row offer_row(DenseVector([1, 1, 1]), DenseVector([1, 0, 0])), ]).toDF() 我想要计算这些向量
的
点积spark
MLLI
浏览 17
提问于2019-05-02
得票数 1
1
回答
PySpark
PCA:如何将数据
行
从多列转换为单列DenseVector?
、
、
、
、
我想使用
PySpark
(Spark1.6.2)对存在于Hive表
中
的
数值数据执行主成分分析(PCA)。有一篇优秀
的
StackOverflow文章展示了如何在
PySpark
:
中
执行PCA>>> from
pyspark
.ml.featureimport * >>> from <
浏览 1
提问于2016-10-06
得票数 4
回答已采纳
1
回答
MatrixFactorizationModel在
PySpark
中
的
缓存因子
、
、
、
加载保存
的
MatrixFactorizationModel后,我会得到警告: MatrixFactorizationModelWrapper: Product没有分区程序。对个别记录
的
预测
可能很慢。添加演示问题
的
代码:import sys from
p
浏览 2
提问于2015-08-25
得票数 5
回答已采纳
1
回答
如何在流查询中使用
MLlib
模型(“字段”功能失败“不存在”)?
、
、
、
、
我试图使用保存
的
Mllib
模型来
预测
实时流数据
的
情绪。root |-- words: array (nullable = true) .load()\
浏览 0
提问于2019-11-07
得票数 1
1
回答
火花放电
中
数据
的
稀疏向量
、
我在“火花放电”中找到了像这样
的
稀疏矢量我怎样才能把它转换成熊猫
的
数据,有两个像这样
的
栏1 5 2
浏览 0
提问于2018-04-09
得票数 0
回答已采纳
3
回答
将
dataframe
转换为libsvm格式
、
、
、
、
我有一个由sql查询产生
的
数据帧我需要将此数据帧转换为libsvm格式,以便将其作为输入提供给import org.apache.spark.
mllib
.util.MLUtils No module named org.apache.spark.
mllib
.util.MLUti
浏览 0
提问于2017-05-11
得票数 8
回答已采纳
1
回答
如何在实际
预测
中使用吡火花
mllib
RegressionMetrics
、
、
使用pyscema1.4,我尝试使用RegressionMetrics()来进行由LinearRegressionWithSGD生成
的
预测
。在RegressionMetrics()
中
给出
的
所有
示例都用于“人工”
预测
和观察,如下面是一个简短
的
可重复
的
例子。from
pyspark
.
mllib
浏览 2
提问于2015-07-16
得票数 4
回答已采纳
1
回答
用于
预测
分析
的
Logistic回归方法
、
、
、
、
我是火花,大数据和scala
的
初学者,我试图用一个样本数据集在星火中建立一个
预测
模型。我想要使用
pySpark
,但是当前
mllib
对于
pyspark
有限制,因为它不进行保存和加载。0,24000,1,1,1,0,0,26,0,0,1,1,0,0,0,0,75000,1,1,1,1,1,0,15,1,0,1,1,1,1,0,0 基本上,这些数据有助于根据
所有
给定参数
预测
用户是否购买此杂志如何将这些数据转换为Spark轻松解释
的
格式?(我在这里看过
浏览 3
提问于2015-07-06
得票数 2
4
回答
PySpark
计算相关性
、
、
、
、
我想使用
pyspark
.
mllib
.stat.Statistics.corr函数来计算
pyspark
.sql.
dataframe
.
DataFrame
对象
的
两列之间
的
相关性。
浏览 12
提问于2016-06-03
得票数 16
回答已采纳
2
回答
火花决策树
、
、
、
我将提供
的
示例代码内置到我
的
笔记本电脑中,并试图理解它
的
输出。但我一点也听不懂。下面是代码,sample_libsvm_data.txt可以在下面找到 (最奇怪
的
是)如果特征434大于0.0,那么它将是基于基尼杂质
的
1吗?例如,该值为434:178,则为1。从__future__进口print_function从<e
浏览 5
提问于2016-03-21
得票数 0
回答已采纳
1
回答
MLlib
regexTokenizer正在忽略重音
、
、
我正在用
pySpark
(Python3)测试
MLlib
标记器: # -*- coding: utf-8 -*- from
pyspark
.sql.functions import row_numbersentenceData = spark.createDa
浏览 9
提问于2020-01-07
得票数 0
点击加载更多
相关
资讯
pyspark 一个大数据处理神器的Python库!
PySaprk之DataFrame
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理
Python开源数据分析工具TOP 3!
遇见YI算法之初识Pyspark(二)
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券