腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
使用
spark.sql.rdd.foreach
()
修改
类
属性
apache-spark
、
pyspark
主要任务是连接Hive并
使用
spark rdd读取数据。 我已经尝试了下面的代码。连接和读取都成功,但是当我想
修改
self.jobUserProfile的值时,我失败了。似乎
修改
还没有分配到class
属性
中。
浏览 9
提问于2020-10-28
得票数 0
1
回答
在
PySpark
中寻找循环吗?
python
、
apache-spark
、
pyspark
我在Python中有一个聚
类
算法,我正试图将其转换为
PySpark
(用于并行处理)。 我有一个包含区域的数据集,并在这些区域中存储。我想对单个区域中的所有存储执行我的聚
类
算法。如何
修改
代码以删除
PySpark
中的for循环?我在
PySpark
中读过for循环通常不是一个好的实践,但我需要能够在许多子数据集上执行模型。有什么建议吗?
浏览 3
提问于2021-01-26
得票数 2
回答已采纳
1
回答
使用
PySpark
修改
结构列中的嵌套
属性
apache-spark
、
pyspark
、
apache-spark-sql
我想要
修改
/过滤结构中的
属性
。+------------------------------------------+ 模式: struct<a:string, b:array<int>> 当值在数组== 1中时,我想过滤掉'b‘
属性
中的一些值| {"a" : "some_value", "b" : [2, 3]} | #+------------------------------------------+ 有没有可能在不提
浏览 27
提问于2021-11-15
得票数 1
3
回答
在运行时增加
PySpark
可用的内存
apache-spark
、
pyspark
我正试图
使用
Spark构建一个推荐程序,但是内存不足:我希望通过在运行时
修改
spark.executor.memory
属性
(在
PySpark
中)来增加Spark可用的内存。更新del sc from
pyspa
浏览 0
提问于2015-07-16
得票数 36
回答已采纳
1
回答
1:错误:';‘需要,但找到了'import’
pyspark
我在Zeppelin中运行这段代码,得到以下错误信息from
pyspark
.sql import HiveContext sc =从
pyspark
导入SparkContext ^
浏览 0
提问于2016-11-29
得票数 2
1
回答
在
PySpark
中以分布式方式应用udf函数
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-dataframe
假设我有一个非常基本的火花DataFrame,它由几个列组成,其中一个列包含我想要
修改
的值。(这与最后一个问题没有多大关系,但实际上我在那里用sklearn做了一个预测,但为了简单起见,假设我们在添加内容,我们的想法是以某种方式
修改
这个值)。因此,给定一个dict classes={'1':2.0, '2':3.0},我希望每个
类
都有一个列,其中我将DF值添加到
类
的值中,然后将其保存到csv中:|| valuethis is 3+3.0 | 4
浏览 1
提问于2018-04-10
得票数 0
回答已采纳
1
回答
Pyspark
训练Logistic回归模型不能预测()和predictProbability()函数
machine-learning
、
pyspark
、
apache-spark-ml
我用
PySpark
MLlib内建的LogisticRegression
类
训练了一个Logistic回归模型.然而,当它被训练时,它不能被用来预测其他的数据,因为AttributeError: 'LogisticRegressionfrom
pyspark
.ml.classification import LogisticRegressionAttribute
浏览 8
提问于2021-08-12
得票数 0
回答已采纳
1
回答
没有
属性
错误将广播变量从
PySpark
传递给Java函数
apache-spark
、
pyspark
、
py4j
我在
PySpark
中注册了一个java
类
,我试图将一个广播变量从
PySpark
传递给这个
类
中的一个方法。spark.sparkContext.broadcast(binary_file.read())但这是在扔: AttributeError:“广播”对象没有
属性
但是我需要这个变量被广播,因为它将被反复
使用
。
浏览 3
提问于2020-07-04
得票数 0
1
回答
Pytest:创建SparkSession
python
、
apache-spark
、
pyspark
、
pytest
我需要测试我的星火项目
使用
pytest,我不明白如何创建一个火花会话。我做了一些研究,想出了:import unittest 我做错了什么?
浏览 6
提问于2021-12-22
得票数 0
回答已采纳
1
回答
火花放电的UDF能返回与列不同的对象吗?
python
、
dataframe
、
pyspark
、
user-defined-functions
我
使用
分类器将每一列划分为
类
,但我希望结果是
类
的摘要,而不是
修改
,我不知道这是否适用于UDF。我的代码是这样的import pandas as pdfrom
pyspark
.sql import SQLContextfrom
pyspark
.sql.types import IntegerType, St
浏览 0
提问于2018-12-18
得票数 1
回答已采纳
1
回答
从Sparkcontext对象读取应用程序配置
apache-spark
我正在开发一个火花应用程序
使用
火花公子外壳。我
使用
下面的命令启动了iPython笔记本服务,参见如何创建配置文件:根据这些文档在
PySpark
shell中,已经在名为sc的变量中为您创建了一个特殊的解释器感知的SparkContext。使您自己的SparkContext无法工作。(2)是否可以
修改
使用
iPythonnoteb
浏览 4
提问于2014-12-28
得票数 2
5
回答
如何从本地Hadoop2.6安装中访问S3/S3n?
hadoop
、
amazon-web-services
、
amazon-s3
、
hadoop-yarn
、
hadoop2
我正试图在我的本地机器上复制一个Amazon EMR集群。为此,我安装了。现在,我想访问一个S3桶,就像在EMR集群中所做的那样。<property> <value>some id</value> <name>fs.s3n.awsAccessKeyId</name> <value>some i
浏览 1
提问于2015-01-19
得票数 34
回答已采纳
2
回答
火花的S3角色授权?
amazon-s3
、
pyspark
在AWS内Cloudera上
使用
pyspark
2 (版本2.0.0.Cloudera 1)
pyspark
.sql.utils.IllegalArgumentException:必须通过设置fs.s3n.awsAccessKeyId和fs.s3n.awsSecretAccessKey
属性
来指定U‘’AWS访问密钥ID和秘密访问密钥。utp.coalesce(1).write.format('com.databricks.spark.csv
浏览 6
提问于2017-03-14
得票数 4
1
回答
代码存储库-在
pyspark
中,代码存储库中的CTX到底是什么?
palantir-foundry
、
foundry-code-repositories
我见过ctx在代码库中的
使用
,这到底是什么?它是一个内置库吗?我什么时候
使用
它? 我在下面这样的例子中看到了它: df = ctx.spark.createdataframe(...
浏览 16
提问于2020-09-24
得票数 2
回答已采纳
1
回答
我如何安装/导入火花放电-csv?
python
、
csv
、
pyspark
我试图在
PySpark
中
使用
CSV文件中的数据。我发现了一个叫做
PySpark
的模块,它完全可以满足我的需要。根据的说法,“不需要安装”,所以我想我可以将源代码解压缩到我的Python中的一个名为'
pyspark
_csv‘的目录中,然后运行他们网站上列出的命令:但是,这会使我出现一个导入错误,说明它找不到
pyspark
_cs
浏览 4
提问于2015-07-29
得票数 2
回答已采纳
1
回答
CrossValidation线性回归梯度下降
python
、
apache-spark
、
pyspark
、
apache-spark-ml
我正试图在
pyspark
中对SGD模型执行交叉验证,我正在
使用
来自
pyspark
.mllib.regression、ParamGridBuilder和CrossValidator的
pyspark
.mllib.regression、ParamGridBuilder和CrossValidator的交叉验证,它们都来自
pyspark
.ml.tuning库。evaluator=RegressionEvaluator(),但是Line
浏览 2
提问于2017-10-30
得票数 1
3
回答
用自定义除法器划分电火花中的数据帧
apache-spark
、
pyspark
、
apache-spark-sql
我在下面的链接中看到了这样的内容:我们可以在Spark应用程序中扩展scala分区器
类
,并可以
修改
partitioner
类
以
使用
自定义逻辑根据需求重新划分我们的数据。就像我的那个..。因此,如果我在repartition上
使用
COUNTRY_CODE,两个分区包含大量数据,而其他分区则很好。我
使用
glom()方法进行了检查。newdf = datadf.repartition("COUNTRY_CODE") from
pyspark
.sql imp
浏览 3
提问于2018-10-13
得票数 6
回答已采纳
2
回答
在
PySpark
中
使用
广播对象调用自定义项时出错
pyspark
、
apache-spark-sql
、
spark-dataframe
、
user-defined-functions
我正在尝试调用一个在
PySpark
中
使用
广播对象的UDF。下面是一个重现这种情况和错误的最小示例:from
pyspark
.sql.types import LongType 14 /usr/hdp/current/spark-client/python/
浏览 0
提问于2017-11-14
得票数 0
2
回答
在Jupyter笔记本中设置
PySpark
executor.memory和executor.core
apache-spark
、
pyspark
、
jupyter-notebook
我在Jupyter Notebook中初始化
PySpark
,如下所示:#conf = (conf.set("deploy-mode","client") .set("spark.driver.memory
浏览 0
提问于2018-07-31
得票数 5
1
回答
如何在写入数据时处理内存问题,其中某一列在数据库中的每个记录中包含非常大的数据
pyspark
、
azure-databricks
、
delta-lake
有一个列'x‘,它包含一个浮点值数组,并且数组的长度可以非常大(例如,数组的长度可以是250000000,5000000080000000等等)--我正在尝试读取数据,并
使用
吡火花将数据库中id列上的分区作为增量写入
浏览 16
提问于2022-05-05
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark调优
PySpark安装+Jupyter Notebook配置
Spark通信原理之Python与JVM的交互
0483-如何指定PySpark的Python运行环境
PySpark分析二进制文件
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券