腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
pyspark
中
设置
spark.executor.plugins
、
、
、
我有一段python代码,其中有一些rdd函数,我想将其分发到多个执行器
中
。 我希望在sparkish代码运行之前,能够在每个执行器上执行一些python代码(初始化一个记录器方法)。我读到并发现这是可能的,通过在创建spark会话时提供
spark.executor.plugins
,但是找不到任何关于如
何在
python spark api(
pyspark
)中使用它的文档。使用
pyspark
2.4.4版本
浏览 14
提问于2020-07-03
得票数 0
1
回答
使用套接字的火花结构化流,
设置
模式,在控制台中显示DATAFRAME
、
、
、
如
何在
DataFrame
中
为流
PySpark
设置
架构。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functionsimport splitfrom
pyspark
.sql.types import * .bui
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
1
回答
使用
pyspark
从s3读取流数据
、
、
、
、
我想利用python的极其简单的文本解析和函数式编程能力,并利用丰富的科学计算库,
如
numpy和scipy,因此我想使用
pyspark
来完成一项任务。我一开始要执行的任务是从一个存储桶
中
读取数据,其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段,说明如何使用
pyspark
从s3路径
中
读取流数据吗?直到最近我还以为只能使用scala和java才能做到这一点,但我今天才发现Spark1.2以后的版本,
pyspark
也支持流媒体,但不确定是否支持S3流媒体?我过去在scala中使用
浏览 1
提问于2015-04-11
得票数 2
1
回答
如何更正我的Spark
设置
以允许SparkContext在mac上的jupyter笔记本
中
工作
、
、
、
、
我正在寻找最简单的建议来更正我的Spark安装和
设置
,以便我可以在jupyter笔记本上正确运行: from
pyspark
import SparkContext sc = SparkContext() 在jupyter notebook
中
,我在之前安装spark-2.0.0-bin-hadoop2.7的目录
中
得到了与file not file错误相关的以下错误。我刚开始
设置
变量,不能正确地完成整个
设置
,所以我删除了我在.bashrc
中
添加的变量和应用程序
中<
浏览 10
提问于2019-06-11
得票数 1
1
回答
如何将索引转换为
PySpark
DataFrame?
、
、
、
我有一个
PySpark
DataFrame,类似:------------|201 |efgh ||133 |mnop|mylist = ['abcd', 'ijkl', 'efgh', 'efgh', 'abcd', 'ijkl', 'ijkl'] 我希望使用
pyspark
将列表
浏览 2
提问于2019-08-20
得票数 1
回答已采纳
4
回答
在intellij上
设置
pySpark
、
、
如
何在
intellij上
设置
pySpark
。即使在
设置
了环境变量spark_home和pythonpath之后,导入
pySpark
仍会给出错误-导入错误:没有名为
pySpark
的模块
浏览 1
提问于2017-05-05
得票数 0
1
回答
在使用
PySpark
时,如
何在
Spark
中
实现Python数据结构?
、
、
、
我目前正在自学Spark programming,并试图用
PySpark
重新编写一个现有的Python应用程序。然而,我仍然对如
何在
PySpark
中使用常规Python对象感到困惑。我了解Spark
中
的分布式数据结构,
如
RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是,如果我在
PySpark
中
创建传统的Python数据对象,比如数组、列表
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
3
回答
Spark worker
中
的python版本与Spark驱动程序不匹配
、
、
、
例外: worker
中
的Python2.7版与驱动程序3.5
中
的版本不同,
PySpark
无法在不同的次要versions.Please检查环境变量
PYSPARK
_PYTHON和
PYSPARK
_DRIVER_PYTHON正确
设置
的情况下运行。如
何在
worker
中
更改python版本?(我在独立模式下使用Spark )
浏览 62
提问于2019-01-10
得票数 1
1
回答
如
何在
Visual代码
中
向PYTHONPATH添加或追加python或
PySpark
模块
、
、
、
、
在IDE
中
设置
Pyspark
的两种方法是: 通过在"PYTHONPATH“路径
中
添加
PySpark
模块,如下文所述。- [
PySpark
in Eclipse: using PyDev](https://stackoverflow.com/questions/33326749/
pyspark
-in-eclipse-using-pydev&
浏览 1
提问于2019-03-11
得票数 0
回答已采纳
1
回答
如何
设置
MEMORY_AND_DISK标志以防止
PySpark
在木星中出现内存错误?
、
、
我正在处理大量的数据,这些数据无法通过
PySpark
中
的可用内存进行处理,这会导致内存不足。为此,我需要使用MEMORY_AND_DISK选项。我的问题是:如
何在
PySpark
朱庇特笔记本
中
启用这个标志?我在找这样的东西: .master('local[*]') \ .config("spark.drive
浏览 3
提问于2020-06-09
得票数 0
回答已采纳
1
回答
使用Databricks Snowflake连接器通过Okta身份验证连接到Snowflake
、
、
、
、
在示例
中
,连接是使用Snowflake帐户的用户名和密码建立的。但是,在我的情况下,我通过Okta进行身份验证。我可以看到有一个Okta身份验证选项可以使用进行连接。有没有人有过类似的用例,或者知道
设置
?我们将非常感谢您的帮助。 谢谢,苏莉娅
浏览 17
提问于2020-06-06
得票数 0
1
回答
如何为HIVE/
PySpark
表
中
的每一列获取唯一值?
、
、
我有一张带有A、B和C列的HIVE/
PySpark
的桌子。我想为每一列获得唯一的值,
如
任何格式(数据、表格等) 如
何在
或
PySpark
中高效地执行这个(与每个列并行)?
浏览 0
提问于2018-07-18
得票数 0
回答已采纳
1
回答
如
何在
火花流
中
启用背压(使用火花放电)
、
、
、
我想知道通过backpressure在spark streaming
中
通过
pyspark
启用
pyspark
的正确方法是什么。看起来我在很短的时间内收到了太多来自Kafka的消息,然后就爆炸了。
浏览 1
提问于2018-05-13
得票数 2
回答已采纳
3
回答
Google Cloud Datalab上的
pyspark
、
如
何在
google-cloud-datalab笔记本中导入
pyspark
?即使在节点上
设置
了PYTHONPATH,SPARK_HOME,它也不能工作?我错过了什么吗?ImportErrorTraceback (most recent call last) ----> 1 import
pyspark
ImportError: No module named
pyspark
浏览 1
提问于2016-11-22
得票数 1
1
回答
没有为方案配置AbstractFileSystem : gs
、
、
at org.apache.hadoop.fs.AbstractFileSystem.createFileSystem(AbstractFileSystem.java:160) 我能够在命令行
中
运行
浏览 13
提问于2021-12-09
得票数 0
4
回答
Python导入语法:我不认识这个(“它错了.”)
、
PySpark
的文档在示例
中
包括以下内容:from
pyspark
.sql.functions import *from datetime import date, timedelta, datetime 我不认识或理解最后两行的语法。我知道导入路径
中
的.和.. (“相对导入路径”),但是这个语法对我来说是新的,我找不到它的文档位置或名称。我
浏览 5
提问于2022-06-15
得票数 0
回答已采纳
1
回答
Zeppling
中
缺少%velo解释器
、
我已经
设置
了vora,安装和
设置
一切正常后,Zeppline帐户
中
的解释器%velo丢失,我有其他解释器,
如
%spark,%
pyspark
,%sql,%dep,%vora,但%velo丢失,我如何获得它
浏览 2
提问于2016-03-01
得票数 0
1
回答
在
设置
了环境变量之后,我的
pyspark
在ubuntu
中
失败了。
、
、
我安装了anaconda的火花放电之后,在我的jupyter笔记本
中
,它工作得很好,但是在教程中提到了https://mortada.net/3-easy-steps-to-set-up-
pyspark
.html,您必须
设置
环境变量,
如
$ export
PYSPARK
_PYTHON=~
浏览 0
提问于2021-05-09
得票数 0
10
回答
使用
pyspark
创建spark数据帧时出现Py4J错误
、
、
我已经在python3.6
中
安装了
pyspark
,并且我正在使用jupyter notebook来初始化一个spark会话。from
pyspark
.sql import SparkSessionfrom
pyspark
import SparkContextprint(sc.version)
浏览 0
提问于2018-03-02
得票数 11
2
回答
如何与
PySpark
、SparkSQL和Cassandra合作?
、
、
、
我有点困惑于不同的演员在这个故事:
PySpark
,SparkSQL,卡桑德拉和火星雨-卡桑德拉连接器。cc.setKeyspace("mykeyspace")我怎样才能用
pyspark
是否需要火星雨 我需要使用
pyspark
还是可以自己使用常规的jupyter notebook并导入必需的东西?
浏览 7
提问于2016-02-28
得票数 1
点击加载更多
相关
资讯
如何在excel中设置打印格式
如何在django中设置定时任务?
如何在Excel表格中设置批注图片?
如何在Excel中设置数据标识圈?
如何在 Arch Linux 中设置日语环境
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
对象存储
活动推荐
运营活动
广告
关闭
领券