如何在pyspark中设置spark.executor.plugins

文章/答案/技术大牛

发布

1回答

、、、

我有一段python代码，其中有一些rdd函数，我想将其分发到多个执行器中。我希望在sparkish代码运行之前，能够在每个执行器上执行一些python代码(初始化一个记录器方法)。我读到并发现这是可能的，通过在创建spark会话时提供spark.executor.plugins，但是找不到任何关于如何在python spark api(pyspark)中使用它的文档。使用pyspark 2.4.4版本

浏览 14提问于2020-07-03得票数 0

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

、、、

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functionsimport splitfrom pyspark.sql.types import * .bui

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

使用pyspark从s3读取流数据

、、、、

我想利用python的极其简单的文本解析和函数式编程能力，并利用丰富的科学计算库，如numpy和scipy，因此我想使用pyspark来完成一项任务。我一开始要执行的任务是从一个存储桶中读取数据，其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段，说明如何使用pyspark从s3路径中读取流数据吗？直到最近我还以为只能使用scala和java才能做到这一点，但我今天才发现Spark1.2以后的版本，pyspark也支持流媒体，但不确定是否支持S3流媒体？我过去在scala中使用

浏览 1提问于2015-04-11得票数 2

1回答

如何更正我的Spark设置以允许SparkContext在mac上的jupyter笔记本中工作

、、、、

我正在寻找最简单的建议来更正我的Spark安装和设置，以便我可以在jupyter笔记本上正确运行： from pyspark import SparkContext sc = SparkContext() 在jupyter notebook中，我在之前安装spark-2.0.0-bin-hadoop2.7的目录中得到了与file not file错误相关的以下错误。我刚开始设置变量，不能正确地完成整个设置，所以我删除了我在.bashrc中添加的变量和应用程序中<

浏览 10提问于2019-06-11得票数 1

1回答

如何将索引转换为PySpark* DataFrame？*

、、、

我有一个PySpark DataFrame，类似：------------|201 |efgh ||133 |mnop|mylist = ['abcd', 'ijkl', 'efgh', 'efgh', 'abcd', 'ijkl', 'ijkl'] 我希望使用pyspark将列表

浏览 2提问于2019-08-20得票数 1

回答已采纳

4回答

在intellij上设置pySpark

、、

如何在intellij上设置pySpark。即使在设置了环境变量spark_home和pythonpath之后，导入pySpark仍会给出错误-导入错误:没有名为pySpark的模块

浏览 1提问于2017-05-05得票数 0

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对象，比如数组、列表

浏览 34提问于2017-03-01得票数 1

回答已采纳

3回答

Spark worker中的python版本与Spark驱动程序不匹配

、、、

例外: worker中的Python2.7版与驱动程序3.5中的版本不同，PySpark无法在不同的次要versions.Please检查环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON正确设置的情况下运行。如何在worker中更改python版本？(我在独立模式下使用Spark )

浏览 62提问于2019-01-10得票数 1

1回答

如何在Visual代码中向PYTHONPATH添加或追加python或PySpark模块

、、、、

在IDE中设置Pyspark的两种方法是：通过在"PYTHONPATH“路径中添加PySpark模块，如下文所述。- [PySpark in Eclipse: using PyDev](https://stackoverflow.com/questions/33326749/pyspark-in-eclipse-using-pydev&

浏览 1提问于2019-03-11得票数 0

回答已采纳

1回答

如何设置MEMORY_AND_DISK标志以防止PySpark在木星中出现内存错误？

、、

我正在处理大量的数据，这些数据无法通过PySpark中的可用内存进行处理，这会导致内存不足。为此，我需要使用MEMORY_AND_DISK选项。我的问题是:如何在PySpark朱庇特笔记本中启用这个标志？我在找这样的东西： .master('local[*]') \ .config("spark.drive

浏览 3提问于2020-06-09得票数 0

回答已采纳

1回答

使用Databricks Snowflake连接器通过Okta身份验证连接到Snowflake

、、、、

在示例中，连接是使用Snowflake帐户的用户名和密码建立的。但是，在我的情况下，我通过Okta进行身份验证。我可以看到有一个Okta身份验证选项可以使用进行连接。有没有人有过类似的用例，或者知道设置？我们将非常感谢您的帮助。谢谢，苏莉娅

浏览 17提问于2020-06-06得票数 0

1回答

如何为HIVE/PySpark表中的每一列获取唯一值？

、、

我有一张带有A、B和C列的HIVE/PySpark的桌子。我想为每一列获得唯一的值，如任何格式(数据、表格等) 如何在或PySpark中高效地执行这个(与每个列并行)？

浏览 0提问于2018-07-18得票数 0

回答已采纳

1回答

如何在火花流中启用背压(使用火花放电)

、、、

我想知道通过backpressure在spark streaming中通过pyspark启用pyspark的正确方法是什么。看起来我在很短的时间内收到了太多来自Kafka的消息，然后就爆炸了。

浏览 1提问于2018-05-13得票数 2

回答已采纳

3回答

Google Cloud Datalab上的pyspark

、

如何在google-cloud-datalab笔记本中导入pyspark？即使在节点上设置了PYTHONPATH，SPARK_HOME，它也不能工作？我错过了什么吗？ImportErrorTraceback (most recent call last) ----> 1 import pysparkImportError: No module named pyspark

浏览 1提问于2016-11-22得票数 1

1回答

没有为方案配置AbstractFileSystem : gs

、、

at org.apache.hadoop.fs.AbstractFileSystem.createFileSystem(AbstractFileSystem.java:160) 我能够在命令行中运行

浏览 13提问于2021-12-09得票数 0

4回答

Python导入语法:我不认识这个(“它错了.”)

、

PySpark的文档在示例中包括以下内容：from pyspark.sql.functions import *from datetime import date, timedelta, datetime 我不认识或理解最后两行的语法。我知道导入路径中的.和.. (“相对导入路径”)，但是这个语法对我来说是新的，我找不到它的文档位置或名称。我

浏览 5提问于2022-06-15得票数 0

回答已采纳

1回答

Zeppling中缺少%velo解释器

、

我已经设置了vora，安装和设置一切正常后，Zeppline帐户中的解释器%velo丢失，我有其他解释器，如%spark，%pyspark，%sql，%dep，%vora，但%velo丢失，我如何获得它

浏览 2提问于2016-03-01得票数 0

1回答

在设置了环境变量之后，我的pyspark在ubuntu中失败了。

、、

我安装了anaconda的火花放电之后，在我的jupyter笔记本中，它工作得很好，但是在教程中提到了https://mortada.net/3-easy-steps-to-set-up-pyspark.html，您必须设置环境变量，如 $ export PYSPARK_PYTHON=~&#x

浏览 0提问于2021-05-09得票数 0

10回答

使用pyspark创建spark数据帧时出现Py4J错误

、、

我已经在python3.6中安装了pyspark，并且我正在使用jupyter notebook来初始化一个spark会话。from pyspark.sql import SparkSessionfrom pyspark import SparkContextprint(sc.version) &#

浏览 0提问于2018-03-02得票数 11

2回答

如何与PySpark、SparkSQL和Cassandra合作？

、、、

我有点困惑于不同的演员在这个故事: PySpark，SparkSQL，卡桑德拉和火星雨-卡桑德拉连接器。cc.setKeyspace("mykeyspace")我怎样才能用pyspark是否需要火星雨我需要使用pyspark还是可以自己使用常规的jupyter notebook并导入必需的东西？

浏览 7提问于2016-02-28得票数 1

点击加载更多