使用pyspark创建sparksession后需要停止spark吗？_使用Graph创建团队后需要等待吗？_应用转换后，需要将数据从Hadoop加载到Druid。如果我使用Spark，我们可以直接从Spark RDD或dataframe加载数据到Druid吗？ - 腾讯云开发者社区

python、pyspark

所以我有这样的想法： from pyspark.sql import SparkSession spark = SparkSession.builder.appName("NewSpark").getOrCreate() 我听说你需要在完成后停止spark，但对于我来说，这是必要的吗，因为它只是一个python程序？

浏览 229提问于2021-10-29得票数 0

回答已采纳

1回答

无法在木星笔记本上使用GraphFrames和PySpark进行分析

python、apache-spark、pyspark、jupyter-notebook、graphframes

我正在使用木星笔记本，我已经成功地安装了火花。为了安装GraphFrames，我直接从笔记本上做了!pip install graphframes，它成功地运行了。问题是，我可以在笔记本中导入graphframes并创建一个没有任何错误的GraphFrame对象，但是在运行inDegrees或任何其他计算时，我会得到一个错误。，我想指定PySpark在不使用图形框架时工作得很好。我不知道这是否有助于识别问题，但是当我在cmd中输入python时，它使用了我不久前安装的3.9.2版本。这有可能发生冲突<e

浏览 12提问于2022-02-23得票数 0

2回答

PySpark + jupyter notebook

apache-spark、pyspark

我尝试在我的笔记本中配置一个spark上下文，但出现了一些问题，我这样做了：from pyspark import SparkContext, SparkConf sc.stop() spark.stop() conf = conf.setAppName") sp

浏览 2提问于2018-01-25得票数 0

1回答

只应在驱动程序上创建和访问SparkContext。

pyspark、azure-databricks

我使用带有核心的Azure (10.4LTS(包括ApacheSpark3.2.1，Scala2.12))。如果我只使用进口熊猫，它运行良好，但需要超过3个小时。对我来说，我有数十亿的记录要处理。我要调这个UDF，请帮忙。import pyspark.pandas as pd dataframe = pd.DataFrame([300,600,900,1200,1500,1800,2100,2400,2700,3000,3300,3600getne

浏览 6提问于2022-07-25得票数 0

1回答

有没有办法从pyspark连接到postgresql (dbeaver )？

sql、python-3.x、postgresql、apache-spark、pyspark

你好，我现在安装了pyspark，我在DBeaver中有一个本地的postgres数据库:我如何从pyspark连接到postgres？我试过了 from pyspark.sql import DataFrameReader properties =sqlContext).jdbc( url='jdbc:%s' % url, table='tw_db', p

浏览 69提问于2021-08-24得票数 0

回答已采纳

1回答

AttributeError：'SparkSession‘对象没有属性’序列化程序‘

pyspark、pyspark-sql

我使用的是火花器2.0.1 print(l.b_appid) mrdd = sqlC.read.parquet("hdfs:/

浏览 3提问于2017-02-21得票数 1

2回答

如何使用Spark上下文？

python、apache-spark、pyspark、jupyter-notebook、jupyter

我将值赋值为sc = pyspark.SparkContext()。它在jupyter笔记本上运行了很长时间，没有响应，因为出现了星号，并且没有显示任何错误。我试过sc = SparkContext()import ossc = pyspark.SparkContext() # At this part it don't respond from pyspark.sql i

浏览 1提问于2019-05-29得票数 0

3回答

无法在jupyter笔记本中导入sparkdl

apache-spark、pyspark、deep-learning、jupyter-notebook

我正在尝试使用jupyter notebook中的spark deep learning library()。当我在cli中运行以下命令时我可以在spark shell如何在jupyter notebook中使用这个库？

浏览 0提问于2019-03-27得票数 2

3回答

如何导入sparksession

apache-spark

如何创建sparksession？scala> import org.apache.spark.SparkConf scala> val conf = SparkSession.builder.master("

浏览 128提问于2019-08-21得票数 5

2回答

无法创建火花会话

python、machine-learning、networking、pyspark、jupyter-notebook

当我创建火花会话时，它会抛出一个错误。无法创建火花会话 131 " note this option will be removed in Sparkfrom pyspark impo

浏览 3提问于2019-05-03得票数 2

3回答

如何在交互式PySpark会话中更改SparkContext属性

python、apache-spark、pyspark

如何在pyspark交互式shell中更改spark.driver.maxResultSize？我使用了以下代码conf = (SparkConf() .set("spark.driver.maxResultSize

浏览 3提问于2015-09-03得票数 14

回答已采纳

2回答

“PipelinedRDD”对象在PySpark中没有属性“toDF”

python、apache-spark、pyspark、apache-spark-sql、rdd

我正在尝试加载一个支持向量机文件并将其转换为DataFrame，这样我就可以使用Spark的ML模块(Pipeline ML)。我刚刚在Ubuntu14.04(没有配置spark-env.sh )上安装了一个全新的Spark 1.5.0。我的my_script.py是：from pyspark import SparkContext sc = SparkContext("local",

浏览 0提问于2015-09-26得票数 55

回答已采纳

4回答

NameError:未定义名称“spark”

apache-spark、machine-learning、pyspark、distributed-computing、apache-spark-ml

我正在从官方文档网站复制pyspark.ml示例：df = spark.createDataFrame(data, ["features"])<ipython-input-28-aaffcd123

浏览 4提问于2016-09-16得票数 32

回答已采纳

6回答

spark 2.1.0会话配置设置(pyspark)

python、apache-spark、pyspark、spark-dataframe

spark = SparkSession.builder .enableHiveSupport() spark.conf.set('spark

浏览 12提问于2017-01-27得票数 48

回答已采纳

2回答

SparkSession与SparkContext在PySpark中的启动

scala、apache-spark、pyspark、databricks

我想知道Scala中以下代码的PySpark等效值。我在使用数据库。我需要的输出如下：-val new_spark = spark.newSession() new_spark: org.apache.spark.sql.SparkSession = org.apache.spark.sql.

浏览 2提问于2020-08-11得票数 0

回答已采纳

1回答

如何在spark集群中使用Prefect的资源管理器

apache-spark、pyspark、prefect

我一直在使用Prefect进行工作流管理，但在使用Prefect的资源管理器建立和停止spark会话时遇到了麻烦。我浏览了Prefects文档，下面提供了一个使用Dusk的示例： from prefect import resource_manager some_task(client) some_other_task(client)

浏览 23提问于2021-08-20得票数 2

1回答

是否有办法在EMR作业完成后自动删除检查点文件夹？

apache-spark、pyspark、amazon-emr

我在我的pyspark代码中创建和使用检查点。由于我使用的是非常大的数据帧，因此随着时间的推移，它们的大小往往会膨胀。有没有办法在作业完成后删除检查点文件夹？例如，如下伪代码所示：spark = SparkSession.builder.getOrCreate() sc = spark.sparkContextspark.s

浏览 2提问于2021-05-02得票数 1

2回答

如何修复运行"sc = SparkContext()“时出现的错误"TypeError：'module‘object is not callable”？

pyspark、jupyter-notebook

我按照说明在Amazon AWS上安装了PySpark：https://medium.com/@josemarcialportilla/getting-spark-python-and-jupyter-notebook-running-on-amazon-ec2-dec599e1c297 这可以很好地工作： Import pyspark as SparkContext 这将产生错误： sc = SparkContext() TypeError

浏览 123提问于2019-05-17得票数 0

回答已采纳

1回答

设置环境

google-colaboratory

我正在使用Google Colaboratory来了解Pyspark。由于某些原因，在运行设置环境时，我收到一条错误消息。从一个笔记本移到另一个笔记本时，似乎会发生这种情况。, 133 # add pyspark to sys.path i

浏览 9提问于2019-02-05得票数 0

1回答

创建Pyspark会话大约需要25秒

apache-spark、session、pyspark

我正在尝试使用MongoDB连接器来使用PySpark。但是，仅创建PySpark会话就需要大约20到25秒，这会影响服务的性能。我还给出了用来创建spark会话的代码片段。from pyspark.sql import SparkSession .builder \ .appName("

浏览 18提问于2020-04-14得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云