Flask + Pyspark:重复的spark会话

文章/答案/技术大牛

发布

1回答

、、、

我正在使用PySpark和Flask，以便有一个web服务。 #!/usr/bin/env pythonfrom pyspark import SparkFilesfrom pyspark.ml import PipelineModel from pyspark.sql import SparkSession, SQLCon

浏览 49提问于2019-02-11得票数 1

回答已采纳

3回答

在非星火环境中加载pyspark模型

、、、

我对在python中部署机器学习模型感兴趣，因此可以通过对服务器的请求进行预测。我将创建一个Cloudera集群，并利用Spark开发这些模型，使用这个库pyspark。我已经看到不同的算法都有.save函数(就像本文中的所回答的那样)，但是由于服务器将位于不同的机器上，而不是在Cloudera集群中，所以我不知道是否可以使用它们的.load和.predict函数。

浏览 11提问于2016-11-21得票数 14

回答已采纳

1回答

Pyspark和Cassandra安全bundle.zip

、、、、

我刚接触这个pyspark cassandra技术，我在pyspark中找到了很多关于Spark.sql的资源，我认为这很酷，但我仍然停留在与我的数据库的连接级别，因为我需要一个来自datastax的所以，下面是我的问题：我知道这是使用pyspark shell连接到我的远程数据库的方法： pyspark --packages com.datastax.spark</em

浏览 16提问于2020-08-27得票数 2

2回答

SparkSession与SparkContext在PySpark中的启动

、、、

我想知道Scala中以下代码的PySpark等效值。我在使用数据库。我需要的输出如下：-val new_spark = spark.newSession() new_spark: org.apache.spark.sql.SparkSession = org.apache.spark.sql.

浏览 2提问于2020-08-11得票数 0

回答已采纳

2回答

未定义获取错误名称“火花”

、、

这是我使用的代码： data_filesHMP_Dataset/'+category) print(data_file)

浏览 14提问于2020-05-07得票数 1

回答已采纳

1回答

创建Pyspark会话大约需要25秒

、、

我正在尝试使用MongoDB连接器来使用PySpark。但是，仅创建PySpark会话就需要大约20到25秒，这会影响服务的性能。我还给出了用来创建spark会话的代码片段。from pyspark.sql import SparkSession .builder \ .con

浏览 18提问于2020-04-14得票数 2

1回答

在PySpark中使用达美湖时，如何将卡夫卡设置为依赖关系？

、、、、

根据的说法，这是将Delta设置为常规Python脚本的一部分的代码from delta import * Spark中的 for Kafka集成展示了在使用spark-submit命令(通过--packages参数)时如何设置--packages，而不是用--，您还可以在

浏览 10提问于2022-12-01得票数 0

2回答

我正在尝试测试一个实用函数，它接受一个spark DataFrame，并在经过一些转换后输出一个新的spark DataFrame。在尝试模拟测试数据时，我需要为输入构造一个pyspark dataframe。我看到的大多数使用这种用法的例子 spark.createDataFrame(data, columns) 我对文档不太熟悉，找不到"spark“。您如何使用from pyspark* import spark

浏览 8提问于2020-08-12得票数 0

回答已采纳

4回答

NameError:未定义名称“spark”

、、、、

我正在从官方文档网站复制pyspark.ml示例：df = spark.createDataFrame(data, ["features"])<ipython-input-28-aaffcd123

浏览 4提问于2016-09-16得票数 32

回答已采纳

1回答

在windows和pycharm中设置SPARK-HOME路径变量

、、

我刚开始接触SPARK，并尝试在windows中使用它。我使用hadoop的预构建版本成功下载并安装了Spark 1.4.1。在以下目录中：我可以运行spark-shell和pyspark.cmd，一切都很正常。我正在处理的唯一问题是，当我在Pycharm中编码时，我想导入pyspark。SparkConf

浏览 5提问于2015-08-26得票数 1

2回答

如何解决java.sql.SQLException:无法打开到给定的database.in吡火花2.2的测试连接

、、

这是我的代码from tkinter import*#from pyspark.sqlimport SparkSessionfrom pyspark import SparkConf,SparkContextsqlContext=Hiv

浏览 4提问于2017-08-17得票数 0

1回答

如果通过星火提交提交作业，我们是否可以使用星火会话对象而不显式地创建它？

、、、、

我的问题非常基本，我的代码运行良好。但我不清楚这两点：from pyspark.sql import SparkSession,SQLContextspark = SparkSessionfrom pyspark.sql import SparkSession,SQLC

浏览 4提问于2017-09-12得票数 4

1回答

pySpark:将Kafka流放入parquet中，并从远程会话读取parquet

、、、、

从不同的docker容器中，我尝试读取拼图文件。spark = SparkSession.builder\ .master('spark://0.0.0.0:7077') \last): File "/usr/src/app/apao-flask-gunicorn/graph_generator.py"

浏览 36提问于2021-04-29得票数 0

1回答

更改EMR集群中Livy使用的Python版本

、、

在hadoop用户、我的用户、根用户和EC2-用户中，我已经将PYSPARK_PYTHON环境变量更改为/usr/bin/python3。我将export PYSPARK_PYTHON=/usr/bin/python3添加到/etc/spark/conf/spark-env.sh文件中。我在下面列出的项目中添加了"spark.yarn.appMasterEnv.

浏览 6提问于2021-05-03得票数 2

1回答

在自定义包中创建pyspark* dataframe？*

、、、

我对最佳实践以及如何在包中创建spark会话感到有点困惑，其中包可以在databricks或local上使用。但是假设我有一个函数，它接受一些数据列表或字典，预期的输出是包含数据的pyspark dataframe。我认为单个会话应该足够了，因此需要检查会话是否存在，如果不存在，则创建一个会话。这是我的代码，为什么它不在一个jupyter笔记本里面，我不知道这是不是最好的方式，anyways...sometimes，

浏览 2提问于2020-10-31得票数 0

2回答

如何使用Spark上下文？

、、、、

我将值赋值为sc = pyspark.SparkContext()。它在jupyter笔记本上运行了很长时间，没有响应，因为出现了星号，并且没有显示任何错误。我试过sc = SparkContext()import ossc = pyspark.SparkContext() # At this part it don't respond from pyspark.sql i

浏览 1提问于2019-05-29得票数 0

1回答

有可能使用火花放电和熊猫同时安装的码头图像吗？

、、、、

我的烧瓶应用程序使用熊猫和火星雨。FROM amancevice/pandasADD .pymysqlpasslibWerkzeugpysparkfrom pyspark.sqlsession warehouse_location ='hdfs:

浏览 20提问于2022-04-15得票数 2

回答已采纳

2回答

在从任何目录启动的Jupyter Notebook中导入pyspark

、、

我的操作系统是Ubuntu16，我的目标是在Jupyter Notebook中运行import pyspark，而不必从我安装Spark的目录中启动Jupyter Notebook (通过控制台)。我用findspark试过了，就像这样findspark.init("directory_where_I_installed_spark_to") import pyspark这只适用于一个会话，但当我

浏览 11提问于2017-08-14得票数 0

回答已采纳

1回答

Pyspark没有打开jupyter

、、、

我正在尝试在pyspark (在Ubuntu中)中运行graphframes，并遵循以下步骤：我编辑了mu .profile文件，如下所示： SPARK_PATH=/home/spark/sparkbin-hadoop2.7PATH="$HOME/bin:$HOME/.local/bin:$PATH" $SPA

浏览 28提问于2019-10-04得票数 0

1回答

如何在pyspark环境会话中设置blob conf

、、

我有一个pyspark脚本，在其中我启动了一个spark会话，但是我无法使用spark.read.format('json').load("my_blob_path")从blob商店读取。下面是我的会话初始化。请帮助我在环境中设置我的blob凭证。conf = SparkConf().setAppName("session1")from pys

浏览 0提问于2020-02-26得票数 2

回答已采纳

点击加载更多