如何使用spark session导入python文件？_如何使用.pth文件添加Python导入路径_如何使用python将csv文件导入mongoDB - 腾讯云开发者社区

python、apache-spark、pyspark

我试图在我当前的pyspark程序中导入另一个python文件，使用Sparkcontext.It会给我错误，因为多个spark上下文不能在once.Hence上运行，我正在使用spark session导入我的python文件。我的代码是： spark = SparkSession.builder.appName('Recommendation_system'

浏览 66提问于2019-03-05得票数 2

1回答

提交AWS EMR命令

python、apache-spark、pyspark、amazon-emr

我有4个python脚本和一个.txt配置文件。在4个python文件中，有一个文件具有spark应用程序的入口点，还可以从其他python文件导入函数。但是，配置文件是在其他python文件中导入的，该文件不是spark应用程序的入口点。我想在pyspark中编写submit命令，但当配置文件不是py

浏览 1提问于2020-09-24得票数 0

1回答

火花魔法可以在ipython之外使用吗？

pyspark

我使用的是一个jupyter笔记本，带有火花魔法扩展，但是我只能通过创建一个pyspark kernel来访问星火集群。冲突之处在于，我不能使用py3环境(一些已安装的python包)，也不能在python3 kernel中使用火花上下文。我不知道如何用火花魔术引入软件包，所以我可以使用在py3中使用实际由火花魔术实现的pyspark吗？或者还有其他的意见吗？

浏览 1提问于2019-12-23得票数 0

回答已采纳

1回答

如何unittest pyspark ` `withColumn`‘action - Python* 3？*

python、unit-testing、pyspark、apache-spark-sql、python-unittest

new_data = data \ return new_data 我的问题是如何用Python语言为function_2()编写单元测试。

浏览 18提问于2021-09-16得票数 1

2回答

如何提交包含多个python文件的pyspark作业？

python、apache-spark、pyspark

我正在考虑如何提交使用pycharm ide开发的pyspark作业。有4个python文件和1个python文件是主python文件，它是通过pyspark作业提交的，但其余3个文件都导入到主python文件中，但我不能理解如果我的python文件都在s3 bukcet中可用，spark作业如何能够引用那些没

浏览 49提问于2020-09-22得票数 0

1回答

Py4Java: ImportError:在为Apache运行Python时没有名为numpy的模块

python、numpy、apache-spark、py4j

然而，当我运行依赖于model = KMeans.train(data, k=5)的numpy命令时，火花使用的Py4Java库会抛出此错误。如何告诉py4j/protocol.py文件夹中的./anaconda/lib/python2.7/site-packages上现有的numpy安装导入 at

浏览 1提问于2015-02-02得票数 2

回答已采纳

1回答

导入Pyspark Delta Lake模块时找不到模块错误

apache-spark、pyspark、spark-structured-streaming、delta-lake

我正在使用delta运行Pyspark，但是当我尝试导入delta时，我得到了一个ModuleNotFoundError: No module named 'delta'。这是在一台没有互联网连接的机器上，所以我必须手动从Maven下载增量核心jar，并将其放到%SPARK_HOME%/jars文件夹中。session before importing: https://docs.delta.io/latest/quick-start.

浏览 25提问于2020-06-11得票数 2

回答已采纳

1回答

在员工节点上安装火花模块

python、numpy、apache-spark、pyspark

我在cloudera环境中以独立模式运行SPARK 1.3。我可以从ipython笔记本上运行pyspark，但是一旦我添加了第二个工作节点，我的代码就会停止运行并返回一个错误。我试着导入numpy，但是它没有工作，即使我通过anaconda在我的工人身上安装了numpy。我用同样的方式安装在主人和工人身上。我正在运行的代码来自以下文章： """ check if inte

浏览 6提问于2015-06-25得票数 6

回答已采纳

4回答

触发Python错误"FileNotFoundError：[WinError 2]系统找不到指定的文件“

python、python-3.x、apache-spark、pyspark

从火花放电导入SparkConf，SparkContext 文件""，第1行，在文件"C:\spark-1.6.0-bin-hadoop2.4\python\pyspark\context.py"，第112行，在init中 SparkContext_en

浏览 4提问于2016-02-17得票数 8

1回答

提交包含多个python文件和一个配置文件的pyspark作业

python、apache-spark、pyspark、spark-submit

我有4个python脚本和一个.txt的配置文件。在4个python文件中，有一个文件具有spark应用程序的入口点，也可以从其他python文件中导入函数。但是配置文件被导入到不是spark应用程序入口点的其他python文件中。我想用pyspark写spark提交命令，但是当配置文件不是python

浏览 2提问于2020-09-24得票数 2

3回答

安装后，不能进口斯提克尼普。

apache-spark、pyspark、apache-spark-mllib、johnsnowlabs-spark-nlp、spark-packages

.config("spark.jars.packages","JohnSnowLabs:spark-nlp:1.2.3") ) confs: [default] found JohnSnowLabs/1.2.3/spark-nlp-

浏览 2提问于2017-12-07得票数 5

回答已采纳

5回答

如何在Spark2.0中使用pyspark构建一个sparkSession？

python、sql、apache-spark、pyspark

我刚接触到spark 2.0；到目前为止，我一直在使用spark 1.6.1。有没有人能帮我用pyspark (python)设置一个sparkSession？我知道网上提供的scala示例是类似的()，但我希望用python语言直接演练。1.)sqlContext别名

浏览 4提问于2016-09-30得票数 41

1回答

如何为AWS Glue制作Python脚本？

python、amazon-web-services、pyspark、aws-glue、production

getResolvedOptions(sys.argv, ['JOB_NAME']) def define_spark_session(): glue_context = GlueContext(args = getResolvedOpt

浏览 7提问于2021-02-17得票数 0

回答已采纳

1回答

在Python中以编程方式启动HiveThriftServer

python、scala、hive、thrift、hivecontext

在spark-shell (scala)中，我们将为特定配置单元上下文以编程方式启动Hive Thrift服务器的org.apache.spark.sql.hive.thriftserver._作为HiveThriftServer2.startWithContext(hiveContext)导入，以公开该特定会话的已注册临时表。我们如何使用python来做同样的事情呢？python上有没有用于导入HiveThriftServer的包/ ap

浏览 0提问于2016-04-15得票数 3

5回答

无法运行火花放电

python、pyspark

追溯(最近一次调用)：文件"c:\Spark\bin..\python\pyspark\shell.py"，第30行，导入吡火花文件"c:\Spark\python\pyspark__init__.py"，第44行，从pyspark.context导入SparkContext文件"c:\Spark\python\pyspark\context.py&

浏览 7提问于2017-02-20得票数 22

1回答

安装栅格框的Java错误(数据库)

apache-spark、apache-spark-sql、databricks、geospatial、rasterframes

最后，我能够导入以下内容：from pyrasterframes import rf_ipython有人能解释一下出了什么问题吗？如何解决这个错误？= create_rf_spark_session()/databricks/pytho

浏览 15提问于2022-07-27得票数 1

4回答

NameError:未定义名称“spark”

apache-spark、machine-learning、pyspark、distributed-computing、apache-spark-ml

]),), (Vectors.dense([1.0, 1.0]),),(Vectors.dense([9.0, 8.0]),), (Vectors.dense([8.0, 9.0]),)]----> 3 df = spark.createDataFrame["features"]) 4 kmea

浏览 4提问于2016-09-16得票数 32

回答已采纳

3回答

Python设置相同的时区

python、pyspark、jupyter-notebook

def get_spark(): spark.conf.set("spark.sql.parquet.enableVectorizedReader", "false") spark.conf.set("spark.sql.legacy.parquet.datetimeRebaseModeInRead", "LE

浏览 8提问于2021-08-25得票数 0

回答已采纳

1回答

从Pandas DataFrame创建火花DataFrame

python、pandas、pyspark、apache-spark-sql

)：org.apache.spark.SparkException：执行木星命令‘pyspek.daemon’时出错: Errno 2没有这样的文件或目录PYTHONPATH是： /home/roldanx/soft/spark-2.4.0-bin-hadoop2.7/python/lib/pyspark.zip:/home/roldanx/soft/spar

浏览 0提问于2019-02-14得票数 12

回答已采纳

1回答

Scikit-learn和pyspark集成

python、apache-spark、scikit-learn、pyspark

我已经在sklearn中训练了一个逻辑回归模型，并将模型保存到.pkl文件中。有没有在spark中使用这个pkl文件的方法？

浏览 6提问于2016-08-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云