PySpark中的驱动程序堆栈跟踪

是指在使用PySpark进行大规模数据处理时，可以通过堆栈跟踪（stack trace）来查看和分析驱动程序执行过程中的函数调用和异常信息。

驱动程序是PySpark任务的核心组件，负责协调和管理集群中的执行器，分配任务，以及处理结果。当出现问题或异常时，堆栈跟踪可以帮助开发人员快速定位问题所在，并了解代码的执行路径。

驱动程序堆栈跟踪通常包括以下信息：

错误类型和错误消息：可以帮助开发人员识别问题的类型和具体的错误信息。
函数调用链：显示在出现问题之前的函数调用顺序，从而了解代码的执行路径。
异常触发位置：指出问题所在的具体代码位置。

对于PySpark中的驱动程序堆栈跟踪，可以使用以下步骤进行查看和分析：

检查日志：PySpark会生成详细的日志文件，其中包含了驱动程序的执行信息和异常信息。可以通过查看日志文件来获取堆栈跟踪。
异常捕获：在代码中使用try-except语句捕获异常，并通过日志输出堆栈跟踪信息。
使用调试器：可以使用PyCharm等集成开发环境中的调试器来跟踪代码执行过程并查看堆栈信息。

PySpark中的驱动程序堆栈跟踪可以帮助开发人员快速定位和解决问题，提高代码的可靠性和稳定性。

相关产品推荐：腾讯云的云托管Hadoop集群（https://cloud.tencent.com/product/emr），该产品提供了完全托管的Hadoop集群环境，可以方便地进行大规模数据处理和分析，并提供了详细的日志和调试工具来帮助开发人员进行堆栈跟踪和故障排查。

PySaprk:星火提交无法执行所需的工作

、、、

我是PySpark的新手。我使用下面的spark-submit进程在集群中的Hive中加载一个表。 /usr/hdp/2.5.0.0-1245/spark2/bin/spark-submit --driver-class-path /path/to/driver/sqljdbc4-3.0.jar --jars /path/to/driver/sqljdbc4-3.0.jar --deploy-mode cluster --master yarn /home/meter/myfile.py 每当我运行这个程序时，我就会收到无数的错误。喜欢 1. pyspark.sql.utils.analysi

浏览 1提问于2019-03-29得票数 2

1回答

是什么原因导致'unicode‘对象没有属性’no序号‘？

、

我犯了这个错误，但我不知道是什么原因造成的。我的python代码运行在pyspark中。堆叠的痕迹很长，我只是展示其中的一些。所有的堆栈跟踪都没有在其中显示我的代码，所以我不知道该在哪里查找。造成此错误的原因可能是什么？ /usr/hdp/2.4.2.0-258/spark/python/lib/py4j-0.9-src.zip/py4j/protocol.py in get_return_value(answer, gateway_client, target_id, name) 306 raise Py4JJavaError( 307

浏览 5提问于2016-09-28得票数 4

回答已采纳

1回答

jupyter notebook - Mac中pyspark的worker和driver版本差异错误

、、、

当我尝试创建一个简单的数据集并将其打印出来时，我得到了以下错误消息。 from pyspark import SparkContext from pyspark import SparkConf from pyspark.sql import SparkSession from pyspark.sql import SQLContext spark = SparkSession\ .builder\ .appName("SparkSessionExample")\ .master("local[4]")\ .config("spark.sql.war

浏览 93提问于2019-11-15得票数 0

1回答

以客户端模式导入包PYSPARK

、

我需要使用虚拟环境在吡火花电子病历集群。我正在启动应用程序与火花-总和使用以下配置。 spark-submit --deploy-mode client --archives path_to/environment.tar.gz#environment --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./environment/bin/python 环境变量在python脚本中设置。代码正在火花上下文函数中导入包，但我希望导入函数之外的包。怎么了？ from pyspark import SparkConf from pyspark import

浏览 2提问于2022-03-30得票数 0

1回答

监视Dataproc集群上的Spark或PySpark会话

、

我知道在Dataproc集群中访问和以及都有答案。谢谢你的这些。但是，我也对查看不完整的星火应用程序的日志感兴趣，例如交互式pyspark-shell或spark-shell会话--这两种方法都是：使用相同的web接口，以及可能的访问原始会话输出(本地fs或hdfs上的日志文件？) 在Spark会话期间，虽然我可以将会话视为一个不完整的应用程序，但当我在REPL中执行命令时，UI不提供跨作业、阶段和任务选项卡的此类信息。这可以很容易地复制如下： # Launch Dataproc cluster >> gcloud beta dataproc clusters

浏览 5提问于2016-01-13得票数 2

回答已采纳

1回答

如果未设置驱动程序类路径或executor类路径，则“星火提交”命令具有-py-file失败。

、

我有一个主脚本如下所示 from pyspark.sql.session import SparkSession .............. .............. .............. import callmodule as cm <<<--- This is imported from another pyspark script which is in callmod.zip file .............. .............. .............. --当我按照下面的方式提交spark命令时，它会出错:没有名为Callmodu

浏览 0提问于2020-12-22得票数 0

回答已采纳

2回答

基于PySpark的Apache内存配置

、

我正在PySpark上开发一个Apache应用程序。我寻找了这么多资源，但无法理解有关内存分配的几件事。 from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession \ .builder \ .master("local[4]")\ .appName("q1 Tutorial") \ .getOrCreate() 我也需要配置内存。它将在本地和客户端部署模式下运行。我从一些来源读到，在这种情况下，我不应该设置驱

浏览 9提问于2022-06-26得票数 0

1回答

工作节点和主节点中的Python版本有所不同。

、、

在CentOS 6.7上运行spark 1.4.1。将python2.7和python3.5.1与anaconda一起安装在上面。 MAde确保将PYSPARK_PYTHON env设置为python3.5，但是当我打开PYSPARK_PYTHON外壳并执行简单的rdd转换时，它会出现以下异常：例外: worker中的Python版本与驱动程序3.5中的版本不同，PySpark不能在不同的次要版本下运行只是想知道还有什么地方可以改变这条路。

浏览 6提问于2016-05-05得票数 0

回答已采纳

1回答

如何在使用py4j记录器的同时打印堆迹？

、、、

我想打印在执行print代码过程中引发的异常的堆栈跟踪。我使用的是火花放电(py4j)的原生记录器，但在执行logger.exception()时却失败了。我也尝试过logger.error() log4jLogger = sc._jvm.org.apache.log4j logger = log4jLogger.LogManager.getLogger(__name__) logger.info('first statement.') try: raise Exception('Dummy exception')

浏览 19提问于2021-12-08得票数 1

回答已采纳

2回答

将Pyspark连接到Oracle SQL

、、、、

我对spark几乎是个新手。我想要将pyspark连接到oracle sql，我正在使用以下pyspark代码： from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, Row import os spark_config = SparkConf().setMaster("local").setAppName("Project_SQL") sc = SparkContext(conf = spark_config) sqlctx = SQLContext(s

浏览 22提问于2017-06-22得票数 1

回答已采纳

1回答

如何向bluemix pyspark添加参数

、、、

我在ipython笔记本中使用pyspark并访问netezza数据库。我正尝试在bluemix上做类似的事情。问题是，为了访问netezza，我必须向pyspark启动添加参数。我如何在bluemix上做到这一点？下面是我独立启动pyspark的方法： $ PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" /usr/local/src/spark/spark-1.6.1-bin-hadoop2.6/bin/pyspark --packages com.ibm.SparkTC:spark-ne

浏览 0提问于2016-05-19得票数 0

3回答

什么是pyspark驱动程序？

、

我看到启动pyspark的一个常见设置是使用pyspark --master yarn --deploy-mode client --num-executors 4 --executor-memory 2g --driver-memory 4g，但是驱动内存和可执行内存有什么不同呢？您能解释一下什么是驱动程序吗?在这里设置驱动程序对pyspark工作流/性能有何影响？谢谢!

浏览 1提问于2017-10-29得票数 2

1回答

PySpark安装错误

、、、、

我遵循了包括、、和在内的各种博客文章的指示，在我的笔记本电脑上安装了pyspark。然而，当我尝试使用终端机或jupyter笔记本的火花放电时，我总是会收到以下错误。我已经安装了所有必要的软件，如问题的底部所示。我已将以下内容添加到我的.bashrc中 function sjupyter_init() { #Set anaconda3 as python export PATH=~/anaconda3/bin:$PATH #Spark path (based on your computer) SPARK_HOME=/opt/spark export PATH=$SPARK_HOME:$

浏览 0提问于2018-01-20得票数 2

回答已采纳

1回答

从PySpark加载数据

、、、

我正在尝试使用spark.read.jdbc从PySpark连接到MS SQL DB。 import os from pyspark.sql import * from pyspark.sql.functions import * from pyspark import SparkContext; from pyspark.sql.session import SparkSession sc = SparkContext.getOrCreate() spark = SparkSession(sc) df = spark.read \ .format('jdbc')

浏览 1提问于2020-11-29得票数 0

回答已采纳

1回答

如何用火花呢连接Teradata

、、、、

我正在尝试通过PySpark连接teradata。我的CLI代码如下， from pyspark.sql import SparkSession spark=SparkSession.builder .appName("Teradata connect") .getOrCreate() df = sqlContext.read .format("jdbc") .options(url="jdbc:teradata://xy

浏览 0提问于2019-05-02得票数 2

回答已采纳

2回答

Java堆空间问题

、、

我正在尝试访问蜂箱拼板表，并将其加载到Pandas数据帧中。我使用的是pyspark，我的代码如下所示： import pyspark import pandas from pyspark import SparkConf from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql import HiveContext conf = (SparkConf().set("spark.driver.maxResultSize", "10g").setApp

浏览 0提问于2017-05-31得票数 1

1回答

如何在中间层集群上运行PySpark (可能是在客户端模式下)？

、、

我试图在中间层集群上运行一个PySpark作业，但是我似乎无法让它运行。我知道Mesos不支持PySpark应用的集群部署模式，需要在客户端模式下运行。我相信这就是问题所在。当我尝试提交一个PySpark作业时，我得到了下面的输出。 ... socket.hpp:107] Shutdown failed on fd=48: Transport endpoint is not connected [107] 我认为在客户端模式下运行的spark作业需要直接连接到节点，而这会被阻塞吗？我需要更改什么配置才能在客户端模式下运行PySpark作业？

浏览 0提问于2015-09-16得票数 3

2回答

电子病历笔记本-会话未处于活动状态

、、、

我正在使用EMR笔记本和pyspark和livy。我从s3中读取数据，数据格式为拼图和字符串，并将其读入pyspark数据帧。大约有几个。200万行。当我执行连接操作时。我收到400会话处于非活动状态。为此，我已经将livy超时设置为5小时。遇到错误:来自的无效状态代码'400‘，负载错误：“要求失败:会话未处于活动状态。”

浏览 1提问于2019-08-19得票数 1

1回答

有SparkContext()和SparkConf()的错误吗？

、

当我尝试在SparkContext中插入SparkConf时，如下所示： from pyspark import * from pyspark.streaming import * cfg = SparkConf().setMaster('yarn').setAppName('MyApp') sc = SparkContext(conf=cfg) print(sc.getConf().getAll()) rdd = sc.parallelize(list('abcdefg')).map(lambda x:(x,1)) print(rdd.co

浏览 2提问于2017-02-08得票数 0

回答已采纳

1回答

无法在windows堆栈驱动程序监视中查看内存使用情况

、、、

在VM instanceswindows机器上安装了堆栈驱动程序代理，遵循以下步骤。使用RDP或类似工具打开到实例的终端连接，然后登录到Windows。打开一个PowerShell终端，然后运行以下PowerShell命令。您不需要管理员权限。cd $env:UserProfile; (New-Object Net.WebClient).DownloadFile("https://repo.stackdriver.com/windows/StackdriverMonitoring-GCM-46.exe", ".\StackdriverMonitoring-G

浏览 1提问于2019-11-28得票数 4

3回答

如何在Zeppelin中将Spark连接到JDBC驱动程序？

、、、

我正在尝试使用Zeppelin笔记本中的Spark将数据从SQL服务器拉入Hive表。我正在尝试运行以下代码： %pyspark from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.sql.dataframe import DataFrame from pyspark.sql.functions import * spark = SparkSession.builder \ .appName('sample') \ .getOrCreate() #set ur

浏览 65提问于2018-08-28得票数 2

回答已采纳

1回答

由于PicklingError，Pyspark操作未执行

、

我想要执行"execute“方法，所以为了避免对Spark的惰性计算，我想做一个动作(saveAsTextFile)，如代码所示： def execute(line1): line = line1.split(',') print('Hi') session = driver.session() #vérifions si les noeuds n'existent pas encore et si oui créons les session.run("MERGE (n:Person {T

浏览 1提问于2018-08-09得票数 1

回答已采纳

1回答

使用类方法的udf

、、

我的问题是:如何使用problem在类中的另一个函数中调用函数。我正在尝试使用文件devAM_hive.py中名为Anomalie的类中的一个方法来编写pyspark。 from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() import re class Anomalie(): def __init__(self): self.Anomalie_udf = F.udf(Anomalie.aux,ArrayType(StringType())) def aux

浏览 9提问于2022-04-09得票数 0

3回答

如何从代码中获取跟踪ID？

、、、

我在Google App Engine标准环境中运行Java应用程序。查看日志(特别是request_log)，我可以看到两个有趣的ID，比如每个请求的trace_id和request_id。几个问题：它们有什么不同？它们是唯一的吗？如何在应用程序代码中获取它们(针对当前请求)？我希望将它们记录到不同的堆栈驱动程序数据集，并能够关联data

浏览 44提问于2018-06-20得票数 0

回答已采纳

2回答

带有--文件参数错误的PySpark spark submit命令

、、、

我使用以下命令在Spark2.3集群中运行一个PySpark作业。 spark-submit --deploy-mode cluster --master yarn --files ETLConfig.json PySpark_ETL_Job_v0.2.py ETLConfig.json有一个传递给PySpark脚本的参数。我在主块中引用这个config json文件，如下所示： configFilePath = os.path.join(SparkFiles.getRootDirectory(), 'ETLConfig.json') with open(configF

浏览 0提问于2018-09-16得票数 2

回答已采纳

1回答

决策树分类器中RDD数据拟合的误差

、

#load dataset df = spark.sql("select * from ws_var_dataset2") def labelData(data): # label: row[end], features: row[0:end-1] return data.map(lambda row: LabeledPoint(row[-1], row[:-1])) training_data, testing_data = labelData(df.rdd).randomSplit([0.8, 0.2], seed=12345) 运行以下单元格时出错： mo

浏览 5提问于2020-02-12得票数 0

回答已采纳

2回答

为什么在spark.jdbc中需要dbtable / query

、、

我是一个SPARK新手，我不清楚为什么dbtable或query需要作为JDBC选项的一部分。例如，与Presto JDBC驱动程序一起使用时，Presto驱动程序不喜欢url、driver、dbtable和query参数。其他驱动程序执行类似的验证(例如，用于Presto的CData驱动程序) url = "jdbc:presto:Server=spill.asifkazi.cp.ahana.cloud;Port=443;" jdbcDriver = "com.facebook.presto.jdbc.PrestoDriver" sqlQuery = &#

浏览 4提问于2021-05-15得票数 0

1回答

错误:何时将火花数据转换为熊猫数据

、

我需要把火花数据集(大型数据集)转换成熊猫数据集。代码：spark_df = Example_df.toPandas() 我得到了这个错误： /databricks/spark/python/pyspark/sql/pandas/conversion.py:145: UserWarning: toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true, but has reached the error below and ca

浏览 35提问于2022-03-02得票数 0

2回答

SnowflakeSQLException错误代码: 390100，消息:指定了不正确的用户名或密码

、、、

连接到雪花，使用python驱动程序，但无法在jupyter笔记本中使用pyspark ?已经确认了我的用户名和密码的正确性。环境详情:- windows 10 python 3.6.6(jupyter笔记本) 火花2.4.3 雪花-jdbc 3.8.1 火花-雪花_2.11-2.4.13-火花_2.4 参考本教程。错误堆栈：- 有什么线索吗？

浏览 2提问于2019-05-24得票数 2

回答已采纳

1回答

如何在pyspark中播放一个巨大的rdd？

、

当我打印出rdd的第一个元素时，如下所示： print("input = {}".format(input.take(1)[0])) 我得到的结果是：(u'motor', [0.001,..., 0.9]) [0.001,..., 0.9]的类型是列表。输入rdd中的元素数等于53304100 当我想广播输入RDD时，我的问题出现了，如下所示： brod = sc.broadcast(input.collect()) 生成的异常如下所示(我只显示了exeception的第一部分)： WARN TaskSetManager: Lost task 56.

浏览 11提问于2019-02-25得票数 0

回答已采纳

2回答

PySpark: ModuleNotFoundError:没有名为“app”的模块

、

我使用以下语句将数据存储到PySpark中的CSV文件： df_all.repartition(1).write.csv("xyz.csv", header=True, mode='overwrite') 但是我的错误越来越少了 Caused by: org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/opt/spark-2.3.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker

浏览 0提问于2019-07-05得票数 7

回答已采纳

1回答

如何用pyspark链接Notebook中自己的外部模块？

、

我有一个主IPython笔记本，其中有执行不同任务的代码。我需要在notebook中以.py文件的形式导入自己的模块，如下所示： from custom_module import function 我们可以假设custom_module.py是： def function(x): print(x) 根据我在文档中的理解，我需要做的是编写以下代码： $pyspark --py-files custom_module.py 上面的命令只有当模块在ipynb的相同文件夹中时才有效，但是，我在其他目录中有模块.py文件是什么？我尝试了下面的代码，但没有好的结果。找不到模块。 $pysp

浏览 0提问于2016-03-02得票数 1

1回答

socket.timeout mongoDB火花放电

、、、、

我正在尝试使用mongoDB连接器在SPARK中执行python文件。python文件执行一个查询，从mongoDB获取一些数据，然后他们使用星火中的映射操作来处理这些数据。在执行映射操作时，执行将停止获取以下错误消息："socket.timeout: timed“。这就是我得到的输出：回溯(最近一次调用)：文件"/home/ana/computational_tools_for_big_data/project/review_analysis.py"，第27行，在bad_reviews = reviews_1.rdd.map(lambda r: r.text).

浏览 4提问于2016-11-27得票数 4

3回答

火花火花与火花-提交

、

有关火花提交的文件如下： Spark的bin目录中的星火提交脚本用于启动集群上的应用程序。关于火花放电，它说：您还可以使用bin/pyspark启动交互式Python。这个问题听起来很愚蠢，但是当我通过pyspark运行命令时，它们也运行在“集群”上，对吗？它们不只是在主节点上运行，对吗？

浏览 0提问于2016-04-28得票数 4

回答已采纳

1回答

增加spark实例的执行器数量

我正在通过pyspark启动一个spark实例。我使用的系统是EC2上的r3.8x，内存为244gb，vCPU为32。我使用的代码是 #Import Packages import os import sys import pandas as pd import numpy as np import glob import shutil #Initialize Spark Environment spark_path = "C:\spark" os.environ['SPARK_HOME'] = spark_path os.environ['HADOO

浏览 1提问于2017-07-24得票数 1

1回答

为什么--packages命令允许python包从Spark客户机/驱动程序中不可用或不可加载？

、、

我想添加图形帧library.Normaly，这个库是通过(例如)添加的： pyspark --packages graphframes:graphframes:0.7.0-spark2.4-s_2.11 然后你应该得到这样的东西： Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.3.0 /_/ Using Python version 3

浏览 0提问于2019-03-22得票数 3

1回答

最后阶段的工作失败

、、

我在Dataproc上使用Spark集群，我的工作在处理结束时失败。我的数据源是上csv格式的文本文件(总容量为3.5TB，5000文件)。处理逻辑如下：将文件读取到DataFrame (模式“时间戳”、“消息”)；将所有消息分组为1秒窗口；将流水线托卡器-> HashingTF应用于每条分组消息中，提取单词及其频率，建立特征向量；在GCS上保存带时间线的特征向量。我遇到的问题是，对小部分数据(比如10个文件)处理很好，但是当我在所有文件上运行它时，它最终会失败，比如“容器因超出内存限制而被纱线杀死。使用了25.0GB的24 GB物理内存。请考虑增强

浏览 3提问于2017-07-12得票数 0

回答已采纳

1回答

PySpark代码是在JVM还是中运行的？

、、

当我使用python3 t1.py运行以下名为t1.py的脚本时，我想了解在这个引擎盖下面发生了什么。具体来说，我有以下问题：什么样的代码被提交到火花工作节点？是python代码还是提交给spark节点的等效Java代码？是还原中作为UDF处理的添加操作，因此运行在工作者节点上的python子进程中？如果添加操作运行在工人节点上的python子进程中，那么worker JVM是否为添加的分区中的每个数字与python子进程通信？如果是这样的话，就意味着大量的开销。 #!/home/python3/venv/bin/python3 #this file is named t1.

浏览 0提问于2020-05-15得票数 9

回答已采纳

1回答

Pyspark驱动程序中Python子进程的内存分配

、、

当在PySpark驱动程序中创建新的Python进程(例如，使用JobLib或其他多处理库)时，这些进程是共享Spark驱动程序内存，还是在该PySpark驱动程序JVM之外分配内存？

浏览 17提问于2018-07-21得票数 2

回答已采纳

2回答

总分配超过95.00% (960,285,889字节)的堆内存- pyspark错误

、、、、

我用python2.7写了一个脚本，用pyspark把csv转换成拼花和其他东西。当我在较小的数据上运行我的脚本时，它工作得很好，但当我在较大的数据(250 of )上运行时，我崩溃了以下错误-总分配超过95.00% (960,285,889字节)的堆内存。我该如何解决这个问题？发生这种情况的原因是什么？tnx！部分代码:导入的库：import pyspark as ps from pyspark.sql.types import StructType, StructField, IntegerType, DoubleType, StringType, TimestampT

浏览 0提问于2018-11-21得票数 2

1回答

在Rodeo中运行时，pySpark有一个工人驱动程序版本冲突。

、、、

当从终端运行以下简单脚本时，它在pyspark中工作得很好： import pyspark sc = pyspark.SparkContext() foo = sc.parallelize([1,2]) foo.foreach(print) 但是当在Rodeo中运行时，它会产生一个错误，其中最重要的一行是： Exception: Python in worker has different version 2.7 than that in driver 3.5, PySpark cannot run with different minor versions 在以下链接中可以找到完整的错误输

浏览 2提问于2016-04-13得票数 0

回答已采纳

1回答

带有NLog.LogManager.GetCurrentClassLogger()的Mongo C#驱动程序NullReferenceException

、、、、

Mongo C#驱动程序(1.4.2版)从NLog.LogManager.GetCurrentClassLogger()抛出NullReferenceException 只有在发布版本中才会发生错误。使用debug build可以很好地工作。不确定是否与有关堆栈跟踪， System.NullReferenceException 在NLog.LogManager.GetCurrentClassLogger() 在lambda_method(闭包) 在C:\work\10gen\mongodb\mongo-csharp-driver\Bson\Serialization\BsonClassMa

浏览 5提问于2012-07-25得票数 0

回答已采纳

1回答

从火花壳查询火花流应用程序(pyspark)

、、

我在pyspark控制台中跟踪这个pyspark，一切都很完美。之后，我以PySpark应用程序的形式编写了它，如下所示： # -*- coding: utf-8 -*- import sys import click import logging from pyspark.sql import SparkSession from pyspark.sql.types import * @click.command() @click.option('--master') def most_idiotic_bi_query(master): spark =

浏览 2提问于2017-05-22得票数 3

回答已采纳

1回答

在NodeJS上获取Pyspark作业输出

、、、

我成功地提交了一个Pyspark作业，我想输出作业的结果。我从以下代码中获得了工作的结果： const output = await storage .bucket(clusterResp.config.configBucket) .file( `google-cloud-dataproc-metainfo/${clusterResp.clusterUuid}/` + `jobs/${jobId}/driveroutput.000000000` ) .download(); 但是，结果还包括该作业的所有日志

浏览 19提问于2020-04-11得票数 1

2回答

星星之火:Py4JJavaError:调用o142.saveAsTextFile时出错

、

当我通过rdd.repartition(1).saveAsTextFile(file_path)保存一对rdd时，会遇到一个错误。 Py4JJavaError: An error occurred while calling o142.saveAsTextFile. : org.apache.spark.SparkException: Job aborted. at org.apache.spark.internal.io.SparkHadoopWriter$.write(SparkHadoopWriter.scala:100) at org.apache.spark.rdd.

浏览 1提问于2020-07-01得票数 0

回答已采纳

1回答

结合使用spark-submit和python main

、

阅读和让我认为让spark-submit执行python文件是可能的，但是我不能让它工作。我的设置有点复杂。我需要几个不同的jars与我的python文件一起提交，以便一切正常工作。我的pyspark命令如下所示： IPYTHON=1 ./pyspark --jars jar1.jar,/home/local/ANT/bogoyche/dev/rhine_workspace/env/Scala210-1.0/runtime/Scala2.10/scala-library.jar,jar2.jar --driver-class-path jar1.jar:jar2.jar from sys i

浏览 1提问于2016-06-30得票数 12

回答已采纳

1回答

GCP上的PySpark ModuleNotFoundError

、

我试图在GCP Dataproc上运行一个Pyspark流程序。我已经在ssh中安装了mmh3，运行pyspark然后输入导入mmh3就没有问题了。但是当我开始运行sc.start()并从另一个ssh终端发送信息时，它开始说模块没有找到。知道为什么会发生这样的事吗，或者如何解决？谢谢。

浏览 9提问于2022-04-10得票数 0

回答已采纳

1回答

在火花放电UDF中使用蓄能器

、、

我想要访问pyspark内部的累加器： import pyspark from pyspark.sql import SparkSession from pyspark.sql.functions import col, udf from pyspark.sql.types import StringType accum=spark.sparkContext.accumulator(0) def prob(g,s): if g=='M': accum.add(1) return 1 else: acc

浏览 12提问于2022-08-28得票数 0

回答已采纳

2回答

在尝试运行PySpark ()时获取.take错误

、、、

我刚开始学习py火花，所以请原谅这个非常基本而不是详细的问题。我正在尝试sc来读取.tsv文件，然后解析该文件。但是，当我尝试对文件执行.take()时，它会给出以下错误，我无法理解。我把它运行在窗户上。以下是代码： print("TEST 1") rdd = sc.textFile(tsv_path) print("TEST 2", rdd.take(1)) rdd = rdd.map(lambda line: (line.split('\t')[0], line.split('\t')[1], line.split('

浏览 15提问于2021-12-11得票数 0

3回答

使用oracle来提取数据。找不到司机

、、、

我在windows 7上使用的是(星火-1.5.2-bin-hadoop2.6)。当我在pyspark中运行python脚本时，我一直会收到这个错误。调用o23.load时出错。jdbc:oracle:thin:------------------------------------connection :没有找到适合java.sql.SQLException的驱动程序这是我的python文件 import os os.environ["SPARK_HOME"] = "C:\\spark-1.5.2-bin-hadoop2.6" os.environ[&

浏览 6提问于2015-11-20得票数 3

回答已采纳