为什么spark作业在zepplin上不能工作，而它们在使用pyspark shell时可以工作_为什么在python中使用xlrd打开工作簿时，变量可以工作，而列表不能工作？_为什么当我在本地主机上ping一个IP时，cURL可以工作，但当我在000webhostapp上使用它时却不能工作？ - 腾讯云开发者社区

scala、apache-spark、apache-zeppelin

我想知道为什么我在Zepplin段落中写的spark作业的执行速度比运行spark-submit要快得多？我基本上在Zepplin和spark-submit中使用相同的配置(执行器、内存)，但是在执行时间上有很大的不同。两者都运行在同一个独立的spark集群上。如何解释这种差异？

浏览 0提问于2016-12-28得票数 2

3回答

java.lang.NoSuchFieldError: DECIMAL128 mongoDB spark

python、mongodb、apache-spark

我正在使用pyspark编写一个spark作业；我应该只从mongoDB集合中读取并将内容打印到屏幕上；代码如下： import pyspark from pyspark.sql import SparkSession my_spark = SparkSession.builder.appName("myApp").config("spark.mongodb.input.uri", "mongodb://127.0.0.1/marco.weather_test").config("spark.mongodb.output.uri"

浏览 1提问于2018-07-16得票数 1

2回答

在AWS中监视python shell胶合作业

python、amazon-web-services、aws-glue

在亚马逊网络服务的文档中，他们指定了如何激活对Spark作业()的监控，但不是python外壳作业。使用原样的代码会给出这个错误：ModuleNotFoundError: No module named 'pyspark' 更糟糕的是，在注释掉from pyspark.context import SparkContext之后，我得到了ModuleNotFoundError: No module named 'awsglue.context'。python shell作业似乎不能访问glue上下文？

浏览 0提问于2020-05-22得票数 1

1回答

AWS EMR脚本-运行器访问错误

amazon-web-services、apache-spark、emr、elastic-map-reduce

我正在运行emr-5.12.0，亚马逊2.8.3、Hive 2.3.2、Hue 4.1.0、Livy 0.4.0、Spark 2.2.1和Zeppelin 0.7.3分别作为我的主节点和核心节点。我正在尝试执行一个引导程序操作来配置集群的某些部分。其中之一包括以下行： sudo sed -i '/zeppelin.pyspark.python/c\ \"zepplin.pyspark.python\" : \"python3\",' /etc/alternatives/zeppelin-conf/interpreter.json 它确

浏览 4提问于2018-03-15得票数 0

2回答

spark-submit和pyspark有什么区别？

python、apache-spark、pyspark

如果我启动pyspark，然后运行以下命令： import my_script; spark = my_script.Sparker(sc); spark.collapse('./data/') 一切都很好。然而，如果我试图通过命令行和spark-submit来做同样的事情，我会得到一个错误： Command: /usr/local/spark/bin/spark-submit my_script.py collapse ./data/ File "/usr/local/spark/python/pyspark/rdd.py", line 352, in f

浏览 0提问于2014-11-04得票数 20

1回答

无法使用kubernetes pod内的纱线创建spark会话

apache-spark、kubernetes

我有一个安装了spark客户端的kubernetes pod。 bash-4.2# spark-shell --version Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.1.1.2.6.2.0-205 /_/ Using Scala version 2.11.8, Java HotSpot(TM) 64-Bit Server VM, 1.8.0_

浏览 21提问于2019-10-31得票数 0

3回答

无法识别Pyspark命令

python、apache-spark、pyspark

我安装了anaconda，还下载了Spark 1.6.2。我正在使用这个答案中的以下说明来为Jupyter 配置spark 我已经将spark目录下载并解压缩为 ~/spark 现在，当我cd进入这个目录和bin时，我看到了以下内容 SFOM00618927A:spark $ cd bin SFOM00618927A:bin $ ls beeline pyspark run-example.cmd spark-class2.cmd spark-sql sparkR beeline.cmd pyspark.cmd run-

浏览 4提问于2016-08-06得票数 6

1回答

监视Dataproc集群上的Spark或PySpark会话

apache-spark、google-cloud-dataproc

我知道在Dataproc集群中访问和以及都有答案。谢谢你的这些。但是，我也对查看不完整的星火应用程序的日志感兴趣，例如交互式pyspark-shell或spark-shell会话--这两种方法都是：使用相同的web接口，以及可能的访问原始会话输出(本地fs或hdfs上的日志文件？) 在Spark会话期间，虽然我可以将会话视为一个不完整的应用程序，但当我在REPL中执行命令时，UI不提供跨作业、阶段和任务选项卡的此类信息。这可以很容易地复制如下： # Launch Dataproc cluster >> gcloud beta dataproc clusters

浏览 5提问于2016-01-13得票数 2

回答已采纳

3回答

我是否可以在集群部署模式下运行笔记本？

apache-spark、pyspark、jupyter-notebook

上下文：集群配置如下：所有东西都在用码头文件运行。 node1:火花母版 node2: jupyter集线器(我也在这里运行笔记本) 节点3-7:火花工作节点我可以将工作节点的telnet和ping发送到node2，反之亦然。问题：--我正试图在吡火花jupyter笔记本中创建一个火花会话，它以集群部署模式运行。我试图让驱动程序在一个不是运行jupyter笔记本的节点上运行。现在，我可以在集群上运行作业，但只能在node2上运行驱动程序。经过深入研究，我发现了这个，它声称，如果您运行一个带有火花的交互式shell，您只能在本地部署模式下这样做(在该模式下，驱

浏览 10提问于2017-09-01得票数 8

回答已采纳

1回答

Pyspark Shell中的HiveMetaStore错误，但Jupyter Notebook中没有

python、hive、pyspark、pyspark-sql

当我尝试使用pyspark dataframe或sql时，我遇到了一件奇怪的事情。当它在ipython笔记本或python控制台中工作时，当我在pyspark shell中运行它时，我得到了"javax.jdo.JDOFatalInternalException: Error creating transactional factory“错误。简而言之，如果我在iPython笔记本或简单的python终端中运行以下命令，一切都会正常工作： import findspark findspark.init("C:\Spark\spark-2.3.3-bin-hadoop2.7&

浏览 35提问于2019-05-13得票数 0

回答已采纳

1回答

在Rodeo中运行时，pySpark有一个工人驱动程序版本冲突。

python、apache-spark、pyspark、rodeo

当从终端运行以下简单脚本时，它在pyspark中工作得很好： import pyspark sc = pyspark.SparkContext() foo = sc.parallelize([1,2]) foo.foreach(print) 但是当在Rodeo中运行时，它会产生一个错误，其中最重要的一行是： Exception: Python in worker has different version 2.7 than that in driver 3.5, PySpark cannot run with different minor versions 在以下链接中可以找到完整的错误输

浏览 2提问于2016-04-13得票数 0

回答已采纳

1回答

通过Jenkins运行时，docker中的Spark "java网关进程在向驱动程序发送其端口号之前退出“。

python、apache-spark、docker、jenkins、pyspark

我正在创建一个安装了java8和spark的dockerfile，并将环境变量设置为 ENV SPARK_HOME=/spark-2.3.0-bin-hadoop2.7 ENV PATH=$SPARK_HOME/bin:$PATH ENV PYSPARK_SUBMIT_ARGS="--master local[2] --packages com.databricks:spark-csv_2.11:1.5.0,com.databricks:spark-avro_2.11:4.0.0,com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:ha

浏览 0提问于2018-06-21得票数 3

4回答

如果在SparkAction中使用PySpark，Oozie作业将无法运行

java、apache-spark、oozie、pyspark、cloudera-quickstart-vm

我在Oozie中遇到过几个SparkAction作业的例子，其中大多数都是用Java语言编写的。我稍微编辑了一下，然后在Cloudera CDH Quickstart 5.4.0 ( Spark版本为1.4.0)中运行了这个示例。 workflow.xml <workflow-app xmlns='uri:oozie:workflow:0.5' name='SparkFileCopy'> <start to='spark-node' /> <action name='spark-node&#

浏览 2提问于2015-07-16得票数 1

1回答

如何以Dataproc作业的形式运行未编译的Scala/shell代码？

scala、apache-spark、google-cloud-dataproc

通常情况下，如果我将Scala用于Spark作业，我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它，但有时对于非常轻量级的作业，我可能在笔记本中使用未编译的Scala代码，或者使用spark-shell REPL，在这里我假设SparkContext已经可用。对于其中的一些轻量级用例，我可以等效地使用PySpark并与gcloud dataproc jobs submit pyspark一起提交，但有时我需要更容易地访问Scala/Java库，例如在映射函数中直接创建org.apache.hadoop.fs.FileSystem对象。有

浏览 2提问于2020-03-08得票数 5

回答已采纳

2回答

ModuleNotFoundError:没有名为“pyspark”的模块

python、apache-spark、pyspark

我最近在Linux上安装了pyspark，在导入pyspark时得到错误： ModuleNotFoundError: No module named 'pyspark' Pyspark在我的“pip列表”中我在.bashrc中添加了以下几行代码： export SPARK_HOME=~/Spark/spark-3.0.1-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/

浏览 670提问于2020-10-02得票数 2

1回答

如何在Cloudera Quickstart下将Spark Notebook设置为Hue？

apache-spark、pyspark、cloudera-cdh、hue

我最近尝试在Hue UI中设置Spark Notebook。我在VirtualBox中运行Cloudera CDH 5.8。Spark notebook在Livy服务器上工作，我安装了livy服务器。我还从Hue.ini文件的黑名单中删除了spark。但是，我仍然不能在Hue UI中得到Spark Notebook。更新:现在我可以访问笔记本了。但是，我不能向集群提交spark作业。我已经尝试了几个脚本，只有Impala，Hive脚本有效，但R，Pyspark或Scala脚本不起作用。我得到了以下错误。有人能帮我解决这个问题吗？如果需要，我可以提供更多信息。谢谢。 .....Thanks

浏览 11提问于2016-08-10得票数 0

1回答

zeppelin-0.7.3解释器电火花未找到

pyspark、apache-zeppelin

当我通过齐柏林飞艇使用火星雨时，我会得到以下错误。 python & set解释器工作，所有环境变量都被正确设置。 print os.environ['PYTHONPATH'] /x01/spark_u/spark/python:/x01/spark_u/spark/python/lib/py4j-0.10.4-src.zip:/x01/spark_u/spark/python:/x01/spark_u/spark/python/lib/py4j-0.10.4-src.zip:/x01/spark_u/spark/python/lib/py4j-0.10.4-src.

浏览 1提问于2017-11-01得票数 0

2回答

用于多个数据文件的PySpark OOM

apache-spark、pyspark

我希望与PySpark并行处理几个类似大小(100 MB)的依赖于i的csv文件。我在一台机器上运行PySpark : spark.driver.memory 20g spark.executor.memory 2g local1 文件内容: type (在每个csv中具有相同的值)、时间戳、价格首先，我在一个csv上测试了它(注意，我使用了35个不同的窗口函数)： logData = spark.read.csv("TypeA.csv", header=False,schema=schema) // Compute moving avg. I used 35

浏览 3提问于2020-08-23得票数 0

1回答

设置pyspark jvm内存(Xmx)

apache-spark、pyspark

当我运行一个用pyspark编写的spark作业时，我运行了一个jvm，它有一个我似乎不能设置的Xmx1g设置。下面是ps aux的输出： /usr/lib/jvm/jre/bin/java -cp /home/ec2-user/miniconda3/lib/python3.6/site-packages/pyspark/conf:/home/****/miniconda3/lib/python3.6/site-packages/pyspark/jars/* -Xmx1g org.apache.spark.deploy.SparkSubmit pyspark-shell 我的问题是，如何设置

浏览 2提问于2018-04-30得票数 1

1回答

无法在ipython中正确创建火花上下文以链接到MySQL - com.mysql.jdbc.Driver。

python、jdbc、apache-spark、ipython-notebook、pyspark

我正在使用Spark、PySpark、Ipython和mysql运行一个本地环境。我很怀疑能够通过spark启动一个mysql查询。主要问题是包含适当的jdbc，以便能够执行查询。以下是我到目前为止所拥有的： import pyspark conf = (pyspark.SparkConf() .setMaster('local') .setAppName('Romain_DS') .set("spark.executor.memory", "1g") .set(&

浏览 4提问于2015-11-26得票数 3

回答已采纳

2回答

全新SQLContext: Spark 1.6向后兼容Spark 2.1

apache-spark、pyspark、data-science-experience

在IBM DSX上，我遇到了以下问题。对于DSX上的Spark1.6内核，为了避免metastore_db和HiveContext出现问题，必须创建新的SQLContext对象：以下代码片段是使用Spark 1.6实现的，它们都运行在Spark 2.0.2上，但不能运行在Spark 2.1上： from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.createDataFrame([(1, "a"), (2, "b"), (3, "c"),

浏览 30提问于2017-07-04得票数 0

回答已采纳

1回答

即使使用PYSPARK_PYTHON=python3，Pyspark也不会在纱线集群模式下使用python3

python、apache-spark、pyspark、ambari

我已经使用ambari在spark-env.sh中设置了PYSPARK_PYTHON=python3，当我在命令行中尝试'pyspark‘时，它可以在python3.4.3中运行。但是，当我使用yarn集群模式提交作业时，它使用python 2.7.9运行。如何让它使用python3？

浏览 5提问于2016-07-26得票数 0

2回答

如何在Pyspark中运行Python脚本

python、pyspark

我正在尝试在cloudera VM上的Pyspark中运行Python脚本首先我运行pyspark $ which pyspark $ pyspark 在启动spark之后，我尝试了： $ spark-submit /home/cloudera/test.py 告诉我“没有定义'spark‘的名字” $ ./bin/spark-submit /home/cloudera/test.py 提示"SyntaxError:无效语法“ 我知道网上有很多类似的问题，但我还是想不通。有人能帮帮忙吗？

浏览 0提问于2017-02-24得票数 0

1回答

如何在中间层集群上运行PySpark (可能是在客户端模式下)？

apache-spark、pyspark、mesosphere

我试图在中间层集群上运行一个PySpark作业，但是我似乎无法让它运行。我知道Mesos不支持PySpark应用的集群部署模式，需要在客户端模式下运行。我相信这就是问题所在。当我尝试提交一个PySpark作业时，我得到了下面的输出。 ... socket.hpp:107] Shutdown failed on fd=48: Transport endpoint is not connected [107] 我认为在客户端模式下运行的spark作业需要直接连接到节点，而这会被阻塞吗？我需要更改什么配置才能在客户端模式下运行PySpark作业？

浏览 0提问于2015-09-16得票数 3

1回答

如果通过星火提交提交作业，我们是否可以使用星火会话对象而不显式地创建它？

apache-spark、hive、pyspark、apache-spark-2.0、spark-submit

我的问题非常基本，我的代码运行良好。但我不清楚这两点： 1)当我们提交任何使用火花-提交的工作时，我们是否需要像这样创建火花会话对象？在我的剧本里： from pyspark.sql import SparkSession,SQLContext from pyspark.conf import SparkConf spark = SparkSession \ .builder \ .enableHiveSupport() \ .appName("test") \ .getOrCreate() print(spark) sqlContext = S

浏览 4提问于2017-09-12得票数 4

1回答

从pyspark shell连接到memsql

pyspark、singlestore

可以从pyspark连接到memsql吗？我听说memsql最近在pyspark之上构建了streamliner基础设施，以允许自定义的python转换。但这是否意味着我可以运行pyspark或提交连接到memsql的python spark作业？

浏览 3提问于2016-02-25得票数 1

1回答

流运行时无法使用的Pyspark shell

apache-spark、cmd、pyspark、spark-structured-streaming

我刚刚开始探索Windows10下的Apache (跟随)，使用pyspark。我读到了关于结构化流的章节，我在cmd上遇到了一些麻烦--每当我启动一个流时，cmd窗口就变得不可用了，因为Spark一直在“键入”一些东西，所以即使我输入了任何内容，它也会很快消失。我的代码(直接摘自这本书)： from pyspark.sql.functions import window, column, desc, col staticDataFrame = spark.read.format("csv")\ .option("header", "true"

浏览 1提问于2018-01-04得票数 0

回答已采纳

1回答

将PySpark数据作为dataproc作业上载到bigquery

pyspark、google-bigquery、jar、google-cloud-dataproc、spark-bigquery-connector

我试图在Dataproc集群上提交一个PySpark作业。我的工作是将数据上传到bigquery。当我使用集群上的submit作业执行时，我会遇到一个错误，作业失败。但是，当我提供这个罐子时： "gs://spark-lib/bigquery/spark-bigquery-latest_2.12.jar"，在提交作业中的jar文件参数中，作业成功执行。我想要的是找到一种避免在运行时提供这个jar的方法，只需给出.py文件的位置就可以运行作业。我该怎么做呢？是否可以在.py文件本身中指定此jar？我使用下面的方法在.py文件本身中提供jar，但它似乎不起作用。 from py

浏览 7提问于2022-04-06得票数 1

2回答

请求内存和分配内存之间的差异-在Kubernetes上的星点

apache-spark、kubernetes

我在Kubernetes集群中运行一个火花作业(Spark作业)，如下所示， bin/spark-submit \ --master k8s://https://api-server-host:443 \ --deploy-mode cluster \ --name spark-job-name \ --conf spark.kubernetes.namespace=spark \ --conf spark.kubernetes.container.image=docker-repo/pyspark:55 \ --conf spark.kuber

浏览 6提问于2020-03-16得票数 0

回答已采纳

10回答

星星之火2.1 -实例化HiveSessionState时出错

apache-spark

使用Spark2.1的新安装，我在执行pyspark命令时得到了一个错误。 Traceback (most recent call last): File "/usr/local/spark/python/pyspark/shell.py", line 43, in <module> spark = SparkSession.builder\ File "/usr/local/spark/python/pyspark/sql/session.py", line 179, in getOrCreate session._jsparkSession.se

浏览 7提问于2017-03-22得票数 9

回答已采纳

1回答

使用在内部定义了udf的模块冻结pyspark作业-解释？

pyspark、apache-spark-sql、user-defined-functions

情况是这样的：我们有一个模块，在其中我们定义了一些返回pyspark.sql.DataFrame (DF)的函数。为了获得这些DF，我们使用在同一文件或助手模块中定义的一些pyspark.sql.functions.udf。当我们实际为pyspark编写要执行的作业时，我们只从模块导入函数(我们向--py-files提供了一个.zip文件)，然后将数据帧保存到hdfs。问题是，当我们这样做时，udf函数冻结了我们的工作。我们发现的令人讨厌的修复方法是在作业中定义udf函数，并将它们提供给从我们的模块导入的函数。我找到的的另一个修复方法是定义一个类： from pyspark.sql.fun

浏览 12提问于2017-07-14得票数 9

1回答

错误:必须指定主资源(JAR、Python或R文件)- IPython记事本

apache-spark、ipython、pyspark

我尝试在IPython笔记本中运行Apache，遵循以下内容(以及注释中的所有建议)- 但是，当我通过以下命令运行IPython笔记本时： ipython notebook --profile=pyspark 我知道这个错误： Error: Must specify a primary resource (JAR or Python or R file) 如果我在外壳里运行火花放电，一切都好。这意味着我在连接火花和IPython方面有一些问题。顺便说一下，这是我的bash_profile： export SPARK_HOME="$HOME/spark-1.4.0" expo

浏览 7提问于2015-07-02得票数 7

2回答

如何在Glue ETL中启用pySpark？

pyspark、aws-glue

我有一个非常简单的Glue ETL Job，代码如下： from pyspark.context import SparkContext sc = SparkContext.getOrCreate() conf = sc.getConf() print(conf.toDebugString()) 在启用红移连接的情况下创建作业。当执行作业时，我得到： No module named pyspark.context 似乎都提到、指出并暗示了pyspark的可用性，但是为什么我的环境抱怨它没有pyspark呢？我遗漏了哪些步骤？最好的问候，Lim

浏览 56提问于2019-07-17得票数 0

回答已采纳

2回答

如何在远程星火库集群上运行本地Python脚本？

python、amazon-web-services、amazon-ec2、pyspark、amazon-emr

我在一个木星笔记本上运行了一个本地Python脚本，它在我的机器上运行我的本地Spark集群上的作业： sc = pyspark.SparkContext(appName="test") sqlCtx = pyspark.SQLContext(sc) 如何将此更改为连接字符串，以便在AWS中运行我的EMR集群上的作业？这是可能的，还是当SSH‘’ing进入远程集群时，我必须使用spark-submit函数？

浏览 0提问于2018-11-02得票数 0

回答已采纳

4回答

为PySpark创建IPython配置文件

python、apache-spark

我遵循这个链接，以便为IPython创建PySpark配置文件。 00-pyspark-setup.py # Configure the necessary Spark environment import os import sys spark_home = os.environ.get('SPARK_HOME', None) sys.path.insert(0, spark_home + "\python") # Add the py4j to the path. # You may need to change the version number t

浏览 2提问于2015-04-21得票数 7

回答已采纳

1回答

使用PySpark连接到Oracle

apache-spark、pyspark、ojdbc

我正在尝试使用PySpark连接到Oracle。 spark_config = SparkConf().setMaster(config['cluster']).setAppName('sim_transactions_test').set("jars", "..\Lib\ojdbc7.jar") sc = SparkContext(conf=spark_config) sqlContext = SQLContext(sc) df_sim_input = self.sqlContext.read\

浏览 9提问于2016-12-06得票数 1

回答已采纳

1回答

设置PYSPARK_SUBMIT_ARGS后，Jupyter中的PySpark失败

python、apache-spark、pyspark、jupyter-notebook、spark-submit

我正在尝试在Jupyter笔记本中加载Spark (2.2.1)包，否则它可以正常运行Spark。一旦我添加了 %env PYSPARK_SUBMIT_ARGS='--packages com.databricks:spark-redshift_2.10:2.0.1 pyspark-shell' 我在尝试创建上下文时遇到以下错误： --------------------------------------------------------------------------- Exception Traceba

浏览 42提问于2018-02-28得票数 1

3回答

火花弹出蜂箱表

apache-spark、apache-spark-sql

我想把一张蜂箱的桌子扔到火花里去。在一个包含Hadoop2.6、Hive2.0、Spark1.6和Spark2.0的集群中。我尝试了下面的代码，在火花公子外壳和火花提交作业与这两个版本。 sqlContext.sql('drop table test') //spark 1.6 spark.sql('drop table test') //spark 2.0 这两种代码在pyspark中都工作得很好，我从hive中可以看出，测试表已经不存在了。但是，如果代码位于python文件中，然后使用submit提交到集群中，那么代码就不会生效。 spar

浏览 5提问于2016-09-30得票数 8

4回答

让Pyspark在jupyterhub内部工作

python、apache-spark、pyspark、ipython-notebook、jupyterhub

我有一台装有JupyterHub (Python2、Python3、R和Bash内核)的机器。我让Spark(scala)和离线的PySpark工作。我甚至可以在交互式IPython笔记本中使用PySpark，命令如下： IPYTHON_OPTS="notebook" $path/to/bin/pyspark (打开一个Jupyter笔记本，在Python2中我可以使用Spark) 但我不能让PySpark在JupyterHub内部工作。不仅仅是我真正需要的。我只需要在JupyterHub中使用Pyspark。有什么建议吗？谢谢。

浏览 0提问于2015-07-21得票数 3

1回答

从.egg而不是.py运行.egg作业

pyspark、google-cloud-platform、google-cloud-dataproc

我正在尝试使用PySpark运行一个作业。与所有示例相比，唯一不同的是，我希望提交来自.egg的工作，而不是.py文件。为了在常规商品集群中提交PySpark作业，如下所示： spark2-submit --master yarn \ --driver-memory 20g \ --deploy-mode client \ --conf parquet.compression=SNAPPY \ --jars spark-avro_2.11-3.2.0.jar \ --py-files dummyproject-1_spark-py2.7.egg \

浏览 0提问于2018-11-09得票数 2

回答已采纳

3回答

如何从spark web UI中终止在后台运行的apache SPARK应用程序

python、apache-spark、sigkill

当我使用spark submit提交并运行良好时，下面的代码成功地创建了spark上下文。当我从Apache spark web UI中终止Running Applications下的应用程序时，应用程序状态显示为killed，但在终止后还会在屏幕上打印Test application：在apache spark web UI上运行的应用程序： ? 使用spark web UI上的"kill“按钮终止应用程序 ? 终止应用程序后仍在屏幕上打印消息 ? 我需要解决方案，以自动杀死python作业当我杀死spark-context from pyspark i

浏览 101提问于2019-06-20得票数 2

1回答

PySpark试图将上一个字段的架构应用到下一个字段

apache-spark、pyspark、apache-spark-sql、pyspark-sql

PySpark有这个奇怪的问题。它似乎在尝试将前一个字段的模式应用到下一个字段，因为它正在处理。我可以想出最简单的测试用例： %pyspark from pyspark.sql.types import ( DateType, StructType, StructField, StringType, ) from datetime import date from pyspark.sql import Row schema = StructType( [ StructField("date", DateType()

浏览 1提问于2019-02-01得票数 1

回答已采纳

1回答

在Windows上从木星笔记本启动PySpark时的错误消息

apache-spark、pyspark、jupyter-notebook、jupyter

同样的方法在木星上运行Apache星火，但现在它抛出异常：Java网关进程在向驱动程序发送其端口号之前退出。这是木星笔记本的配置，这是以前工作过的。 import os import sys spark_home = os.environ.get('SPARK_HOME', None) print(spark_home) spark_home= spark_home+"/python" sys.path.insert(0, spark_home) sys.path.insert(0, os.path.join(spark_home, 'python/

浏览 1提问于2017-01-29得票数 0

1回答

无法通过ssh (在EC2上)使用启动作业

bash、apache-spark、amazon-ec2、ssh

我在一台EC2机器上设置了火花，当我连接到它时，我可以使用spark，或者用jupyter或者submit，没有任何问题。不幸的是，我不能使用火花-提交通过ssh。因此，简单地说： --这个工作： ubuntu@ip-198-43-52-121:~$ spark提交job.py --这是不起作用的： ssh -i file.pem ubuntu@blablablba.compute.amazon.com“火花-提交job.py" 最初，我一次又一次地收到以下错误消息： 'java.io.IOException:不能运行程序“python: error=2，没有这样的文件或目录

浏览 0提问于2021-03-30得票数 1

1回答

加载多个文件并丢失一个文件时，PySpark作业失败

python、hadoop、apache-spark、amazon-s3、pyspark

当使用PySpark从S3加载多个JSON文件时，我会得到一个错误，如果缺少一个文件，Spark作业就会失败。由: org.apache.hadoop.mapred.InvalidInputException:输入模式s3n://示例/示例/2017-02-18/*..json匹配0个文件引起的这就是我如何将最后5天添加到我在PySpark的工作中。 days = 5 x = 0 files = [] while x < days: filedate = (date.today() - timedelta(x)).isoformat() path =

浏览 3提问于2017-02-20得票数 3

2回答

在PySpark中以编程方式设置驱动程序内存大小

python、apache-spark、pyspark

为了编写一个独立的脚本，我想直接从Python启动和配置一个Spark上下文。使用PySpark的脚本，我可以通过以下方式设置驱动程序的内存大小： $ /opt/spark-1.6.1/bin/pyspark ... INFO MemoryStore: MemoryStore started with capacity 511.5 MB ... $ /opt/spark-1.6.1/bin/pyspark --conf spark.driver.memory=10g ... INFO MemoryStore: MemoryStore started with capacity 7.0 GB .

浏览 6提问于2016-06-23得票数 7

回答已采纳

1回答

为什么我会看到多个星火安装目录？

python、scala、apache-spark、pyspark、apache-spark-sql

我正在运行一个ubuntu服务器，其中安装了spark。我无法访问这台服务器。因此，在我的目录下，我创建了一个新的virtual environment，其中安装了pyspark。当我键入以下命令时 whereis spark-shell #see below /opt/spark-2.4.4-bin-hadoop2.7/bin/spark-shell2.cmd /opt/spark-2.4.4-bin-hadoop2.7/bin/spark-shell.cmd /opt/spark-2.4.4-bin-hadoop2.7/bin/spark-shell /home/abcd/.

浏览 5提问于2020-06-23得票数 0

回答已采纳

1回答

Dataproc上的Spark流数据管道遇到频繁的套接字超时

pyspark、spark-streaming、google-cloud-dataproc

我在Google Cloud Dataproc上使用Spark streaming来执行一个框架(用Python编写)，它由几个连续的管道组成，每个管道代表Dataproc上的一个作业，它基本上是从Kafka队列读取并将转换后的输出写入Bigtable。所有管道组合在一起，每天通过2个群集处理数of的数据，一个具有3个工作节点，一个具有4个工作节点。在Dataproc上运行这个Spark streaming框架在5月初(准确地说是5月3日)之前一直相当稳定:我们开始遇到频繁的套接字超时异常，这会终止我们的管道。它似乎与集群上的负载无关，因为它并没有显著增加。它在一天中也是随机发生的，我检查了

浏览 0提问于2016-05-24得票数 3

1回答

使用python可执行文件提交Spark作业，而不是spark-submit

apache-spark、pyspark、spark-submit

在PySpark程序中，一旦将pyspark模块添加到path中，就可以导入from pyspark.sql import SparkSession并实例化SparkSession。什么时候可以使用python3可执行文件(例如python3 myApp.py而不是spark-submit myApp.py？)提交pyspark作业？我已经在客户端模式下对其进行了本地测试，似乎运行良好。那么cluster模式呢？是什么原因使得在某些情况下需要使用spark-submit？使用集成开发环境可执行文件调用应用程序使得使用PyCharm之类的python3调试程序变得更容易(据我所知)。

浏览 62提问于2021-02-06得票数 0

1回答

在星团和纱线上运行

hadoop、apache-spark、pyspark、apache-zeppelin

我已经在Apache中创建并运行了一个%pyspark程序，它运行在一个带有纱线客户端的星火集群上。该程序正在从HDFS读取Dataframe中的一个文件，并执行一个简单的groupby命令并成功地打印输出。我使用的是Zeppellin版本0.6.2和Spark2.0.0。我可以看到作业在纱线中运行(参见application_1480590511892_0007)：但是，当我同时检查Spark时，这个工作没有任何内容：问题1：这个作业不应该出现在这两个窗口中吗？此外，上面SparkUI映像中已完成的应用程序是齐柏林作业，使用%python解释器简单地初始化并停止Spa

浏览 1提问于2016-12-01得票数 0

回答已采纳