spark修炼_spark修炼基础_产品经理修炼 - 腾讯云开发者社区

、、、

我正在尝试在Docker上使用Zeppelin设置Spark开发环境，但我在连接Zeppelin和Spark容器时遇到了问题。我正在使用当前的docker-compose部署Docker Stack version: '3' services: spark-master: image: gettyimages/spark command: bin/spark-class org.apache.spark.deploy.master.Master -h spark-master hostname: spark-master environm

浏览 3提问于2019-08-24得票数 2

1回答

未能找到“火花-提交2.cmd”

、、

> library('BBmisc') > library('sparklyr') > sc <- spark_connect(master = 'local') Error in start_shell(master = master, spark_home = spark_home, spark_version = version, : Failed to find 'spark-submit2.cmd' under 'C:\Users\Owner\AppData\Local\spark

浏览 1提问于2020-11-01得票数 0

回答已采纳

3回答

启动Apache星系团

、、、

我已经在我的四个节点集群上安装了Hadoop。我还在其中的每一个上安装了Apache。我可以在没有密码的情况下从主人那里进入每个奴隶。我也可以很好地启动我的主节点。但是，当我尝试使用/opt/start/sbin/start-all.sh运行Spark时，我会得到以下错误： starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-hduser-org.apache.spark.deploy.master.Master-1-lebron.out doublet: chown: changin

浏览 9提问于2016-10-19得票数 4

回答已采纳

2回答

AWS胶-不能设置spark.yarn.executor.memoryOverhead

、、

在AWS Glue中运行python作业时，我会得到以下错误：原因:因超过记忆限度而被纱线杀死的容器。使用5.6GB的5.5GB物理内存。考虑提高spark.yarn.executor.memoryOverhead 在脚本开头运行此命令时： print '--- Before Conf --' print 'spark.yarn.driver.memory', sc._conf.get('spark.yarn.driver.memory') print 'spark.yarn.driver.cores', sc._conf.ge

浏览 1提问于2018-08-23得票数 6

2回答

Apache Spark 2.3.1与蜂巢转移3.1.0

、、、、

我们将HDP集群升级到3.1.1.3.0.1.0-187，并发现：蜂巢有一个新的亚稳态位置星星之火看不到蜂巢数据库事实上，我们看到： org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database ... not found 你能帮我了解一下发生了什么以及如何解决这个问题吗？更新：配置： (spark.sql.warehouse.dir，/spark.sql.warehouse.dir/tablespace/external/hive/) (spark.admin.acls，) (sp

浏览 0提问于2018-10-26得票数 6

2回答

Dataproc忽略Spark配置

、、

我在dataproc集群中运行下面的spark提交命令，但我注意到很少有spark配置被忽略。我想知道他们被忽视的原因是什么？ gcloud dataproc jobs submit spark --cluster=<Cluster> --class=<class_name> --jars=<list_of_jars> --region=<region> --files=<list_of_files> --properties=spark.driver.extraJavaOptions="-Dconfig.file=appl

浏览 44提问于2020-12-10得票数 1

回答已采纳

2回答

无效状态代码'400‘从..。错误有效负载：“需求失败:会话不活动

、、

在jupyter中，我正在运行Pyspark脚本来为csv编写一个数据文件，如下所示： df.coalesce(1).write.csv('Data1.csv',header = 'true') 运行一个小时后，我将得到以下错误。错误:来自的无效状态代码未激活。我的配置就像： spark.conf.set("spark.dynamicAllocation.enabled","true") spark.conf.set("shuffle.service.enabled","true") s

浏览 0提问于2019-06-20得票数 5

1回答

Spark with Java - Error:无法从JAR加载主类

、、、、

我正在尝试spark中的一个简单的电影推荐机器学习程序。Spark版本:2.1.1 Java版本:java 8 Scala版本: Scala代码运行器版本2.11.7环境: windows 7 运行这些命令来启动主从机和从从机 //start master spark-class org.apache.spark.deploy.master.Master //start worker spark-class org.apache.spark.deploy.worker.Worker spark://valid ip:7077 我正在尝试一个非常简单的电影推荐代码：我已经更新了代码以： Sp

浏览 8提问于2017-06-23得票数 1

2回答

Spark无法下载kafka库

、

我正在使用Python 3.5和Spark 2.2流媒体与Kafka，脚本无法运行，因为缺少kafka库。我不明白为什么这个库丢失了/没有找到，尽管依赖信息来自Spark的网站本身。 groupId = org.apache.spark artifactId = spark-streaming-kafka-0-10_2.11 version = 2.2.0 我运行了"spark-submit script.py“，错误显示kafka库是必需的。 Spark Streaming's Kafka libraries not found in class path. Try one

浏览 22提问于2018-08-27得票数 6

回答已采纳

1回答

Spark master Web Ui在Cloudera Quick start Vmware中显示Spark worker信息0

、、

Spark Master WebUI没有显示spark worker信息，而且worker在Cloudera Quickstart VM 5.3.0中运行得很好。 Cloudera Quickstart vm中的配置文件： export SPARK_LAUNCH_WITH_SCALA=0 export SPARK_LAUNCH_WITH_SCALA=0 export SPARK_LIBRARY_PATH=${SPARK_HOME}/lib export SPARK_MASTER_WEBUI_PORT=18080 export SPARK_MASTER_PORT=7077 export

浏览 0提问于2015-05-22得票数 1

1回答

带有Scala sbt错误的Apache Spark Mllib 2.1.0

、、

我使用Scala的小apache spark项目在我添加Mllib之前一直运行得很好。我的sbt构建文件看起来像下面这样，但是我得到了编译错误。我不能用Scala 2.11.X构建Apache Spark Mllib吗？任何指针都会很有帮助。 error] Modules were resolved with conflicting cross-version suffixes in {file:: [error] org.apache.spark:spark-launcher _2.11, _2.10 [error] org.apache.spark:spark-sketch

浏览 0提问于2017-03-11得票数 2

1回答

编译错误Spark 1.3.1

、

我尝试使用以下标志mvn -Pyarn -Phadoop 2.4scala\ -Dscala-2.11 \ -Phive -Phive-0.13.1 -Phive thriftserver\ -DskipTests编译Spark1.3.1干净包编译失败，出现以下错误。有什么建议吗？谢谢 [INFO] Reactor Summary: [INFO] [INFO] Spark Project Parent POM ........................... SUCCESS [01:08 min] [INFO] Spark Project Core ...........

浏览 0提问于2015-05-16得票数 0

1回答

为什么我的火花网页界面不活跃？

、、、、

我创建了一个docker compose-file，其中定义了Spark、Airflow、Postgres和Flower。在我的docker-compose up -d中执行cmd之后，我得到以下输出： [+] Running 11/11 - Network airflow_spark_default Created 0.8s - Container airflow_spark-redis-1 Started

浏览 2提问于2022-01-28得票数 0

1回答

Spark REST API，在Windows上提交应用程序NullPointerException

、、、、

我使用我的PC作为Spark服务器，同时作为Spark Worker，使用Spark 2.3.1。起初，我使用我的Ubuntu 16.04 LTS。一切运行正常，我尝试运行SparkPi示例(使用spark-submit和spark-shell)，它能够正常运行。我还尝试使用来自Spark的REST API运行它，并使用以下POST字符串： curl -X POST http://192.168.1.107:6066/v1/submissions/create --header "Content-Type:application/json" --data '{ &

浏览 10提问于2018-09-07得票数 0

回答已采纳

1回答

找不到数据源: com.databricks.spark.xml。请在http://spark.apache.org/third-party-projects.html上查找软件包

、、

我正在使用intellij项目加载Spark，但没有安装Spark。 val spark = SparkSession.builder().config(sparkConf).getOrCreate() 我已经通过使用以下命令将com.spark.databricks.xml添加到spark sparkConf.set("spark.driver.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar") sparkConf.setExecutorEnv("spark.driver.extraClassPat

浏览 7提问于2017-12-27得票数 1

2回答

在spark 2.1上运行scala spark 1.6作业失败

、、

我有一个需要每晚运行的spark工作。然而，我不得不从1.6更新到spark 2.1。现在我收到一个错误： org/apache/spark/sql/DataFrameReader.load()Lorg/apache/spark/sql/DataFrame；：java.lang.NoSuchMethodError(由file:/usr/local/src/spark21master/spark-2.1.2-bin-2.7.3/jars/spark-sql_2.11-2.1.2.jar加载)从(由org.apache.spark.util.MutableURLClassLoader@ee80a8

浏览 58提问于2018-06-12得票数 0

1回答

spark docker- image -tool找不到docker镜像

、

我在kuberenets helm install microsoft/spark --version 1.0.0上部署了spark (也尝试了bitnami图表，结果相同) 然后，如上所述，https://spark.apache.org/docs/latest/running-on-kubernetes.html#submitting-applications-to-kubernetes 我转到$SPARK_HOME/bin docker-image-tool.sh -r -t my-tag build 这返回找不到docker图像。此脚本必须从Apache Spark的可运行发行版运

浏览 50提问于2020-04-08得票数 0

1回答

在执行pyspark数据报时出现错误

、、、

当我试图读取hive表时，它会给GC开销限制超过错误。我已经试图改变spark.executor.memory和spark.driver.memory，但问题不断出现。 spark = SparkSession\ .builder\ .appName ("test") .config("spark. executor.memory","20g"))\ .config("spark.network.timeout","200000s")\ .config("spark.master","yar

浏览 7提问于2022-09-08得票数 0

1回答

火花参数在SparkSubmitOperator - AirFlow中不起作用。

、、、

我已经通过下面的火花参数在火花提交操作符在conf中，但是看起来这些参数在运行作业时不工作。 my_conf = { 'spark.io.compression.codec' : 'snappy', 'spark.scheduler.listenerbus.eventqueue.size' : '30000', 'spark.yarn.queue' : 'pixel', 'spark.driver.cores' : &#

浏览 4提问于2019-11-27得票数 0

1回答

EMR无服务器上的火花卡桑德拉连接器(PySpark)

、、、、

我正致力于在EMR上运行一个应用程序，并且在使用火花卡桑德拉连接器时遇到了困难。我没有问题把它拉到我的本地，但我所有尝试使用上的库都失败了。当我使用--jars s3://XXX/XXXX/spark-cassandra-connector-driver_2.12-3.2.0.jar包含库时，我在下面的行中出错 d = spark \ .read \ .format("org.apache.spark.sql.cassandra") \ .options(table="YYYY", keyspace="YYY") \

浏览 11提问于2022-08-09得票数 1

回答已采纳

1回答

从Dockerfile CMD调用sh文件时，无法在docker容器中设置环境变量

、、、、

我将按照链接创建一个星火集群。我能够运行星星团。但是，我必须给出一个启动spark-shell的绝对路径。我正在尝试在start-shell.sh中设置环境变量，即PATH和其他几个变量。然而，它并没有在容器中设置那个。我尝试使用容器内的printenv打印它。但这些变量从未得到反映。我是否试图不正确地设置环境变量？不过，星火群集正在成功运行。我正在使用dockerCompose.yml来构建和重新创建一个图像和容器。船坞-拼装-建造 Dockerfile # builder step used to download and configure spark environmen

浏览 6提问于2021-08-16得票数 0

回答已采纳

2回答

火花-提交java.lang.ClassNotFoundException

、

我试图以独立的模式执行spark submit，我的项目在IntelliJIdea工具中编译成功，我还创建了相关的jar文件，但当我尝试运行以下内容时： [cloudera@quickstart bin]$ spark-submit --verbose --class graphx /home/cloudera/ideaProjects/grafoTelefonos/target/graphx-1.0-SNAPSHOT.jar /usr/lib/spark/logs/temp.log 我得到了以下输出和错误消息： Using properties file: /usr/lib/spark/co

浏览 3提问于2016-05-05得票数 2

回答已采纳

1回答

从windows与linux的Spark提交

、

在过去的几天里，我在Kubernetes上体验了Spark (2.3.0)。我已经在linux和windows机器上测试了示例SparkPi，发现linux spark-submit运行正常，并且给出了正确的结果(剧透: Pi大约是3.1402157010785055) 在windows上，spark因类路径问题而失败(Could not find or load main class org.apache.spark.examples.SparkPi) 我注意到当从linux运行spark-submit时，类路径是这样的： -cp ':/opt/spark/jars/*:/var/

浏览 0提问于2018-04-09得票数 0

1回答

Spark Flume streaming -包丢失？

、

我尝试执行flume streaming的示例，但是我的jars文件无法工作:在这里，他们指出了 bin/spark-submit --jars \ external/flume-assembly/target/scala-*/spark-streaming-flume-assembly-*.jar 我不知道这个“外部”目录是什么？在我的spark ( 1.6.0 )库中，我放了几个jars (我同时尝试了1.6.0和1.6.0)： $ pwd /Users/romain/Informatique/zoo/spark-1.6.0-bin-hadoop2.4/lib $ ls *

浏览 3提问于2016-08-11得票数 0

1回答

连接到本地码头火花群集

、、、、

我正在尝试连接到一个星星团，我在本地创建了我的笔记本电脑。我使用的对接组合如下： services: spark-master: image: docker.io/bitnami/spark:3.2.1 environment: - SPARK_MODE=master - SPARK_RPC_AUTHENTICATION_ENABLED=no - SPARK_RPC_ENCRYPTION_ENABLED=no - SPARK_LOCAL_STORAGE_ENCRYPTION_ENABLED=no - SPARK_S

浏览 10提问于2022-06-07得票数 0

回答已采纳

1回答

sbt.ResolveException:未解析依赖: org.apache.spark#spark-core_2.11;2.1.2:未找到

、

我想使用spark 2.0中的连接组件algo。但是，sbt为0.13.15的打包出现了依赖错误。这背后的原因是什么？build.sbt文件如下所示： lazy val root = (project in file(".")). settings( name := "Networkana", version := "1.0", scalaVersion := "2.11.8", libraryDependencies ++= Seq( "org.apache.spark" %

浏览 163提问于2018-06-21得票数 2

3回答

从kubernetes pod提交pyspark应用程序

、、、

使用案例:使用spark从Kafka store中的parquet文件中获取流。打开这些拼图文件并使用图形框架生成图形。我在kubernetes上有一个与Kafka连接的bitnami spark infra。目标是将spark-submit调用到kubernetes pod中。这样，所有的代码都运行到kubernetes中，并且我没有在kubernetes之外安装spark。没有kubernetes，我已经完成了spark master容器的工作： docker cp ./Spark/Python_code/edge_stream.py spark_spark_1:/opt/bitna

浏览 5提问于2021-06-16得票数 1

1回答

SPARK 1.4.0文件找不到信任存储的异常

、、、、

我在hadoop-2.6.0中使用SPARK 1.4.0。我使用spark.ssl.enabled.启用ssl当提交一个示例作业时，在nodemanager日志中获取以下异常。 java.io.FileNotFoundException: C:\Spark\conf\spark.truststore (The system cannot find the path specified) 当我将信任存储文件放到其他驱动器(例如D:)中时，就会出现以下异常 java.io.FileNotFoundException: D:\Spark_conf\spark.truststore (The devi

浏览 4提问于2015-07-08得票数 1

1回答

在intellij中以交互方式运行星火：`akka.version`未找到

、、

我试图在Intellij的Scala工作表中运行Spark，但是说No configuration setting found for key 'akka.version'时出错了。工作表内容： import org.apache.spark.SparkContext val sc1 = new SparkContext("local[8]", "sc1") 全堆栈跟踪： import org.apache.spark.SparkContext 15/01/06 16:30:32 INFO spark.SecurityManager: Chan

浏览 3提问于2015-01-06得票数 1

回答已采纳

3回答

运行中的应用程序不显示为激发web Ui，而是运行

、、、

我需要你的帮助，我创建了两个应用程序(一个使用喷雾框架，另一个接收来自卡夫卡的信息并发送给卡桑德拉)。两人都会一直跑，而且永远不应该停下来。我在服务器上是独立的，我的内容是： - In spark_env.sh : SPARK_MASTER_IP=MYIP SPARK_EXECUTOR_CORES=2 SPARK_MASTER_PORT=7077 SPARK_EXECUTOR_MEMORY=4g #SPARK_WORKER_PORT=65000 MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT} SPARK_LOCAL_IP=MYIP

浏览 2提问于2016-09-13得票数 0

回答已采纳

0回答

kubernetes上的SparkPi -无法找到或加载主类？

、、

我正在尝试在kubernetes集群上启动一个标准示例SparkPi。Spark-submitt创建pod并失败，并显示错误- " error : main not find or load main class org.apache.spark.examples.SparkPi“。 spark-提交 spark-submit \ --master k8s://https://k8s-cluster:6443 \ --deploy-mode cluster \ --name spark-pi \ --class org.apache.spark.examples.SparkPi \ -

浏览 10提问于2018-07-23得票数 2

回答已采纳

2回答

CrashLoopBackOff : nohup:无法执行“-”：没有这样的文件或目录

、、、

Dockerfile： FROM openjdk:8-alpine RUN apk update && \ apk add curl bash procps ENV SPARK_VER 2.1.1 ENV HADOOP_VER 2.7 ENV SPARK_HOME /opt/spark # Get Spark from US Apache mirror. RUN mkdir -p /opt && \ cd /opt && \ curl http://www.us.apache.org/dist/spark/s

浏览 9提问于2017-06-20得票数 1

回答已采纳

1回答

火花提交-退出程序前不要等待状态完成。

、、、、

我提交一个火花工作，通过火花提交给我们的纱线服务。根据我的理解，火花-提交应该继续运行，直到有一个状态的完成，然后才继续前进。然而，一旦通过竹提交，火花提交将退出，并直接进入等待，然后sql查询将运行。但是，在火花作业100%完成之前，不应该运行sql查询。不知道为什么我的火花-提交没有等待。任何帮助都将不胜感激，谢谢 nohup spark-submit --name "${APP_NAME}" \ --class "${SPARK_CLASS_NAME}" \ --files j

浏览 4提问于2022-03-22得票数 0

1回答

为什么sbt更新失败与“冲突的跨版本后缀”与火花GraphX？

、、、

这里是我的sbt，用于在Intellij上使用scala version := "0.1" scalaVersion := "2.11.11" // https://mvnrepository.com/artifact/org.apache.spark/spark-graphx_2.10 libraryDependencies += "org.apache.spark" % "spark-graphx_2.10" % "2.1.0" // https://mvnrepository.com/artifact/

浏览 2提问于2017-10-14得票数 0

回答已采纳

2回答

如何在Spark2.4中读取闪烁2-shell中的Avro文件？

、

我们在Spark2.4中在spark2-shell中读取avro文件时遇到了问题，任何指针都会有很大帮助。我们使用以下方法读取Spark2.4 2.3中的avro文件，但这种支持在Spark2.4中已被删除： spark2-shell --jars /tmp/spark/spark-avro_2.11-4.0.0.jar import org.apache.avro.Schema spark.sqlContext.sparkContext.hadoopConfiguration.set("avro.mapred.ignore.inputs.without.extension"

浏览 4提问于2020-01-24得票数 2

回答已采纳

1回答

Spark:混洗操作导致GC长时间暂停

、、、、

我正在运行Spark 2，并试图混洗大约5TB的json。在Dataset的混洗过程中，我遇到了很长的垃圾收集暂停 val operations = spark.read.json(inPath).as[MyClass] operations.repartition(partitions, operations("id")).write.parquet("s3a://foo") 有没有什么明显的配置调整来处理这个问题？我的配置如下： spark.driver.maxResultSize 6G spark.driver.memory 10G spark.execu

浏览 12提问于2016-08-17得票数 5

回答已采纳

1回答

同时运行多个Hive查询时的节俭驱动程序OutOfMemory

、、

我们使用Spark2来运行Hive查询。节俭是HDP 2.6的一部分，我们的火花版本是2.1.0.2.6.0.3-8。我们同时运行的查询越多，在驱动程序中遇到OOM的速度就越快。这些查询还包含联接和联合。从jstat看来没有内存泄漏，但是无论给驱动程序多少内存，似乎都是不够的。同时运行的查询越多，Thrift驱动程序开始执行完整GC的速度就越快，直到它崩溃，因为完整的GC不能清理旧内存(因为它正在使用)。 OOM从未发生在执行者中，只发生在驱动程序中。有没有人在火花问题上与之合作，并遇到这个问题？如果是这样的话，那么当同时运行几个查询时，如何才能配置Thrift驱动程序不使OOM崩溃？

浏览 2提问于2017-10-12得票数 3

2回答

Spark History服务器未列出已完成的jars

、、、

我在Windows中运行Spark独立作业。我想使用Spark历史服务器监控我的spark作业。我已经用下面的命令启动了spark历史服务器，历史服务器启动成功。 C:\Users\Documents\Prev_D_Folder\Softwares\Softwares\spark-2.2.0-bin-hadoop2.7\spark-2.2.0-bin-hadoop2.7\spark-2.2.0-bin-hadoop2.7\bin>spark-class.cmd org.apache.spark.deploy.history.HistoryServer 我在本地运行了spark作

浏览 2提问于2019-05-02得票数 1

1回答

Docker，java.net.UnknownHostException: docker-桌面:docker-桌面: Name不解析

、

我正在running机器上成功地运行码头集装箱。我在苹果机上运行同样的码头有困难。我在两个macs上试过了，错误信息是一样的。 > spark-worker_1 | java.net.UnknownHostException: docker-desktop: > docker-desktop: Name does not resolve spark-worker_1 | at > java.net.InetAddress.getLocalHost(InetAddress.java:1506) > spark-worker_1 | at &

浏览 5提问于2020-01-10得票数 1

回答已采纳

1回答

GCP Dataproc -在提交无法工作的作业时添加多个包(kafka，mongodb)

、、、、

我正在尝试在提交dataproc pyspark作业时添加kafka & mongoDB包，但是这是失败的。到目前为止，我只使用了kafka包，这很好，但是当我尝试在下面的命令中添加mongoDB包时，会出现错误命令正常工作，只使用Kafka包。 gcloud dataproc jobs submit pyspark main.py \ --cluster versa-structured-stream \ --properties spark.jars.packages=org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.2, s

浏览 9提问于2022-05-24得票数 0

回答已采纳

1回答

如何在独立模式下将自定义SPARK_CONF_DIR传递给从机

我正在共享集群环境中安装Spark。我们决定使用spark独立模式，并使用sbin中包含的"start-all.sh“命令来启动Spark workers。由于集群的共享架构，SPARK_HOME位于用户不可写的公共目录中。因此，我们在用户的scratch中创建"run“目录，其中可以指向SPARK_CONF_DIR、日志目录和工作目录。问题是worker节点上从未设置过SPARK_CONF_DIR，因此它们缺省为$SPARK_HOME/conf，其中只有模板。我想要做的是通过SPARK_CONF_DIR从主节点传递到从节点。我已经确定了一个解决方案，但它需要sbin/sta

浏览 1提问于2019-04-17得票数 0

1回答

使用Crealytics包读取Excel文件时出错

、、、、

我试图使用Crealytics从HDFS位置读取一个Excel文件，并不断得到一个错误(由: java.lang.ClassNotFoundException:org.apache.spark.sql.connector.catalog.TableProvider).引起)我的密码在下面。有小费吗？当运行下面的代码时，火花会话启动罚款，Crealytics包加载，没有错误。只有在运行"spark.read“代码时才会出现错误。我使用的文件位置是准确的。 def spark_session(spark_conf): conf = SparkConf() for (key

浏览 11提问于2022-02-28得票数 -1

回答已采纳

1回答

增加spark实例的执行器数量

我正在通过pyspark启动一个spark实例。我使用的系统是EC2上的r3.8x，内存为244gb，vCPU为32。我使用的代码是 #Import Packages import os import sys import pandas as pd import numpy as np import glob import shutil #Initialize Spark Environment spark_path = "C:\spark" os.environ['SPARK_HOME'] = spark_path os.environ['HADOO

浏览 1提问于2017-07-24得票数 1

1回答

仅在csv文件的字段1、2上打印重复行

、、、、

通过下面的命令，我们可以从文件中打印重复行 uniq -d string file.txt 但我们怎样才能在csv文件上做到呢？我们只需要在csv文件的字段1,2上打印重复行--不包括字段3 FS - "，“ 例如： spark2-thrift-sparkconf,spark.history.fs.logDirectory,{{spark_history_dir}} spark2-thrift-sparkconf,spark.history.fs.logDirectory,true spark2-thrift-sparkconf,spark.history.Log.logDir

浏览 0提问于2017-08-22得票数 2

回答已采纳

1回答

使用Python的星星之火K8s资源暂存服务器

、、、

我一直在跟踪上的火花K8s ，Kubernetes v1.9.0和Minikubev0.25.0。我能够使用以下命令成功地运行Python作业： bin/spark-submit \ --deploy-mode cluster \ --master k8s://https://10.128.0.4:8443 \ --kubernetes-namespace default \ --conf spark.executor.instances=1 \ --conf spark.app.name=spark-pi \ --conf spark.kubernetes.driv

浏览 0提问于2018-02-10得票数 2

回答已采纳

1回答

如何提高纱线应用并行度

、、

我正尝试在EMR Spark上运行多个yarn应用程序，但我无法同时运行超过5个应用程序。我正在为Spark Cluster使用以下配置： Master = r5.2xlarge Worker = r5.12xlarge 384 GB RAM 48个虚拟核心部署模式=群集 JSON { "Classification":"spark-defaults", "ConfigurationProperties":{ "spark.executor.extraJavaOptions":

浏览 7提问于2019-07-11得票数 0

回答已采纳

1回答

查询结果与SSRS结果不同

、、

在SSMS上运行时，我有一个查询可以提取准确的数据，但是当我使用完全相同的查询使用SSRS创建报表时，它会遗漏来自我使用的两个临时表之一的结果。 DECLARE @from int --= @fromparameter DECLARE @to int --= @toparameter /* For debug */ set @from = 0 set @to = 50 /* ================================================================================ Build a temp table with all a

浏览 0提问于2015-11-11得票数 3

回答已采纳

1回答

在kubernetes集群中星火作业位置-没有这样的文件错误

、、

我试图将星火应用程序提交给Kubernetes集群，作业文件位于:/opt/ Spark / application / path，使用以下命令提交spark： ${SPARK_PATH}/bin/spark-submit \ --master <K8S_MASTER> \ --deploy-mode cluster \ --name spark-py-driver \ --conf spark.executor.instances=5 \ --conf spark.kubernetes.container.image=spark-py:2.4.0-rc3 \ --conf spa

浏览 0提问于2018-10-22得票数 0

回答已采纳

2回答

在Kubernetes上运行Spark时指定公差的Pod模板

、、、

我在尝试通过Kubernetes调度程序启动Spark作业时遇到了一些问题。我希望我的所有驱动程序/执行器pod都派生到具有某种污点的节点上。因此，我想指定将直接注入到pods配置文件中的公差。目前，没有直接从spark-submit命令执行的默认方法根据和，用户应该能够指定pod模板，该模板可以使用以下参数设置：spark.kubernetes.driver.podTemplateFile和spark.kubernetes.executor.podTemplateFile。我尝试使用以下文件在spark-submit命令中指定这些参数： pod_template.template ap

浏览 0提问于2019-09-30得票数 1

1回答

清理Spark历史日志

我们有一个长期运行的EMR集群，我们在其中提交Spark作业。我发现随着时间的推移，HDFS会被Spark应用程序日志填满，这有时会导致EMR/Yarn (?)所看到的主机不健康。运行hadoop fs -R -h /显示1，这清楚地显示没有任何应用程序日志被删除。我们已经将spark.history.fs.cleaner.enabled设置为true (在Spark UI中验证了这一点)，并希望其他默认值，如清理间隔(1天)和清理最大年龄(7d)，如：将负责清理这些日志。，但事实并非如此。有什么想法吗？ 1 -rwxrwx--- 2 hadoop spark 543.1

浏览 0提问于2017-03-16得票数 17

回答已采纳