无法将Spark作业从Windows IDE提交到Linux群集

文章/答案/技术大牛

发布

1回答

、、、

我尝试在Windows10，Anaconda 4.4.0，Python3.6.1，IPython 5.3.0，Spyder 3.1.4，Spark 2.1.1上执行这个文件： at java.lang.Thread.run(Thread.java:748) 由于某种原因，这是试图在Linux从服务器上使用Windows

浏览 20提问于2017-08-29得票数 0

1回答

从ECS码头集装箱运行EMR作业

、

我已经将用python编写的ML作业代码包含到一个码头容器中，并能够使用Amazon作为码头服务运行。我想使用星星之火以分布式方式运行，并在亚马逊EMR.Can上部署，建立ECS和EMR之间的连接？

浏览 3提问于2017-05-25得票数 9

回答已采纳

2回答

在AWS EMR中启用Spark

、、、、

我在EMR集群上提交了一个Spark作业，我希望看到Spark，它提供了关于主节点和工作节点的配置和状态的信息。配置详细信息：应用程序 SPARK 2.3.1 启动群集后，在群集的“连接摘要”页下，唯一可单击的链接是“启用Web连接”。选项2:我尝试在Linux 上使用本地端口转发将SSH隧道设置为主节点。我仍然无法打开Sark或界面。PS:我使用Linux (Ubuntu

浏览 0提问于2019-03-21得票数 1

1回答

从窗口机连接到火花

、

我一直在尝试实现一个简单的任务，即连接到linux机器上，并运行一个简单的代码。当我创建一个简单的Scala代码时，从它构建一个jar，将它放在机器中并运行submit，一切正常工作，我就会得到一个结果。假设jar已经在机器上了，是否有一种方法可以通过我的IDE直接从不同的代码中运行它(调用星火提交)？更进一步说，如果我想运行不同的任务，我需要创建不同的罐子并将它们全部放到机器上吗？

浏览 1提问于2016-04-20得票数 1

回答已采纳

1回答

dse spark-提交到特定的工作池，而不是"default“

、、

我能够成功地从构建示例项目现在，我希望将上述作业提交给在cores: 2 - name: pool_1 memory: 16G

浏览 8提问于2020-05-14得票数 0

回答已采纳

1回答

hbase mapreduce作业的log4j

、、、、

但是，有没有办法将日志从hbase mapreduce作业定向到一个全新的文件？我的想法是，我有一个计划每晚运行的作业，我希望能够记录到这个作业的/var/ log /myjob.log中，这样我就可以检查该文件中的任何错误/异常，而不必通过jotrackter UI。此外，请注意，作业将提交到群集，因此如果日志文件需要在HDFS或常规(linux)平台上，请提供建议。如果是在

浏览 2提问于2013-06-25得票数 0

1回答

如何从IntelliJ IDEA向远程星火库集群提交代码

、

我的环境：Spark: 1.5.1OS: CentOS Linux release 7.1.1503 (Core)但我有个问题：当我使用本地集群时，一切都进行得很顺利。

浏览 2提问于2015-11-09得票数 7

7回答

我有Spark streaming应用程序，它基本上从Kafka获得触发消息，这启动了批处理，这可能需要2个小时。有一些事件，其中一些作业无限期地挂起，并且没有在通常的时间内完成，目前我们无法在不手动检查Spark UI的情况下确定作业的状态。我想知道当前正在运行的spark作业是否挂起的方法。当为StreamingMetrics.streaming.lastReceivedBatch_records == 0时，可能意味着Spark

浏览 6提问于2018-10-18得票数 8

1回答

windows pc环境下的作业调度

、、

当我提交作业时，我使用以下格式( 1)我是否可以用我的个人电脑进行模拟。比如使用VirtualBox和使用一个linux发行版？谢谢。

浏览 0提问于2018-06-06得票数 1

回答已采纳

1回答

(Apache光束)无法增加执行器内存-尽管使用了多个设置，但内存仍固定在1024M

、、、

我在Spark上运行一个apache beam工作负载。我用32 of的内存初始化了工作进程(从进程使用-c 2 -m 32G运行)。Spark submit将驱动内存设置为30g，将执行器内存设置为16g。但是，executors会因为java.lang.OutOfMemoryError: Java heap space而失败。/boot"}' 作业端点以默认方式设置：docker run --rm --network=host --name sp

浏览 32提问于2020-10-23得票数 2

2回答

将spark应用程序从Windows提交到Linux集群

、、

我在远程Ubuntu机器上运行着一个Spark和Worker。 C:/spark 1.6.0-bin-hadoop2.6/bin/spark提交-主火花://10.123.45.67:6066-部署模式集群-类com.company.spark.app.JavaDirectKafkaWordCount "C:

浏览 3提问于2016-02-11得票数 0

3回答

Apache Spark* - spark中的内部作业调度程序如何定义什么是用户，什么是池*

、、、、

我很抱歉在这里有点泛泛，但我对spark内部的作业调度是如何工作的感到有点困惑。从文档中，我了解到它是Hadoop公平调度器的某种实现。我无法理解这里的用户到底是谁(是linux用户、hadoop用户还是spark客户端？)。我也无法理解这里的池是如何定义的。例如，在我的hadoop集群中，我将资源分配给了两个不同的池(让我们称它们为team 1和team 2)。但是在spark集群中，不同的池和其中的用户不会实例化自己的sp

浏览 2提问于2015-04-24得票数 6

1回答

如何在Dataproc上调试星火作业？

、、

我在Dataproc集群上运行了一个Spark作业。如何配置环境，以便使用IDE在本地计算机上调试它？

浏览 1提问于2020-07-23得票数 6

回答已采纳

5回答

当应用程序jar在hdfs中时，火花提交不起作用

、、

我正在尝试使用bin/S火星-submit运行spark应用程序。当我在本地文件系统中引用我的应用程序jar时，它可以工作。/bin/spark-submit --class com.example.SimpleApp --master local hdfs://localhost:9000/user/hdfs/jars/simple-project-1.0-SNAPSHOT.jar 我使用hadoop版本2.6.0，spark版本1.2.1

浏览 1提问于2015-02-26得票数 33

回答已采纳

2回答

运行Fink应用程序建议(当然是在IDE之外)

我在这里谈论Linux (Centos 7 dist)，因为我甚至不想分享Windows抛给我的问题。欢迎任何建议。

浏览 0提问于2017-12-11得票数 0

7回答

初始作业未接受任何资源；请检查群集用户界面，以确保员工已注册并拥有足够的资源。

、、

我所拥有的版本是spark-1.6.2-bin-hadoop2.6.，我开始使用shell中的./sbin/start-master.sh命令来启动它，并将.start-master.sh设置如下：conf.setMaster("spark

浏览 7提问于2016-06-30得票数 34

回答已采纳

2回答

提交的火花作业-等待(TaskSchedulerImpl :初始作业未被接受)

、、

发出API调用以提交作业。奴隶)-工人-20160712083825-172.31.17.189-59433还活着使用的6种内存中的1Gb 根据我分配了 ~/spark-1.5.0&#

浏览 3提问于2016-07-13得票数 7

2回答

是通过Task Scheduler调度python脚本还是使用代码在需要时运行更好？

、、

1)取一个python文件script.py，编写一个.bat文件，在命令提示符下运行代码，然后使用windows原生任务调度程序在每天的特定时间启动该文件。BAT示例：python script.py 这是将运行python脚本的BAT文件的一些代码。

浏览 2提问于2018-01-05得票数 2

3回答

如何将数据流到EMR集群

、、

我很欣赏如何将数据从一个前提下的Windows服务器流到一个持久的EMR集群？我想运行一个持久集群，运行一个MR作业，就像可用的WordCount示例一样。我希望将文本从本地Windows流到群集，并由正在运行的作业进行处理。我看过的所有流WordCount示例都是从S3中的静态文本文件开始的，并且没有介绍如何实现生成流的任何内容。正如您可能知道的，我是一个Windows的家伙，延伸到EMR和联想<em

浏览 4提问于2013-12-18得票数 0

2回答

无法在码头上的火花集群上提交火花作业

、、、、

与标题所预期的一样，我有一些问题要提交一个火花作业到一个运行在码头上的星火集群。我用scala编写了一个非常简单的星火作业，订阅了kafka服务器，安排了一些数据，并将这些数据存储在弹性搜索数据库中。卡夫卡和elasticsearch已经在码头运行了。如果我在开发环境(/IntelliJ)中运行Ide中的火花作业(Windows /IntelliJ)，那么一切都运行得很完美。import org.apache.spark.SparkConf import org.el

浏览 1提问于2019-02-27得票数 2

点击加载更多