Spark在每个节点上创建临时目录结构

，用于存储临时数据和中间结果，以支持Spark的计算任务。

Spark是一个开源的大数据处理框架，它提供了高效的数据处理和分析能力。在Spark中，每个节点都会创建临时目录结构，用于存储计算过程中产生的临时数据和中间结果。这些临时目录通常位于本地磁盘上，以提高数据读写的性能。

临时目录结构的创建是由Spark自动完成的，无需用户手动干预。在每个节点上，Spark会根据配置文件中的设置，创建一个或多个临时目录。这些临时目录可以是本地磁盘上的普通目录，也可以是分布式文件系统（如HDFS）上的目录。

临时目录结构的创建有助于提高Spark的计算性能和可靠性。首先，临时目录可以用于存储计算过程中产生的临时数据，避免频繁的磁盘读写操作，提高计算效率。其次，临时目录还可以用于存储中间结果，以便后续的计算任务可以直接使用，避免重复计算，提高计算速度。

对于Spark用户来说，了解临时目录结构的创建可以帮助他们更好地管理和优化Spark的计算任务。用户可以根据自己的需求和资源情况，合理配置临时目录的位置和大小，以满足计算任务的需求。

腾讯云提供了一系列与Spark相关的产品和服务，包括云服务器、云存储、云数据库等。用户可以根据自己的需求选择适合的产品和服务，搭建和管理Spark集群，并使用临时目录结构来支持Spark的计算任务。

更多关于Spark的信息和腾讯云相关产品的介绍，请参考以下链接：

apache，“未能创建任何本地dir”

、、

我正在尝试在一个小型独立集群(1个主节点和8个从节点)上设置Apache。我已经安装了建立在Hadoop2.4之上的spark 1.1.0的“预构建”版本。我在节点之间设置了无密码ssh，并导出了一些必要的环境变量。其中一个变量(可能是最相关的)是： export SPARK_LOCAL_DIRS=/scratch/spark/ 我有一小块python代码，我知道它与Spark一起工作。我可以在本地运行它--在我的桌面上，而不是在集群上--通过： $SPARK_HOME/bin/spark-submit ~/My_code.py 我将代码复制到集群中。然后，从head节点启动所有进程： $SP

浏览 5提问于2014-10-27得票数 5

回答已采纳

2回答

星火在哪里寻找文本文件？

我认为加载文本文件只需要在集群中的workers /中完成(您只需要确保所有工作人员都可以访问相同的路径，要么在所有节点上都可以使用该文本文件，要么使用映射到同一路径的共享文件夹)。例如，spark-submit / spark-shell可以从任何地方启动，并连接到火花主机，启动spark-submit / spark-shell的机器(这也是我们的驱动程序运行的地方，除非您处于“集群”部署模式)与集群无关。因此，任何数据加载都应该只从工人那里进行，而不是在驱动机上，对吗？例如，sc.textFile("file:///somePath")不应该会导致在驱动程序机器上查找文

浏览 2提问于2015-09-08得票数 11

回答已采纳

2回答

带有'yarn-client‘的Spark-shell试图从错误的位置加载配置

、、

我尝试从笔记本电脑启动bin/spark-shell和bin/pyspark，并在yarn-client模式下连接到Yarn集群，但我收到了相同的错误 WARN ScriptBasedMapping: Exception running /etc/hadoop/conf.cloudera.yarn1/topology.py 10.0.240.71 java.io.IOException: Cannot run program "/etc/hadoop/conf.cloudera.yarn1/topology.py" (in directory "/Users/euge

浏览 2提问于2015-07-14得票数 5

3回答

尝试将Spark SQL Dataframe保存在空目录中

、、、、

假设我有一个名为df的DataFrame。我运行以下命令来尝试将其保存到本地： df.coalesce(1). write. format("com.databricks.spark.csv"). option("header", "true"). parquet("example") } 但是，当我这样做并检查是否创建了该文件时(在目录example中，我看到一个目录中只有两个文件： _SUCCESS ._SUCCESS.crc 如何让DataFrame正确保存文件？如果它很重要，我也是通过Jupyt

浏览 0提问于2016-07-07得票数 1

4回答

火花工未与师父连接

我想要创建一个火花独立集群。我可以在同一个节点上运行主节点和从节点，但是不同节点上的从节点既没有显示主URL，也没有连接到主节点。我正在指挥： start-slave.sh spark://spark-server:7077 其中spark-server是我主人的主机名。我可以从工人中选择主人，但是除了运行在同一台机器上之外，WebUI没有显示任何工人。客户端节点正在运行一个工作人员，但它是独立的，并且没有连接到主节点。

浏览 7提问于2016-12-09得票数 7

回答已采纳

1回答

星星之火在本地目录中的应用

、、、

问题由于Mkdirs创建失败而导致的火花应用程序错误。我使用spark 1.6.3无法在本地dir上保存输出 java.io.IOException: Mkdirs failed to create file:/home/zooms/output/sample1/sample1.txt/_temporary/0/_temporary/attempt_201709251225_0005_m_000000_10 (exists=false, cwd=file:/grid/1/hadoop/yarn/local/usercache/zooms/appcache/application_15045

浏览 4提问于2017-09-25得票数 0

回答已采纳

1回答

Spark在每个节点上创建临时目录结构

我正在开发一个spark java包装器，它使用第三方库，它将从作业执行的硬编码目录名中读取文件，例如"resdata“。我知道这是扭曲的，但我会努力解释。当我执行作业时，它试图在下面这样的路径中查找所需的文件，我假设它在当前数据目录中查找文件，在该目录下查找名称为“/data/Hadoop/yarn/local//appcache/application_xxxxx_xxx/container_00_xxxxx_xxx/resdata”的目录。在这一点上，我不知道如何将当前目录配置为hdfs或本地的任何路径。因此，寻找选项来创建类似于第三方库期望的目录结构，并将所需的文件复制到那里。

浏览 4提问于2018-08-17得票数 0

2回答

AWS-EMR:日志文件在哪里？

我正在使用EMR通过纱线运行spark作业。作业失败，但我找不到EMR记录异常的位置，我可以在主节点屏幕输出上看到回溯，如下所示。应该有一个更详细的日志文件，它显示了导致异常的原因，但我找不到它在哪里。我查看了hdfs://var/log/spark/app/application_xxx，它没有显示任何错误。以下是我提交申请的方式： spark-submit --deploy-mode cluster --master yarn --num-executors 1 --executor-cores 2 --executor-memory 5g word2vec_app.py hdfs:///

浏览 32提问于2017-03-02得票数 2

回答已采纳

1回答

无法在我的群集上启动spark

、、、

日志文件spark-hadoop-org.apache.spark.deploy.master.Master-1-master.outis中的信息如下：在日志文件spark-hadoop-org.apache.spark.deploy.worker.Worker-1-master.out中，它写道：请帮帮忙。我的spark版本是:spark-1.6.0-bin-2.6.0 hadoop.tgz Scala版本是:2.10.5 Hadoop版本是:2.6.0

浏览 3提问于2016-02-23得票数 0

1回答

我的spark程序中有大量的阶段

、、、

当我的spark程序执行时，它创建了1000个阶段。但是，我只看到推荐的是200。最后，我有两个动作将数据写入S3，之后我就得到了未持久化的数据帧。现在，当我的spark程序将数据写入S3时，它仍然多运行了近30分钟。为什么会这样呢？是因为我保存了大量的数据帧吗？ P.S ->我正在运行的程序只有5个输入记录。

浏览 0提问于2018-08-17得票数 1

1回答

在Azure HDIinsight集群中指定--文件时，Spark提交在yarn集群模式下失败

、、

纱线群集模式下的Spark提交失败，但在客户端模式下成功 Spark提交： spark-submit --master yarn --deploy-mode cluster \ --py-files packages.zip,deps2.zip \ --files /home/sshsanjeev/git/pyspark-example-demo/configs/etl_config.json \ jobs/etl_job.py Error stack: Traceback (most recent call last): File "etl_job.py", li

浏览 24提问于2020-01-30得票数 3

1回答

Apache Spark在本地模式下性能下降

、、、

我正在为Spark 2.0.2 运行一个简单的性能测试，我在一台有4核和16 am内存的笔记本电脑上使用Pi估计示例，如下所示： $ ./bin/spark-shell --master=local[1] --name=shell_1 scala> val NUM_SAMPLES=160000000 NUM_SAMPLES: Int = 160000000 然后我复制/粘贴Pi计算的代码。 val count = sc.parallelize(1 to NUM_SAMPLES).map{i => val x = Math.random() val y = Math.ran

浏览 3提问于2016-11-21得票数 2

2回答

Spark作业性能问题

、、、、

我有以下DSE群集配置： 6 nodes with 6 cores/16GB ram for each node. 我的应用程序是使用从Cassandra DB读取数据的pyspark构建的。我们在cassandra db上加载320.000.000行，并使用全部内存和内核运行我的python spark应用程序，结果出现以下错误： Lost task 97.0 in stage 299.0 (TID 14680, 11.218.78.15): java.io.IOException: No space left on device at java.io.FileOutputStream.w

浏览 4提问于2018-03-08得票数 0

2回答

纱线罐上的火花上传问题

、、、

我正在尝试使用spark运行一个简单的Map/Reduce java程序(ClouderaHadoop5.2在CentOS上)。我试过这两种不同的方法。第一种方法是： YARN_CONF_DIR=/usr/lib/hadoop-yarn/etc/hadoop/; /var/tmp/spark/spark-1.4.0-bin-hadoop2.4/bin/spark-submit --class MRContainer --master yarn-cluster --jars /var/tmp/spark/spark-1.4.0-bin-hadoop2.4/lib/spark-assembly-

浏览 1提问于2015-06-17得票数 4

回答已采纳

2回答

如何在电子病历上调优火花作业，在S3上快速写大数据

、、、

我有一个火花作业，在两个数据帧之间做外部连接。第一个数据帧的大小为260 GB，文件格式为文本文件，分为2200个文件，第二个数据帧的大小为2GB。然后，将大约260GB的数据帧输出写入S3需要很长时间，在此之后，我取消了2个多小时，因为我在EMR上已经做了很大的更改。这是我的集群信息。 emr-5.9.0 Master: m3.2xlarge Core: r4.16xlarge 10 machines (each machine has 64 vCore, 488 GiB memory,EBS Storage:100 GiB) 这是我正在设置的群集配置。 capacit

浏览 3提问于2017-10-15得票数 20

1回答

在dataproc上触发默认设置，特别是spark.yarn.am.memory

、、

在google dataproc上，我想知道火花设置是如何确定的？在我的示例中，我运行的是一个3节点N1标准-4集群，自动生成的星火默认. case如下所示： # User-supplied properties. #Fri Dec 16 12:01:47 UTC 2016 spark.yarn.am.memoryOverhead=558 spark.executor.memory=5586m spark.executor.cores=2 spark.driver.memory=3840m spark.yarn.executor.memo

浏览 4提问于2016-12-16得票数 2

回答已采纳

1回答

当jar在HDFS中时，Spark作业不运行

、、

我正尝试在独立模式下运行spark作业，但是命令没有从HDFS文件中拾取，jar文件存在于HDFS.The位置，并且当我在本地模式下运行它时，它工作得很好。下面是我正在使用的命令 spark-submit --deploy-mode client --master yarn --class com.main.WordCount /spark/wc.jar 下面是我的程序： val conf = new SparkConf().setAppName("WordCount").setMaster("yarn") val spark = new S

浏览 52提问于2019-01-19得票数 0

回答已采纳

1回答

Apache EC2作业未运行。设备上没有剩余空间

、

我在20个节点集群上多次运行我的程序。每次运行该程序时，都会突然收到以下错误： 15/04/19 16:52:35 WARN scheduler.TaskSetManager: Lost task 35.0 in stage 9.0 (TID 384, ip-XXX.XXX.compute.internal): java.io.FileNotFoundException: /mnt/spark/spark-local-XXX-ebd3/18/shuffle_2_35_64 (No space left on device) java.io.FileOutputStream.open(N

浏览 4提问于2015-04-19得票数 1

回答已采纳

2回答

在EC2上使用Spark分发集群创建中的文件

、、

我正在亚马逊的EC2基础设施上与斯派克合作。在执行我的Spark应用程序之前，我需要将一个自定义文件(在我的例子中是一个本机库)分发并发送到所有的工作节点上。我正在寻找类似于亚马逊的弹性MapReduce (EMR)提供的引导功能，开发人员可以在启动阶段在每个节点上运行自定义脚本。到目前为止，我已经使用了copy-dir脚本(位于spark-ec2文件夹上)，该脚本将确定的文件复制到集群中的所有可用节点中，这些节点的工作方式如下：假设需要在所有节点中存在一个本机库(myLib.so)。第一步是将文件定位到我们希望在集群中传播的确切目录中。之后，我们可以按如下方式运行copy-dir脚本：

浏览 1提问于2014-08-30得票数 4

2回答

将数据存储到本地文件系统将导致结果为空。

、

我们在AWS EMR上运行spark 2.3.0。以下DataFrame "df“是非空的，大小适中： scala> df.count res0: Long = 4067 下面的代码可以很好地将df编写到hdfs scala> val hdf = spark.read.parquet("/tmp/topVendors") hdf: org.apache.spark.sql.DataFrame = [displayName: string, cnt: bigint] scala> hdf.count res4: Long = 4067 但是，使用

浏览 0提问于2018-07-30得票数 18

回答已采纳

2回答

使用直线客户端通过Spark服务器查询冰山表时出错吗？

、、

我正在尝试使用星火节约服务器来查询冰山表(外部表包含S3中的数据和Hivemetastore中的元数据)。我能够查询非冰山表，但是当我查询冰山表时，我得到的是以下错误。我们不可以通过星火节约服务器查询冰山表吗？版本细节火花- 3.2.1 斯卡拉- 2.12.15 冰山火花库- 我从maven中添加了其他S3、AWS依赖jars，并添加到spark文件夹中。我已经使用以下命令启动了节俭服务器 start-thriftserver.sh \ --hiveconf hive.metastore.uris=thrift://$ip:$port \ --conf spar

浏览 31提问于2022-06-14得票数 2

回答已采纳

3回答

在包含其他文件的YARN集群上运行Spark作业

、、

我正在编写一个简单的spark应用程序，它使用一些输入RDD，通过管道将其发送到外部脚本，并将该脚本的输出写入文件。驱动程序代码如下所示： val input = args(0) val scriptPath = args(1) val output = args(2) val sc = getSparkContext if (args.length == 4) { //Here I pass an additional argument which contains an absolute path to a script on my local machine, only for lo

浏览 0提问于2015-05-05得票数 11

回答已采纳

2回答

在同一个HDFS位置上触发并发写入

、、、、

我有一个火花代码，它使用附加模式将数据存储到HDFS位置(日期分区位置) Json格式。 df.write.mode("append").format('json').save(hdfsPath) sample hdfs location : /tmp/table1/datepart=20190903 我正在使用NiFi集群中上游的数据。NiFi集群中的每个节点将为消耗的数据创建一个流文件。我的spark代码正在处理流file.As NiFi是分布式的，我的spark代码是从不同的NiFi节点并行执行的，试图将数据保存到相同的HDFS位置。我不能将火花作业的输

浏览 8提问于2019-09-03得票数 8

1回答

如何解决pyspark Databricks中的GC开销

、、、、

我正尝试在spark dataframe中加载一个100 gb的json文件，并在其上创建一个临时视图。然后我用query查询这个视图中的数据。 select * from <table_view> limit 1; 但是查询并没有完成，而是给出了错误Caused by : java.lang.OutOfMemoryError: GC Overhead limit exceeded. I‘m But my code in databricks cluster。以下是我的集群详细信息： Cluster Mode : standard Databricks runtime Versio

浏览 0提问于2020-03-31得票数 1

4回答

java.sql.SQLException:在将DataFrame加载到Spark中时找不到合适的驱动程序

、、、

当试图将JDBC加载到Spark中时，我遇到了非常奇怪的问题。我尝试了几个星团-纱线，独立的集群和伪分布式模式在我的笔记本电脑。它在星火1.3.0和1.3.1上都是可复制的。这个问题既发生在spark-shell中，也发生在用spark-submit执行代码时。我尝试过MySQL &MySQL驱动程序，但没有成功。考虑以下样本： val driver = "com.mysql.jdbc.Driver" val url = "jdbc:mysql://localhost:3306/test" val t1 = { sqlContext.load(

浏览 2提问于2015-04-28得票数 13

回答已采纳

6回答

Apache不删除临时目录

在spark程序完成后，临时目录中仍然保留着3个临时目录。目录名如下所示:spark 2e389487-40 are 4a82-a5c7-353 c0feefbb7 目录是空的。当Spark程序在Windows上运行时，一个snappy DLL文件也保留在临时目录中。文件名如下: snappy-1.0.4.1-6e117df4-97b6-4d69-bf9d-71c4a627940c-snappyjava 它们是每次星火计划运行时创建的。因此，文件和目录的数量不断增加。怎样才能让他们被删除呢？使用Hadoop2.6，Spark版本为1.3.1。更新我追踪了星火的源代码。创建3

浏览 7提问于2015-05-07得票数 39

1回答

如何为木星笔记本配置星火spark_worker_opts

、、、、

我在Linux上使用Pyspark与Spark2.4的独立模式，使用木星笔记本(目前用于测试)通过Kafka处理大量传入的数据。我想将这些选项添加到这个笔记本中，以防止/tmp/目录在几个小时后填充数十in： spark.worker.cleanup.enabled=true spark.worker.cleanup.appDataTtl=120 但是，这些conf位置不起作用： spark的默认配置(spark/conf/spark env.sh)似乎根本不被Juypter笔记本所使用： SPARK_WORKER_OPTS="spark.worker.cleanup.enabled=

浏览 1提问于2021-03-30得票数 1

1回答

如何查看星火独立集群的聚合日志

、、

当Spark运行在Yarn上时，我可以简单地使用Spark -logs -applicationId appId来查看聚合日志，在完成一个火花作业之后。星火独立集群的等效方法是什么？

浏览 2提问于2017-09-01得票数 5

回答已采纳

1回答

当提供--py- HDInsight时，在--py-HDInsight集群中的Azure文件中的spark-submit作业失败

、、、

面临与相同的问题但在上面的帖子上看不到任何答案。问题:当：--master yarn --deploy-mode cluster和提供了--py-files ZIPfile.zip时，Spark-submit作业失败，它在--master yarn --deploy-mode client模式下工作正常。 Azure HDInsight 4.0有什么问题吗？

浏览 5提问于2020-08-20得票数 0

1回答

在后续运行之后，火花作业在本地运行时间更长--调整火花作业

、、、、

我有一个火花作业，它在第一次运行时在5分钟内运行，然后需要几分钟..more，而在随后的运行中需要20-30分钟。我正在读取一个拼花文件一次，然后创建数据格式并以.json格式编写。在代码中的任何地方，我都没有使用缓存()、持久化()或未持久化()。这是本地实例。有什么问题吗？配置参数 val spark = SparkSession .builder() .appName("example") .config("spark.sql.warehouse.dir", warehouseLocation) .config("spark

浏览 2提问于2017-07-28得票数 0

1回答

关于在spark中保存模型文件

我在下面的链接中测试线性支持向量机(SVM)的代码：我用spark-shell --master spark://192.168.0.181:7077测试了代码。我像这样修改了最后两行： model.save(sc, "file:///Apps/spark/data/mllib/testModelPath") val sameModel = SVMModel.load(sc, "file:///Apps/spark/data/mllib/testModelPath") model.save结束时没有错误，但当我尝试加载该模型时，它给出了以下消息: INF

浏览 0提问于2015-10-23得票数 2

1回答

如何将DataFrame持久化到Hive表？

、、、

我在Cloudera QuickStart VM上使用QuickStart。我按照另一个问题创建了一个sbt管理的Spark应用程序。 build.sbt libraryDependencies += "org.apache.spark" %% "spark-core" % "1.5.2" libraryDependencies += "org.apache.spark" % "spark-sql_2.10" % "1.5.2" libraryDependencies += "org.apa

浏览 1提问于2016-12-25得票数 0

回答已采纳

2回答

Spark Master填充临时目录

我有一个简单的Spark应用程序，它读取一些数据，计算一些指标，然后保存结果(输入和输出是Cassandra表)。这段代码以固定的时间间隔(即每分钟)运行。我有一个Cassandra/Spark (Spark 1.6.1)，几分钟后，我在Spark集群的主节点上的临时目录就被填满了，并且主节点拒绝再运行任何作业。我提交的工作与火花-提交。我错过了什么？如何确保主节点删除临时文件夹？

浏览 0提问于2016-05-04得票数 2

1回答

Pyspark Conda saveAsTextFile文件已存在

、、、

我正在使用自定义的conda环境运行spark-submit作业。我设法使用yarn发布了conda环境，它运行起来没有任何问题。然而，当我尝试saveAsTextFile时，它总是在最后一步失败。在运行作业之前，我确保路径是空的，但不知何故，它是在我启动作业后创建的，并且之后在那里有一个临时文件夹。这个方法很像，而且script.py本身并不复杂，所有的东西(读文件，计数)都是通过打印到标准输出来工作的，我可以从执行器日志中读取它，但不能从savingAsTextFile中读取。由于此错误，所有其他执行器甚至都没有启动。我假设驱动程序会创建这个文件夹，创建一个临时的/flag文件来表明它

浏览 0提问于2020-03-19得票数 0

1回答

从不是Hadoop集群中的机器上运行spark提交

、、

我正在尝试为我们的分析人员建立一个Spark客户端发行版，他们可以从桌面上使用。为了实现这一点，我在我现有的Hadoop客户端发行版中添加了一个“预置使用用户提供的Apache”版本的Spark。我在Windows (客户端部署在C:\HadoopClient中)和Linux (客户端部署在~中)上都尝试过这一点。我正在尝试启动最基本的spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster Spark/examples/jars/spark-examples_2.1

浏览 16提问于2022-11-30得票数 1

3回答

星火运行时jar (../Spark-2.0.1bin-hadoop2.6/jar)是如何在纱线集群中分发给物理工作者节点的？

、、

根据我的理解，火花不需要安装在纱线集群的所有节点上。只需要在触发火花提交脚本的节点(通常是网关节点)上安装火花。按火花编程指南要使Spark运行时jars可以从纱线侧访问，可以指定spark.yarn.archive或spark.yarn.jars。包含火花运行时jar的库是如何分发到纱线集群中的物理工作者节点(启动执行器的地方)的。谢谢。

浏览 7提问于2016-11-28得票数 0

2回答

在GCP数据流程上配置Spark Executor

、、

我无法配置YARN和Spark来利用我在GCP上的Dataproc Spark集群上的所有资源。我正在运行1个master (4个核心)和2个worker (16个核心)集群，我希望我的Spark应用程序使用worker实例上可用32个核心中的30个。但是当我查看YARN UI时，它显示只使用了5个内核。当我查看Spark Executors UI时，它显示正在使用20个内核。当我查看工作进程上的CPU活动时，几乎没有任何活动。我完全糊涂了。请帮帮忙。创建Dataproc集群的命令： gcloud dataproc clusters create default-cluster \

浏览 35提问于2020-04-07得票数 4

3回答

Apache未能创建临时目录

我是Apache的新手，尝试从我的应用程序(tomcat)创建SparkConf，我注意到下面的错误 ERROR [RMI TCP Connection(4)-127.0.0.1] DiskBlockManager.logError(91) | Failed to create local dir in /opt/software/apache-tomcat-7.0.70/temp. Ignoring this directory. java.io.IOException: Failed to create a temp directory (under /opt/software/apach

浏览 6提问于2017-05-08得票数 2

回答已采纳

2回答

Spark NoSuchFileException配置单元上的配置单元-exec-x.y.z.jar

、

当我尝试使用spark作为执行引擎时，我得到了以下错误： ERROR ClientEndpoint: Exception from cluster was: java.nio.file.NoSuchFileException: /home/hduser/hive/lib/hive-exec-2.3.2.jar 我在错误上方的控制台输出中看到的是以下行： client.SparkClientImpl: Running client driver with argv: /home/hduser/spark/bin/spark-submit --properties-file /tmp/spark-

浏览 3提问于2018-01-15得票数 1

1回答

SAP Hana Vora:无法创建vora表

、、

我正在尝试使用Ambari 2.2在HDP 2.3上执行SAP HANA Vora安装，在一个5节点集群上，该集群具有1个管理节点、1个主节点、2个工作节点和1个跳箱节点。在安装了所有的Vora服务之后，我正在尝试验证我的安装。根据SAP HANA Vora文档，我需要从spark-sql创建一个vora表(使用com.sap.spark.vora创建表)，但我得到了异常。下面的堆栈跟踪。 scala> import org.apache.spark.sql.SapSQLContext import org.apache.spark.sql.SapSQLContext scala>

浏览 1提问于2016-05-04得票数 0

4回答

在eclipse上本地运行spark代码，并将spark安装在远程服务器上

、、、

我已经为scala配置了eclipse，创建了一个maven项目，并在windows上写了一个简单的字数统计任务。现在我的spark+hadoop已经安装在linux服务器上了。如何将我的spark代码从eclipse启动到spark集群(在linux上)？任何建议。

浏览 4提问于2015-11-08得票数 2

2回答

Amazon星团:输出/结果不可见

、、

我在亚马逊电子病历上运行一个星火集群。我正在集群上运行PageRank示例程序。在本地机器上运行程序时，我能够正确地看到输出。但在电子病历上也不起作用。S3文件夹仅显示空文件。我使用的命令:用于启动集群： aws emr create-cluster --name SparkCluster --ami-version 3.2 --instance-type m3.xlarge --instance-count 2 \ --ec2-attributes KeyName=sparkproj --applications Name=Hive \ --bootstrap-actions P

浏览 1提问于2015-02-18得票数 3

回答已采纳

1回答

Google Dataproc集群属性

、

我想了解更多关于这些属性是针对整个集群\每个节点还是两者的组合的详细信息。对于示例spark:spark.executor.instances 2，这是整个集群的属性还是特定节点的属性？

浏览 1提问于2019-11-12得票数 1

2回答

为什么星火报告spark.SparkException: File ./omeJar.jar存在并且不匹配

有时，在运行Spark作业时，我会看到以下错误消息： 13/10/21 21:27:35 INFO cluster.ClusterTaskSetManager: spark.SparkException: File ./omeJar.jar存在并且不匹配. 这是什么意思？我如何诊断和解决这个问题？

浏览 1提问于2014-09-07得票数 6

回答已采纳

2回答

EMR Spark作业- HDFS和EBS存储的使用情况

Spark on EMR是否将亚马逊S3的输入数据分发到底层HDFS？也连接到节点的EBS卷的用途是什么？

浏览 4提问于2020-02-26得票数 0

2回答

如何使用Spark Streaming更新拼图文件？

、、

我正在使用spark streaming来创建实时数据管道。我正在从Kafka获取实时数据，并使用Spark处理这些数据。但是当我用来自S3的新数据更新S3上现有的拼图文件时，它的性能就不好了。因为我必须从S3中获取现有的分区拼图文件，并用来自Kafka的新记录替换旧记录，然后在S3上覆盖完整的分区拼图文件。因为这个表需要频繁更新，所以需要花费很多时间。你能给我推荐一种更好的方法来在spark streaming中执行更新操作吗？提前谢谢。

浏览 18提问于2019-11-03得票数 0

1回答

saveAsTextFile的最后阶段是非常慢的

、、、

我正在使用Mahout0.11.0 on Spark1.5.1，在cli的HDP 2.2集群上使用纱线客户端模式。我的输入大约是325 My，分成1000个部分文件。下面是我调用的确切命令： $MAHOUT_HOME/bin/mahout spark-itemsimilarity --input unit-similarity-dump/bpc1 --output mahout-cooccurrence-output4 --maxPrefs 200 --maxSimilaritiesPerItem 100 --master yarn-client --sparkExecutorMem 10g

浏览 3提问于2015-11-05得票数 1

回答已采纳

1回答

从本地计算机提交到remore群集的Spark作业看不到远程服务器上的数据

这篇文章可能看起来有点长，但我提供了所有具体的细节来帮助读者，我正在努力实现什么，以及我已经做了什么，但仍然遇到了问题。我正在尝试将spark作业从本地运行在windows7机器上的eclipse提交到远程集群，但在寻找集群节点上数据的输入路径时遇到了问题。我按照论坛中的建议配置了sparkContext，如下所示，我将spark.driver.host设置为Windows机的IP地址。 SparkConf sparkConf = new SparkConf().setAppName("Count Lines")

浏览 2提问于2016-02-26得票数 1

1回答

如何分配python解释器火花工作人员使用？

、、

如何分配python解释器火花工作人员使用？我尝试了几种方法，例如: 1)设置env Vars export PYSPARK_DRIVER_PYTHON=/python_path/bin/python export PYSPARK_PYTHON=/python_path/bin/python 不是工作。我确信PYSPARK_DRIVER_PYTHON PYSPARK_PYTHON env设置成功使用： env | grep PYSPARK_PYTHON 我想用火药 /python_path/bin/python 作为启动的python解释器但是，员工开始使用以下命令： python -m

浏览 0提问于2018-02-12得票数 1

回答已采纳

2回答

Spark- Cassandra -connector如何确定在Cassandra上查询的范围？

、、

我有一个三节点的Cassandra集群，每个节点上都运行着Spark executor。据我所知，为了扫描Cassandra数据库，SCC(Spark-Cassandra-Connector)在where子句中使用范围查询that标记。在不同节点上运行的SCC实例如何能够选择与其他节点上运行的其他SCC实例不同的范围。例如，node1上的SCC实例A选择一个范围RangeA，那么SCC实例B和C如何决定不使用相同的范围RangeA 它们之间是否相互通信？

浏览 7提问于2021-07-19得票数 2