使用spark群集模式将文件写入unix目录

文章/答案/技术大牛

发布

1回答

apache-spark

我有一个spark应用程序，它当前在本地模式下运行，并将输出写入本地UNIX目录中的一个文件。现在，我希望在yarn集群模式下运行相同的作业，并且仍然希望写入该UNIX文件夹。我可以使用相同的saveAsTextFile(路径)吗？

浏览 14提问于2017-08-23得票数 0

1回答

在群集模式SPARK中写入本地文件系统

apache-spark、permissions、hadoop-yarn、cluster-mode

对于spark作业，我们尝试添加一个在本地文件系统上创建自定义日志文件的日志记录框架。在客户端模式下，一切都很好，文件由启动spark-submit的用户在本地文件系统上创建。但是，在群集模式下，本地文件是使用没有写入本地目录权限的用户yarn创建的…… 有没有什么解决方案可以让提交作业的用户在集群模式下写入本地文件</

浏览 12提问于2020-07-02得票数 0

1回答

我们有两台安装了20核linux的unix机器，each.We需要设置一个独立的集群和spark调度器。目前我们暂时不能使用cloudera/Hortonwork。我的问题是关于Spark Scheduler。如果我创建一台unix机器同时作为Master和Slave，另一台机器作为slave节点，那么有多少内核可供我运行spark代码。是40还是更少？我可以在群集模式下在此群集上运行多个作业吗？

浏览 0提问于2016-07-27得票数 0

1回答

将两个浮点数写入常规txt的正确方法

python、apache-spark、io、distributed-computing、bigdata

我在集群模式下运行一个大任务。然而，当工作成功时，我只对两个浮动数字感兴趣，我想以某种方式阅读它。Current working dir : %s" % os.getcwd()建议驱动程序实际上是集群的一个节点，这就是为什么我看不到网关中的文件也许以某种方式在HDFS中写入文件？

浏览 4提问于2016-09-03得票数 2

回答已采纳

1回答

使用spark从一个配置单元读取所有表，然后写入另一个群集上的另一个配置单元

apache-spark、hadoop、hive

我们可以通过将hive-site.xml设置为spark.But的"conf“方向来读取或写入配置单元中的表。现在，我有两个可以连接到每个other.Let`s的群集，分别是群集上的配置单元1和另一个群集上的配置单元2 现在我需要从配置单元1读取数据并执行一些转换，然后写入配置单元2，问题是我只能将一个hive-site.xml文件放入spark conf，这意味着当我执行 someDataFrame.write.saveA

浏览 12提问于2018-12-20得票数 2

回答已采纳

1回答

是分布式文件存储(HDFS/Cassandra/S3等)是否强制spark在群集模式下运行？若有，原因为何？

apache-spark、hadoop、hdfs

是分布式文件存储(HDFS/Cassandra/S3等)是否强制spark在群集模式下运行？若有，原因为何？ Spark是用于计算海量数据的分布式数据处理引擎。Spark从mysql读取数据，并在集群节点本身上执行内存(或磁盘)计算。我仍然不能理解为什么在集群模式下运行spark需要分布式文件存储？

浏览 3提问于2021-03-25得票数 0

2回答

Apache Ignite到亚马逊S3的连接

ignite

我想知道如何将数据从亚马逊S3加载到Apache Ignite集群？是否需要单节点或多节点群集？

浏览 5提问于2017-05-02得票数 1

1回答

如何将配置文件添加到以纱线-群集模式运行的星火作业中？

scala、apache-spark

我想上传一个文件使用spark-submit \ --files /home/user/test.csv\我阅读了星火文档，它建议我使用SparkFiles.get("test.csv")，但这并不适用于纱线集群模式。如果<em

浏览 3提问于2018-06-19得票数 1

2回答

spark-submit中的--files的用途和用法是什么？

scala、apache-spark

我有两个文件，现在本地，以后可以在S3/HDFS上，等等用户文件是~75mb ~100万条记录。位置文件大小约为150kb ~7000条记录。如果是，是否应该只使用小文件(多大？)要通过--files标志发送，因为它将文件放到每个执行器，因为涉及到传输？我有这样的代码 override def run(spark</

浏览 2提问于2020-06-29得票数 1

1回答

独立集群中执行器的PySpark日志记录

apache-spark、pyspark、log4j、rdd

使用我们可以从火花上下文派生的log4j记录器，从驱动程序中进行日志记录很容易。但是，如何从RDD的foreach或foreachPartition中登录呢？有办法收集这些日志并打印出来吗？

浏览 1提问于2018-03-29得票数 0

2回答

Hadoop (Mapr) - AddFile如何工作

hadoop、apache-spark

假设我在hdfs上有10个目录，它包含了我想用spark处理的100多个文件。--这要求文件在集群中的所有节点上都可用，这对于本地模式来说并不是什么问题。在分布式模式下，您将希望使用Spark的addFile功能将文件复制到群集.中的所有机器上。我无法理解这一点，会在每个节点上激发文件的创建副本。我想要的是，它应该读取该目录中

浏览 2提问于2014-04-21得票数 2

2回答

Spark read csv文件提交自--files

apache-spark

我正在向yarn上的远程Spark集群提交一个spark作业，并在spark-submit --file中包含一个文件，我希望将提交的文件作为数据帧读取。但我对如何在不将文件放入HDFS中的情况下进行此操作感到困惑：--class com.Employee \--files /User/employee.csv\ spa

浏览 0提问于2018-11-28得票数 1

1回答

更改spark* _temporary目录路径，避免删除parquets*

scala、hadoop、spark2.4.4

当两个或多个Spark作业具有相同的输出目录时，相互删除文件将不可避免。我正在使用spark 2.4.4在append模式下写入一个数据帧，我想在spark的tmp目录中添加一个时间戳，以避免这些删除。示例：使用其他数据调用相同的spark作业，并在hdfs:

浏览 20提问于2020-03-19得票数 1

1回答

spark-提交从本地到群集的文件传输

apache-spark

我正在使用spark-submit集群模式从本地向spark集群提交作业。我需要在本地机器和spark集群之间来回传输输入文件、输出文件和作业日志文件。使用文件传输的任何推荐方法。有没有什么未来的计划，spark将支持文件从群集传输到本地，反之亦然。

浏览 2提问于2015-07-27得票数 0

2回答

Spark -更新记录(在拼接文件中)(如果已经存在

java、apache-spark、spark-dataframe、parquet

我正在编写一个Spark作业，用于从json文件中读取数据并将其写入parquet文件，以下是示例代码： dataFrame = dataFrame.withColumn("year", year(to_date(unix_timestamp(dataFrame.colYYYY-MM-dd'T'hh:mm:ss.

浏览 0提问于2016-11-25得票数 3

1回答

在亚马逊EC2中以群集模式读取Spark中的文件

hadoop、amazon-ec2、apache-spark

我正尝试在亚马逊Ec2中以群集模式执行spark程序 spark-submit --master spark://<master-ip>:7077 --deploy-mode cluster --class我无法在集群模式下读取这个txt文件，即使我可以在独立模式下读取。因此，我使用以下命令将文件放入hdfs中的/root/persistent-h

浏览 1提问于2015-09-22得票数 0

1回答

scala.collection.immutable.List$SerializationProxy的java.lang.ClassCastException:无法分配实例

apache-spark

我从Spring java应用程序处理csv文件来触发清理。获取序列化异常。由: scala.collection.immutable.List$SerializationProxy :无法将org.apache.spark.rdd.RDD.org$apache$spark$rdd实例分配给java.io.ObjectStreamClass$FieldReflector.setObjFieldValues(ObjectStreamC

浏览 0提问于2019-05-07得票数 2

1回答

改变窗口上的火花独立主端口

scala、apache-spark

我在bin目录中看到了加载火花-env.cmd。这以以下块结束：if exist "%user_conf_dir%\spark-env.cmd" ( call "%user_conf_dir%\spark-env.cmd

浏览 1提问于2017-08-29得票数 0

回答已采纳

3回答

在纱线客户端错误上运行火花壳

shell、hadoop、apache-spark、hadoop-yarn

我有Spark1.6.1，我已经设置了现在，如果我运行星火外壳：$./shell主纱-部署模式客户端，我将得到这种类型的错误(相关部分)。short-circuit local reads feature cannot be used because libhadoop cannot be loaded. 16/09/18 15:49:19 ERROR spark.SparkContext/s

浏览 7提问于2016-09-18得票数 0

回答已采纳

1回答

将pyspark stderr从控制台写入特定目录下的日志文件

logging、pyspark

我正在使用spark2-submit test.py在客户端模式(本地)提交一个pyspark程序我想将所有生成到日志文件的STDERR写入到我想要的目录中。有没有办法做到这一点。我知道下面的代码会将stderr写入到与程序相同的目录下的文本文件中 spark2-submit something.py > results.txt 2>&1 但是有没有办法把它写到我拥有的特定日志目录</

浏览 25提问于2021-09-20得票数 0

回答已采纳

点击加载更多