从本地spark-submit检查远程HDFS上是否存在文件_Ansible -检查本地是否存在多个文件并复制到远程_如何使用talend检查从ftp站点检索的文件是否存在于java的本地文件夹中？ - 腾讯云开发者社区

java、apache-spark、hadoop、hdfs

我正在开发一个专门在HDFS文件系统(位于HDFS_IP)上使用Spark的Java程序。我的目标之一是检查HDFS上是否存在路径为hdfs://HDFS_IP:HDFS_PORT/path/to/file.json的文件。在本地调试我的程序时，我发现我不能使用以下代码访问这个远程</em

浏览 37提问于2020-04-14得票数 2

1回答

有没有办法在运行master的不同服务器上提交spark作业

apache-spark、pyspark、airflow

我们需要安排spark作业，因为我们熟悉apache-airflow，所以我们想继续使用它来创建不同的工作流。我在网上搜索，但没有找到一步一步的指南，以安排spark作业的airflow和选项，以运行它们在不同的服务器运行主机。

浏览 4提问于2018-11-17得票数 8

回答已采纳

3回答

PySpark -纱线上不存在输入路径。在本地运行良好

python、apache-spark、pyspark、hadoop-yarn

当我在本地模式下运行它时，一切都很好。当我尝试在集群(没有hadoop的spark 2.1.2 )中运行它时，我收到了同样的错误。我应该怎么做才能让脚本在yarn中运行？

浏览 1提问于2017-11-30得票数 2

1回答

将目录从远程HDFS本地文件系统复制到本地计算机

hadoop、hdfs、scp

我在本地hdfs环境中有一个目录，我想将它复制到我的本地计算机。我使用ssh (带有密码)访问hdfs。我尝试过许多建议的复制命令，但都没有工作。

浏览 2提问于2018-05-09得票数 1

回答已采纳

2回答

提交星火集群时的FileNotFoundException

scala、cluster-computing、apache-spark、filenotfoundexception

我已经使用Apache Spark创建了一个小应用程序，当我在本地运行该应用程序时，一切运行正常。但是，当我将其提交到一个6节点集群时，我得到了一个FileNotFoundException，因为他找不到输入文件。 .saveAsTextFile("/data/detected")我使用以下命令提交申请： /opt/spark-1.0.2-bin-hadoop2/bin/spark-submit

浏览 2提问于2014-09-22得票数 5

1回答

如何在霍顿工作虚拟机上的星火上运行.jar？

java、hadoop、virtual-machine、hortonworks-data-platform

我正在斯帕克上运行一个.jar文件。但是由于我需要Hive，所以我想我应该搬到Hortonworks进行本地测试。现在，我已经通过Hortonworks的Ambari的HDFS将我的.jar和输入文件上传到HDFS (到/tmp/my_code目录)。下一步呢？我也找到了命令行，但是如何从VM的命令行访问HDFS上的.jar？它说.jar不存在。我如何指出VM在HDFS上

浏览 0提问于2016-07-19得票数 1

回答已采纳

2回答

如何将代码和数据集分发到工作节点上？

scala、apache-spark、apache-spark-sql、apache-spark-mllib

我的环境是VirtualBox上的Ubuntu14.4。我有一个主节点和两个从节点。我使用了已发布的Apache、Apache、Scala、sbt。代码是用Scala编写的。如何将代码和数据集分发到工作节点上？

浏览 0提问于2019-06-29得票数 1

回答已采纳

1回答

Apache火花ALS算法

python、apache-spark、pyspark、apache-spark-mllib

我想使用Python在Apache上运行一个基于ALS算法的电影推荐应用，我使用的是Spark2.2.0Hadoop2.7，当我想使用这个命令运行应用程序时，我有一个主程序和两个工作人员。Spark-submit —master Spark://192.168.190.132:7077 —total-executor-cores 8 —executor-memory 2g engine.py我收到错误，它说ratings.csv文件不存在(我检查了地址，一切都是正确的)

浏览 1提问于2019-08-18得票数 0

1回答

Python+PySpark文件本地连接到远程HDFS/Spark/纱线集群

apache-spark、pyspark、hadoop-yarn

我一直在玩HDFS和Spark。我已经在我的网络上设置了一个五个节点集群，运行HDFS、Spark，并由Yarn管理。工作人员正在以客户端模式运行。从主节点，我可以很好地启动PySpark外壳。对于是否以及如何在这个集群上运行python/Pyspark文件，我有几个问题。如果我在其他地方有一个带有PySpark调用的python文件，比如在我的本地dev笔记本电脑上或者在某个地方的码头容器上</e

浏览 45提问于2022-10-11得票数 0

回答已采纳

3回答

如何使用scala将不同的文件名传递给spark

scala、apache-spark、hadoop

spark.read.format("csv").load("books.csv")//Here i want to accept parameter spark.stop我想使用spark-submit文件在我的linux box上。--master yarn \--files myprop.properties,${csv_file} \然而，程序只是尝试从

浏览 2提问于2021-09-29得票数 0

3回答

气流和火花/Hadoop-独特的集群或一个用于气流和其他用于火花/Hadoop

apache-spark、hadoop、airflow

我已经有了一个Spark/Hadoop集群，我正在考虑为气流创建另一个集群，该集群将远程将作业提交给Spark/Hadoop集群。对此有什么建议吗？从另一个集群远程部署spark看起来有点复杂，这会造成一些文件配置复制。

浏览 0提问于2018-08-25得票数 2

回答已采纳

1回答

将本地机器/容器设置为边缘节点，以便在远程集群上提交spark应用程序

apache-spark、containers、hadoop-yarn

到目前为止，我遵循的策略是，在提交申请时，我是如何收到错误的：使用压缩文件spark-2.2.0-bin-hadoop2.6.tgzUncompressed在我的容器上安装了使用压缩文件在containerCopiedcore-site.xml、hdfs-site.xml、丝-site.xml上安装了 tar文件，并将其复制到容器本地Setup文件夹中的conf文件夹中。在容器上安装SPARK_HOME并指向指向$

浏览 6提问于2021-02-12得票数 0

2回答

如何创建到远程Spark服务器的连接，并从运行在本地机器上的ipython中读取数据？

apache-spark、ipython、hdfs、ipython-notebook

我正在本地计算机上运行ipython notebook，并希望创建到远程Spark服务器i.p的连接。然后从remote server上存在的hdfs文件夹中读取数据。如何从本地ipython notebook创建到Spark服务器的远程连接

浏览 3提问于2015-11-24得票数 6

2回答

rxHadoopCopyFromLocal来自Windows

r、hadoop、azure-hdinsight、microsoft-r

从Windows复制到远程HDFS的正确语法是什么？我试图使用RStudio将文件从本地计算机复制到远程hadoop集群这个扔了rxHadoopCopyFromLocal("C:\\path\\to\\f

浏览 6提问于2017-05-23得票数 0

回答已采纳

1回答

是否可以写入远程HDFS？

hadoop、hdfs

作为标题，是否可以写入远程HDFS？例如，我已经在AWS EC2上安装了HDFS集群，并且我想将文件从我的本地计算机写入HDFS集群。

浏览 6提问于2015-09-29得票数 4

回答已采纳

5回答

从spark作业访问HDFS* HA (UnknownHostException错误)*

scala、apache-spark、hdfs、mesos、mesosphere

我有Apache Mesos 0.22.1集群(3主5从)，在HA配置和Spark 1.5.1框架中运行Cloudera HDFS (2.5.0-cdh5.3.1)。当我尝试spark-submit编译的HdfsTest.scala示例应用程序(来自Spark 1.5.1源代码)时，它失败了，在执行器日志中出现了java.lang.IllegalArgumentException在启用跟踪日志后，我发现Spark驱动程序实际上可以正确读取hdfs://hdfs地址，但

浏览 9提问于2015-10-16得票数 9

3回答

Apache Livy cURL不工作火花提交命令。

scala、apache-spark、curl、hdfs、livy

我最近开始使用Scala、HDFS、sbt和Livy。目前我试图创建livy batch。Warning: Skip remote jar hdfs://localhost:9001/jar/project.jar. java.lang.ClassNotFoundException: SimpleApp我的星火提交命令在本地.jar文件中运行得非常好。spark-submit --class "SimpleApp" --master local

浏览 0提问于2018-06-21得票数 1

1回答

spark submit应用程序中的Scala ScriptEngine问题

apache-spark、classloader、spark-submit、scriptengine、scala-script

整个应用程序以spark-submit应用程序的形式运行，我使用ScriptEngine引擎来编译用Scala语言编写的DSL。每个测试在SBT和IntelliJ中都能正常工作。但是在执行spark-submit时，我的fat-jar中可用的类型不能在脚本中导入。我初始化脚本引擎如下所示。loader: ClassLoader = Thread.currentThread().getContextClassLoader这似乎是spark-submit但是我不能弄清楚为什么

浏览 45提问于2018-08-07得票数 2

1回答

Luigi可以运行远程Hadoop作业吗？

hadoop、hdfs、etl、directed-acyclic-graphs、luigi

如果Luigi图中的某个任务需要在远程Hadoop集群上运行，这是否可行？运行Luigi的机器与Hadoop集群不同。luigi是否仍能检查远程集群中的HDFS文件是否存在？

浏览 13提问于2019-03-12得票数 0

回答已采纳

1回答

无法使用spark-submit使用本地文件

apache-spark

我的输入文件和输出目录在本地，而不是HDFS上。当我执行代码时，我得到输入目录未找到异常。--files home/hmusr/ReconTest/inputdir/sample /home/hmusr/ReconTest/inputdir/wordout 我使用选项--files来获取本地输入文件，并将输出指向spark-submit中的输出目录。当我使用spark-su

浏览 6提问于2018-07-21得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云