Spark从本地读取文件并在hdfs中写入_Spark -从hdfs读取隐藏文件_如何从spark executor读取HDFS文件？ - 腾讯云开发者社区

java、hadoop、apache-spark、hive

我有下面的，可以在官方的apache/spark上找到。我花了很多时间了解如何在Hortonworks Hadoop Sandbox中运行这个示例，但没有成功。下一步是准备在我的Hadoop中运行的代码--问题从这里开始，我可能设置了一些错误。这就是我要做的：将SparkSession设置为主从本地，将spark.sql.warehouse.dir更改为hive.metastore.uris，并将节俭://localhost:9083("LOAD DATA

浏览 2提问于2017-12-18得票数 1

回答已采纳

1回答

Spark从本地读取文件并在hdfs中写入

apache-spark

我在本地系统中有一个文件。我想在本地使用Spark读取它，然后使用相同的spark程序在HDFS中写入它，这可能吗？

浏览 46提问于2020-04-29得票数 0

回答已采纳

1回答

Spark作业将写入本地文件系统还是从本地文件系统读取？

apache-spark、distributed-computing、bigdata

对于Spark作业，它的输入和输出都在HDFS中。然而，我想知道，在执行Spark作业的过程中，是否有任何东西需要写入本地文件系统或从本地文件系统读取？

浏览 3提问于2017-08-30得票数 0

1回答

Apache Spark在哪里对输出进行压缩？

azure、apache-spark、apache-spark-sql、azure-blob-storage

我们有一个在独立集群模式下运行的Spark作业，它从HDFS读取数据，使用我们的自定义压缩器组件进行压缩，并将.zip文件写入Azure blob存储。我们的Spark和HDFS托管在同一数据中心(本地)。例如，Spark作业正在从本地HDFS读取8 GB的文件，并在Azure blob存储上创建3 GB的.zip，在这种情况下，Spar

浏览 13提问于2021-07-23得票数 0

回答已采纳

1回答

星星团- hadoop上的读/写

hadoop、apache-spark、elasticsearch、hadoop-yarn

我想从hadoop读取数据，在火花上进行处理，并在hadoop和弹性搜索上提取结果。我几乎没有工作节点来做这件事。星星之火独立集群是否足够？还是我需要使hadoop集群使用纱线或mesos？如果独立集群模式足够，是否应该在所有节点上设置jar文件，而不是纱线、mesos模式？

浏览 1提问于2017-02-21得票数 2

回答已采纳

1回答

是分布式文件存储(HDFS/Cassandra/S3等)是否强制spark在群集模式下运行？若有，原因为何？

apache-spark、hadoop、hdfs

是分布式文件存储(HDFS/Cassandra/S3等)是否强制spark在群集模式下运行？若有，原因为何？ Spark是用于计算海量数据的分布式数据处理引擎。假设我在mysql中存储了大量数据，我想对这些数据进行处理。Spark从mysql读取数据，并在集群节点本身上执行内存(或磁盘)计算。我仍然不能理解为什么在集群模式下运行spark需要分布式文件存储？

浏览 3提问于2021-03-25得票数 0

1回答

如何将火花输出链接到Logstash输入

python、apache-spark、hdfs、logstash、spark-streaming

我有一个Spark流作业，输出一些日志，这些日志目前存储在HDFS中，我想用logstash处理它们。不幸的是，虽然hdfs中有一个用于日志存储的插件，但实际上用它从读取是不可能的。我已经搜索了一个链接这两个部分的解决方案，但是在python的中，存储某些内容的唯一方法是将其作为文本文件写入hdfs，所以我必须从hdfs中读取！我无法在本地保存它

浏览 2提问于2016-07-25得票数 1

1回答

微笑-模型持久性-如何将模型写入HDFS？

scala、hdfs、smile

我试图在我的Scala项目中使用，该项目使用了Spark和HDFS。为了我的模型的可重用性，我需要将它们写入HDFS。mkdirs(); // This is a no-op if it exists}但这会在本地创建路径" HDFS :/my/hdfs/ path“，并在其中

浏览 2提问于2020-11-11得票数 2

回答已采纳

1回答

执行scala脚本时不存在输入文件或路径

scala

我刚开始学习Spark/Scala，这是我第一次练习时遇到的一个令人困惑的问题：非常感谢。

浏览 3提问于2016-07-17得票数 0

1回答

如何使用闪烁读取文件并使用Scala写入一个简单的文件？

scala、apache-spark、spark-streaming、parquet

我试图使用scala SparkStreaming程序读取一个文件。该文件存储在本地计算机上的一个目录中，并试图将其写入本地计算机本身上的一个新文件。但是，每当我写我的流，并将它作为地板存储，我最终得到空白文件夹。这是我的密码： val spark = SparkSession

浏览 1提问于2016-12-13得票数 0

回答已采纳

1回答

你能从火花作业直接读写硬盘吗？

apache-spark、hdfs

是否需要将火花作业的输出写入hdfs并从中下载。或者可以直接写入本地文件系统。

浏览 3提问于2017-10-17得票数 1

回答已采纳

2回答

星星之火:无法从HDFS加载拼板文件，直到将它们“放入”hdfs中。

scala、apache-spark、hdfs、parquet、webhdfs

如果我使用scp将文件复制到安装了HDFS客户端的目标计算机上，然后"hdfs将该文件放入“HDFS中，那么spark可以正确地读取该文件。如果我使用curl对webhdf服务直接从客户端应用程序将该文件上传到HDFS，则在尝试读取parquet文件时从Spark获得以下错误： df = "

浏览 0提问于2018-12-04得票数 0

1回答

Pyspark在纱线集群模式下将文件写入本地

apache-spark、hadoop、pyspark、hadoop-yarn

我的目标目录是本地目录。我用来提交spark-submit命令的用户是超级用户，并且拥有从hdfs读取文件并将文件写入本地的所有权限。有人能帮帮忙吗？

浏览 12提问于2019-07-16得票数 2

0回答

如何从spark中的驱动程序读/写HDFS

scala、apache-spark、pyspark

我想知道是否可以从Spark应用程序中的驱动程序访问HDFS。也就是说，如何在驱动程序中从HDFS读取文件/向HDFS写入文件。一种可能的解决方案是将文件作为RDD (sc.textFile)读取，然后将其收集到驱动程序中。然而，这不是我要找的。

浏览 3提问于2016-07-01得票数 1

回答已采纳

2回答

只写_SUCCESS，不写入任何文件

python、scala、apache-spark、spark-dataframe、parquet

id, n from myTable") 这将创建dir myTable.parquet，除了一个空的_SUCCESS文件之外没有其他内容

浏览 2提问于2016-06-06得票数 8

3回答

HDFS和Spark:编写文件并从另一个程序重用它的最佳方式

apache-spark、hadoop、hdfs

我在HDFS中保存了一些来自Spark应用程序的结果，文件名为part-r-0000X (X= 0，1等)。而且，因为我想将整个内容连接到一个文件中，所以我使用以下命令：前面的命令在一个bash脚本中使用，该脚本将输出目录(保存part-r-...文件的位置)设为空，并在一个循环中执行上面的getmerge命令。问题是，我需要在另一个Spark程序中使用

浏览 12提问于2018-07-21得票数 1

回答已采纳

1回答

查询Spark上的Hive以获得最高性能的正确方法是什么？

apache-spark、hive、pyspark、hadoop-yarn、parquet

我在Hive中有一个相当大的表(约130M条记录，180列)，我正尝试使用Spark将其打包为拼图文件。我使用默认的EMR集群配置，6* r3.xlarge实例来提交我用Python编写的spark应用程序。然后我在YARN上以集群模式运行它，通常会给驱动程序分配少量内存(几gb)，剩下的内存给执行器。data.repartition(20).write.mode('overwrite').parquet("s3://path/to/myfile.parquet"

浏览 0提问于2017-03-21得票数 2

1回答

用火花读写hdfs中的图像

scala、apache-spark、apache-spark-sql、hdfs

嗨，我正在尝试从本地文件系统读取一个图像文件，并通过spark和scala将其存储在HDFS文件系统中。op.printSchema() //root |-- _1: string(nullable = true) |-- _2

浏览 1提问于2018-03-19得票数 0

1回答

将文件指向hadoop集群

scala、apache-spark、bigdata

我在服务器上存储了一个文件。我希望在运行spark时将文件指向Hadoop集群。我所拥有的是，我可以将星火上下文指向hadoop集群，但是由于它指向集群，所以不能在spark中访问数据。我将数据存储在本地，所以为了访问数据，我必须在本地指向它。但是，这会导致大量内存错误。我希望做的是在集群上指出星火，但同时访问本地存储的数据。请给我一些方法，我可以做这件事。

浏览 1提问于2015-11-25得票数 0

回答已采纳

1回答

默认情况下，apache星火saveAsObjectFile写入hdfs。

hdfs、apache-spark、hadoop-yarn

当我在本地运行spark (非hdfs)时，RDD saveAsObjectFile将文件写入本地文件系统(ex : path /data/tem.txt) 在纱线集群上运行spark时，是否有一种方法可以明确地提到<em

浏览 2提问于2014-11-26得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

运行示例时出错

Spark从本地读取文件并在hdfs中写入

Spark作业将写入本地文件系统还是从本地文件系统读取？

Apache Spark在哪里对输出进行压缩？

星星团- hadoop上的读/写

是分布式文件存储(HDFS/Cassandra/S3等)是否强制spark在群集模式下运行？若有，原因为何？

如何将火花输出链接到Logstash输入

微笑-模型持久性-如何将模型写入HDFS？

执行scala脚本时不存在输入文件或路径

如何使用闪烁读取文件并使用Scala写入一个简单的文件？

你能从火花作业直接读写硬盘吗？

星星之火:无法从HDFS加载拼板文件，直到将它们“放入”hdfs中。

Pyspark在纱线集群模式下将文件写入本地

如何从spark中的驱动程序读/写HDFS

只写_SUCCESS，不写入任何文件

HDFS和Spark:编写文件并从另一个程序重用它的最佳方式

查询Spark上的Hive以获得最高性能的正确方法是什么？

用火花读写hdfs中的图像

将文件指向hadoop集群

默认情况下，apache星火saveAsObjectFile写入hdfs。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐