spark读取hdfs 大文件系统_spark 读取大文件系统_hdfs删除大文件系统 - 腾讯云开发者社区

、、

在我的spark应用程序中，我只想访问一个大文件，并将计算分布在EC2上的许多节点上。使用S3中的sc.textFile()函数加载文件对我来说非常方便。但是，我可以花一些精力将数据加载到HDFS，然后从那里读取数据。我的问题是，HDFS的性能会更好吗？我的代码涉及spark partitions(mapPartitions transforamtion)，所以我的初始文件系统是什么真的很重要吗？

浏览 2提问于2015-11-08得票数 1

1回答

S3并行读写性能？

、、、

考虑一个场景，其中Spark (或任何其他Hadoop框架)从S3读取一个大文件(比如1TB)。多个火花执行器如何从S3并行读取非常大的文件。在HDFS中，这个非常大的文件将分布在多个节点上，每个节点都有一个数据块。在对象存储中，我假定整个文件将位于单个节点(忽略副本)。这将大大降低读取吞吐量/性能。类似地，HDFS中的大文件写入也应该比S3快得多，因为HDFS中的写入将分布在多个主机上，而所有数据都必须通过S3中的一个主机

浏览 2提问于2019-01-15得票数 12

回答已采纳

3回答

如何将HDFS小文件合并为一个大文件？

、、、

我有从Kafka流生成的小文件的数量，所以我喜欢合并小文件到一个单一的文件，但这种合并是基于日期，即原始文件夹可能有以前的文件数量，但我只喜欢合并给定的日期文件到一个单一的文件。

浏览 9提问于2018-07-26得票数 0

1回答

在HDFS中存储1000个1 1GB的文件和1个1000 1GB的文件以供Spark进一步使用的区别是什么？如果有的话，哪一个更好?为什么？

、

我简单地使用Spark将数据从Mongo传输到HDFS，按某个字段对其进行分区，以便按该字段将其存储在不同的文件夹中。我正在尝试理解我是否应该指定"maxRecordsPerFile“，或者以某种方式划分一个由我的作业写入到每个文件夹的大文件，或者我应该只在每个文件夹中写入一个文件。我知道HDFS块的概念，HDFS会把大文件分成块等等。我想知道读取1个大文件和1000个不是很大(但仍然比块大得多)的文件之间是否有区别。代码示例： import

浏览 17提问于2020-11-09得票数 1

1回答

将文件指向hadoop集群

、、

我希望在运行spark时将文件指向Hadoop集群。我所拥有的是，我可以将星火上下文指向hadoop集群，但是由于它指向集群，所以不能在spark中访问数据。

浏览 1提问于2015-11-25得票数 0

回答已采纳

1回答

是否允许通过合并或重新分区来合并HDFS中的小文件(但合并后会很大)？

、、、、

我正在使用HDFS -接收器-连接器来使用Kafka的数据进入HDFS。这个目录是按日期创建的；所以我想通过每天的批处理将许多小文件合并到一个大文件中是很棒的。(我预计HDFS将自动将一个大文件分割成块大小。)我知道有很多答案说我们可以使用spark的coalesce(1)或repartiti

浏览 7提问于2022-03-22得票数 0

回答已采纳

3回答

Hadoop :为什么在RecordReader实现中使用FileSplit

在Hadoop中，考虑一个大文件已经加载到hdfs文件系统的场景，使用hdfs dfs put或hdfs dfs CopyFromLocal命令，大文件将被拆分成块(64MB)。在这种情况下，当需要创建customRecordReader来读取bigfile时，请解释使用FileSplit的原因，因为bigfile在文件加载过程中已经被拆分，并且以拆分的块的形式存在。

浏览 3提问于2014-12-31得票数 0

1回答

工人没有足够的记忆

check your cluster UI to ensure that workers are registered and have sufficient memoryspark/bin/spark-submit --master $SPARK_MASTER_URL --executor-memory 8g --driver-memory 8g --name "Test-Task我的设置如下： SparkConf conf = new SparkConf().set(&quo

浏览 1提问于2015-02-23得票数 0

回答已采纳

1回答

在hadoop文件系统上使用pyspark读写2D图像

、、、

我希望能够在hdfs文件系统上读写图像，并利用hdfs本地性。作为xml文件存储的基本附加信息。我想在hdfs文件系统上创建一个归档文件，并使用spark来分析归档文件。现在，为了能够充分利用spark+hdfs结构，我很难找到在hdfs文件系统上存储数据的最佳方法。我不能是第一个需要通过spark读取hdfs<

浏览 0提问于2015-02-25得票数 7

3回答

Spark local vs hdfs permormance

、、

我在同一台机器上有一个Spark集群和一个Hdfs。我已经在每台机器的本地文件系统和hdfs分布式文件系统上复制了一个大约3G字节的文本文件。为什么？我所期望的结果正好相反。/spark/python/') sys.path.inser

浏览 0提问于2016-01-13得票数 5

3回答

HDFS和Spark:编写文件并从另一个程序重用它的最佳方式

、、

我在HDFS中保存了一些来自Spark应用程序的结果，文件名为part-r-0000X (X= 0，1等)。而且，因为我想将整个内容连接到一个文件中，所以我使用以下命令：前面的命令在一个bash脚本中使用，该脚本将输出目录(保存问题是，我需要在另一个Spark程序中使用结果文件，该程序需要将合并后的文件作为HDFS的输入。因此，我将其保存为本地，然后将其上传到HDFS。我想到了另一种选择，那就是用这种方式从

浏览 12提问于2018-07-21得票数 1

回答已采纳

1回答

如何从Scala代码中读取HDFS文件

、

我是Scala和HDFS的新手：import scala.io.source deffor (line <- Source.fromLine(args(0)).getLine()) }在争论中，我已经通过了hdfs

浏览 1提问于2017-07-23得票数 3

1回答

星星团- hadoop上的读/写

、、、

我想从hadoop读取数据，在火花上进行处理，并在hadoop和弹性搜索上提取结果。我几乎没有工作节点来做这件事。星星之火独立集群是否足够？还是我需要使hadoop集群使用纱线或mesos？

浏览 1提问于2017-02-21得票数 2

回答已采纳

1回答

spark.eventLog.dir和spark.history.fs.logDirectory有什么区别？

在Spark中，事件日志目录和历史服务器日志目录有什么区别？spark.eventLog.dir hdfs:///var/log/spark/apps spark.history.fs.logDirectory hdfs:///var/log/spark/apps

浏览 3提问于2015-08-14得票数 18

1回答

如何使用spark和ElasticSearch从/写入不同的elasticsearch集群？

、、、、

原始标题:除了HDFS之外，还有哪些DFS可以激发支持(并且是重新组合的)？我很高兴地使用了spark和elasticsearch (与elasticsearch-hadoop驱动程序)和几个巨大的集群。目前，无法将ES数据从集群中读取到RDD中，并使用spark + elasticsearch-hadoop将RDD写入另一个RDD中，因为这将涉及从RDD中交换SparkContext。然而，这里出现了一个问题:然后我需要一个DFS(分布式文件系统)来在我整个星火集群中共享大文件。最流行

浏览 9提问于2015-03-12得票数 6

回答已采纳

2回答

CSV解析嵌套引号

、、

我试图用apache读取器解析一个相当复杂的CSV，它在内部依赖apache ()。我尝试了quoteMode和escape的不同组合，但是无法让它工作，例如防止异常。

浏览 4提问于2016-03-16得票数 2

回答已采纳

2回答

在hadoop中保存和访问表状数据结构

、、、、

我想用MapReduce编程在HDFS中保存和访问一个类似于数据结构的表。此DS的一部分如下图所示。此DS有数万列和数百行，所有节点都应该可以访问它。谢谢。

浏览 2提问于2016-10-04得票数 0

1回答

Spark从本地读取文件并在hdfs中写入

我在本地系统中有一个文件。我想在本地使用Spark读取它，然后使用相同的spark程序在HDFS中写入它，这可能吗？

浏览 46提问于2020-04-29得票数 0

回答已采纳

1回答

Spark作业将写入本地文件系统还是从本地文件系统读取？

、、

对于Spark作业，它的输入和输出都在HDFS中。然而，我想知道，在执行Spark作业的过程中，是否有任何东西需要写入本地文件系统或从本地文件系统读取？

浏览 3提问于2017-08-30得票数 0

2回答

星星之火:无法从HDFS加载拼板文件，直到将它们“放入”hdfs中。

、、、、

如果我使用scp将文件复制到安装了HDFS客户端的目标计算机上，然后"hdfs将该文件放入“HDFS中，那么spark可以正确地读取该文件。如果我使用curl对webhdf服务直接从客户端应用程序将该文件上传到HDFS，则在尝试读取parquet文件时从Spark获得以下错误： df = "/usr/hdp/current/spark2-如果我将两个文件( scp上传的一个

浏览 0提问于2018-12-04得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用HDFS或S3运行Spark应用程序

S3并行读写性能？

如何将HDFS小文件合并为一个大文件？

在HDFS中存储1000个1 1GB的文件和1个1000 1GB的文件以供Spark进一步使用的区别是什么？如果有的话，哪一个更好?为什么？

将文件指向hadoop集群

是否允许通过合并或重新分区来合并HDFS中的小文件(但合并后会很大)？

Hadoop :为什么在RecordReader实现中使用FileSplit

工人没有足够的记忆

在hadoop文件系统上使用pyspark读写2D图像

Spark local vs hdfs permormance

HDFS和Spark:编写文件并从另一个程序重用它的最佳方式

如何从Scala代码中读取HDFS文件

星星团- hadoop上的读/写

spark.eventLog.dir和spark.history.fs.logDirectory有什么区别？

如何使用spark和ElasticSearch从/写入不同的elasticsearch集群？

CSV解析嵌套引号

在hadoop中保存和访问表状数据结构

Spark从本地读取文件并在hdfs中写入

Spark作业将写入本地文件系统还是从本地文件系统读取？

星星之火:无法从HDFS加载拼板文件，直到将它们“放入”hdfs中。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐