hdfs写入大文件系统 - 腾讯云开发者社区

、、、

考虑一个场景，其中Spark (或任何其他Hadoop框架)从S3读取一个大文件(比如1TB)。多个火花执行器如何从S3并行读取非常大的文件。在HDFS中，这个非常大的文件将分布在多个节点上，每个节点都有一个数据块。在对象存储中，我假定整个文件将位于单个节点(忽略副本)。这将大大降低读取吞吐量/性能。类似地，HDFS中的大文件写入也应该比S3快得多，因为HDFS中的写入将分布在多个主机上，而所有数据都必须通过S3中的一个主机(为简洁而忽略复制)。因此，这是否意

浏览 2提问于2019-01-15得票数 12

回答已采纳

1回答

在HDFS中存储1000个1 1GB的文件和1个1000 1GB的文件以供Spark进一步使用的区别是什么？如果有的话，哪一个更好?为什么？

、

我简单地使用Spark将数据从Mongo传输到HDFS，按某个字段对其进行分区，以便按该字段将其存储在不同的文件夹中。我正在尝试理解我是否应该指定"maxRecordsPerFile“，或者以某种方式划分一个由我的作业写入到每个文件夹的大文件，或者我应该只在每个文件夹中写入一个文件。我知道HDFS块的概念，HDFS会把大文件分成块等等。我想知道读取1个大文件和1000个不是很大(但仍然比块大得多)的文件之间是否有区别。

浏览 17提问于2020-11-09得票数 1

3回答

Hadoop :为什么在RecordReader实现中使用FileSplit

在Hadoop中，考虑一个大文件已经加载到hdfs文件系统的场景，使用hdfs dfs put或hdfs dfs CopyFromLocal命令，大文件将被拆分成块(64MB)。

浏览 3提问于2014-12-31得票数 0

2回答

如何提高大量小文件的读写速度？

、、、、

我的工作是提高从磁盘读取大量小文件(1KB)写入数据库的速度。数据库对我来说是开源的，我可以将所有代码从客户端更改为服务器端。数据库架构是，它是一个简单的主从式分布式HDFS数据库，类似于HBase。磁盘中的小文件可以自动插入到我们的数据库中，并自动组合成较大的块，然后写入HDFS。(大文件也可以被数据库拆分成较小的块，然后写入HDFS)

浏览 2提问于2015-09-07得票数 0

1回答

如何对HDFS中的文件使用linux命令？

、

我在HDFS中有一个大文件，希望将它分成多个块。但是，该文件在HDFS中，我不希望(不能)将其复制到本地文件系统中。如何对HDFS中的文件直接使用拆分命令？

浏览 0提问于2017-02-03得票数 0

1回答

持久化(DISK_ONLY)与手动保存到HDFS和读取之间的区别

、

但除此之外(也不考虑手动清理HDFS中存储的文本文件)，使用persist将rdd缓存到磁盘与手动从磁盘写入和读取之间还有其他区别(性能或其他方面)吗？有理由选择一个而不是另一个吗？更多的上下文:我遇到了手动写入HDFS并在我们的生产应用程序中读取它的代码。我刚开始学习星火，我想知道是否可以用持久化(DISK_ONLY)代替它。请注意，HDFS中保存的rdd在每次新的作业运行之前都会被删除，并且这些存储的数据不会在两次运行之间用于其他任何事情。

浏览 1提问于2020-10-20得票数 3

回答已采纳

3回答

Hadoop put性能-大文件(20 Put)

、、

我使用hdfs -put将一个20‘m的大文件加载到hdfs中。目前，该进程的运行时间为4分钟。我正在尝试改善将数据加载到hdfs的写入时间。我尝试使用不同的块大小来提高写入速度，但得到了以下结果：256M blocksize = 4mins; 128M blocksize = 4mins;

浏览 3提问于2013-10-24得票数 12

1回答

是否允许通过合并或重新分区来合并HDFS中的小文件(但合并后会很大)？

、、、、

我正在使用HDFS -接收器-连接器来使用Kafka的数据进入HDFS。这个目录是按日期创建的；所以我想通过每天的批处理将许多小文件合并到一个大文件中是很棒的。(我预计HDFS将自动将一个大文件分割成块大小。)HDFS是否允许90~100 be？我不需要担心吗？有人能告诉我是

浏览 7提问于2022-03-22得票数 0

回答已采纳

1回答

如何使用Netty实现服务器来存储大文件上传到HDFS？

、、、

我要做的是实现一个web服务器，使用Netty存储大文件上传到HDFS作为HDFS文件。我的基本工作流程如下：服务器接收HTTP请求中其余的上游部分，并逐块写入HDFS句柄(将每个块

浏览 2提问于2013-01-30得票数 1

1回答

在AWS中重命名和移动星火输出文件需要非常长的时间

、、、

我有一个火花作业，我有一个巨大的文件输出300 gb到S3。我的要求是重命名所有的部分文件，然后我们必须移动到最后的文件夹。因此，我想出了一个计划，从S3读取回火花输出文件，然后重命名它，然后在S3文件夹中再写一次。这对我来说太令人沮丧了。我就是这么做的。 val file = fs.globStatus(new Pat

浏览 2提问于2018-04-11得票数 0

2回答

为什么在存在hdfs的情况下使用hbase

、、、

为什么即使hdfs可用于存储，hadoop仍在使用hbase？数据是否存储在hbase中？如果是，那么hdfs将扮演什么角色？

浏览 0提问于2015-04-27得票数 0

1回答

在本文的上下文中，“数据的本地缓存”意味着什么？

、

从下面的文本- ()段落中，它提到顺序可读的大文件不适合本地缓存。但我不明白这里的地方意味着什么..。我认为有两个假设:一个是来自HDFS的客户端缓存数据，另一个是datanode缓存其本地文件系统中的hdfs数据，或者是客户机可以快速访问的内存。有谁能解释得更多吗？非常感谢。数据将写入HDFS一次，然后多次读取；不支持在文件已关闭后对其进行更新。( Hadoop的扩展名将提供对将新数据附加到文件末尾的支持；计划将其包含在Hadoop 0.19中，但尚未提供。)由于文件大小大以及读取的顺

浏览 3提问于2012-04-11得票数 3

回答已采纳

1回答

是谁在hadoop分文件的？是工作追踪者吗？

、

我想知道当客户端将数据存储到hdfs中时，谁来执行将大文件分割成更小块的任务？客户端是否直接将数据写入DataNodes？如果是这样，数据何时被分割成64 MB或128 MB？

浏览 0提问于2014-06-27得票数 1

回答已采纳

2回答

如何将大文件从HDFS上传到S3

、、、

在将一个大文件(大于5GB)从HDFS上传到S3时，我遇到了一个问题。有没有一种方法可以直接将文件从HDFS上传到S3，而无需将其下载到本地文件系统并使用多部分？

浏览 5提问于2016-01-07得票数 1

回答已采纳

1回答

使用Flume (假脱机目录)将大文件加载到hdfs

我们复制了一个150mb的csv文件到flume的spool目录，当它被加载到hdfs时，文件被分割成更小的文件，比如80kb。有没有办法加载文件而不被分割成更小的文件使用flume？agent.sinks.flumeHDFS.type = hdfsagent.sinks.flumeHDFS.hdfs.fileTypeon maximum size o

浏览 0提问于2014-03-20得票数 4

回答已采纳

2回答

Linux和Hadoop文件系统的区别

、、

Linux文件系统和Hadoop文件系统有什么不同？我几乎不认识他们，只想知道更多的细节。

浏览 3提问于2014-11-04得票数 0

3回答

如何将HDFS小文件合并为一个大文件？

、、、

我有从Kafka流生成的小文件的数量，所以我喜欢合并小文件到一个单一的文件，但这种合并是基于日期，即原始文件夹可能有以前的文件数量，但我只喜欢合并给定的日期文件到一个单一的文件。

浏览 9提问于2018-07-26得票数 0

1回答

Hadoop多个-put命令减速

、

我正在尝试将大量数据(几千个文件加到19 to )复制到Hadoop集群中。我在文件的子集上运行bash循环，运行的循环越多，所有复制的东西就越慢 do cat $filename | ssh user@hadoop "hadoop fs -put - /path/to/new/data/$filename"; 当我在集群上移动数据时，也会出现同样的问题，所以我不认为是通过网络复制造成问题的。编辑：集群

浏览 0提问于2016-12-07得票数 0

回答已采纳

3回答

hadoop fs -text vs hadoop fs -cat vs hadoop fs -get

、、

我相信下面所有的命令都可以用来将hdfs文件复制到本地文件系统。有什么不同/情景利弊。( Hadoop新手在这里)。hadoop fs -text /hdfs_dir/* >> /local_dir/localfile.txt hadoop fs -cat /hdfs_dir/* >> /local_dir/localfile.txthadoop fs -get /hdfs_dir&

浏览 0提问于2014-09-19得票数 2

1回答

如何使用hadoop流和ruby映射器/缩减程序设置分布式map-reduce作业？

、、

不过，我对分布式系统的行为并不清楚。另外，我如何开始实际运行流作业，以便它在两个系统上以并行方式运行？

浏览 2提问于2012-04-30得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

S3并行读写性能？

在HDFS中存储1000个1 1GB的文件和1个1000 1GB的文件以供Spark进一步使用的区别是什么？如果有的话，哪一个更好?为什么？

Hadoop :为什么在RecordReader实现中使用FileSplit

如何提高大量小文件的读写速度？

如何对HDFS中的文件使用linux命令？

持久化(DISK_ONLY)与手动保存到HDFS和读取之间的区别

Hadoop put性能-大文件(20 Put)

是否允许通过合并或重新分区来合并HDFS中的小文件(但合并后会很大)？

如何使用Netty实现服务器来存储大文件上传到HDFS？

在AWS中重命名和移动星火输出文件需要非常长的时间

为什么在存在hdfs的情况下使用hbase

在本文的上下文中，“数据的本地缓存”意味着什么？

是谁在hadoop分文件的？是工作追踪者吗？

如何将大文件从HDFS上传到S3

使用Flume (假脱机目录)将大文件加载到hdfs

Linux和Hadoop文件系统的区别

如何将HDFS小文件合并为一个大文件？

Hadoop多个-put命令减速

hadoop fs -text vs hadoop fs -cat vs hadoop fs -get

如何使用hadoop流和ruby映射器/缩减程序设置分布式map-reduce作业？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐