hdfs小文件和大文件系统_ssd 小文件大文件系统_hdfs删除大文件系统 - 腾讯云开发者社区

、、

如果我有许多小文件(~HDFS块大小)和几个大文件，作业产生的映射任务数是否会有所不同

浏览 0提问于2013-02-09得票数 1

回答已采纳

3回答

Hadoop滚动小文件

、、、

还有人建议不要使用许多/小文件。有什么建议吗？

浏览 0提问于2010-11-16得票数 1

2回答

这将留下一个巨大的CSV文件，将其转换为HDFS是否有意义，以便能够进行相关分析？除了this...or之外，对每个csv文件分别进行分析，然后在最后将其合并，会更有意义吗？我在想，也许是一种分布式文件系统，并使用amazon上的一组机器来高效地执行分析。看看rmr ，它将数据转换成HDFS，但显然对于真正大的data...how来说这并不令人惊讶，人们会以一种允许高效分析的方式转换csv吗？

浏览 7提问于2015-02-14得票数 0

3回答

在hadoop中存储多个小文件的最佳位置是什么？

、、、、

我将有多个大小约为10 or的小文本文件，弄不清楚这些文件在HBase或HDFS中的存储位置。什么是优化的存储？因为要存储在HBase中，我需要先解析它，然后根据某个行键保存它。在HDFS中，我可以直接创建一个路径并将该文件保存在该位置。但是直到现在，不管我读到了什么，它都说你不应该有多个小文件，而应该创建更少的大文件。但是我不能合并这些文件，所以我不能用小文件创建大文件。

浏览 6提问于2016-06-23得票数 0

回答已采纳

1回答

使用文件中的数据作为映射减少作业Hadoop中的哈希映射

、、

我有一个文件有10,000行(“小文件”)有键，值不同的键在小文件中可以有相同的值。只有在把它算进减速机之后。你能帮我并指导我怎么做吗？小文件将在hdfs上运行，我不确定其他节点如何能够从中读取数据--甚至不建议这样做--因为带有小文件的节点必须非常努力地向每个映射任务发

浏览 5提问于2015-09-18得票数 1

回答已采纳

1回答

当我使用FileSystem.get(URI.create("hdfs://loacalhost:9000/filepath")，conf时发生了什么？

、、、

在一个需要我优化HDFS小文件支持的项目中，我感到困惑。其步骤如下： hdfs fs -put ~/local/smallfile /usr/smallfile。但是如果我的项目正常，小文件应该存储到HBase，那么当我在代码中使用

浏览 0提问于2015-05-31得票数 0

2回答

如何提高大量小文件的读写速度？

、、、、

我的工作是提高从磁盘读取大量小文件(1KB)写入数据库的速度。数据库对我来说是开源的，我可以将所有代码从客户端更改为服务器端。数据库架构是，它是一个简单的主从式分布式HDFS数据库，类似于HBase。磁盘中的小文件可以自动插入到我们的数据库中，并自动组合成较大的块，然后写入HDFS。(大文件也可以被数据库拆分成较小的块，然后写入HDFS)

浏览 2提问于2015-09-07得票数 0

1回答

如何在hadoop中一次处理多个文本文件进行分析

、、、、

我有很多小文件，比如说50000多份。我需要一次处理这些文件，使用map约简概念来生成一些基于输入文件的分析。请建议我这样做，同时也请告诉我如何使用hdfs将这个小文件合并成一个大文件。

浏览 5提问于2014-12-17得票数 0

回答已采纳

1回答

使用Delta，如何在压缩后删除原始文件

、、、

基本上，我有一个火花流工作(与增量)写一个小文件到hdfs每5分钟。我还有一个压缩作业，每天运行，将前一天的数据压缩到一些大文件中(文件的#取决于作业重新分区号)。大文件与原始小文件位于同一个目录中。是否有任何方法有效地删除原来的小文件，因为它们是无用的？spark.read()

浏览 5提问于2021-06-29得票数 2

1回答

Hadoop多个-put命令减速

、

我正在尝试将大量数据(几千个文件加到19 to )复制到Hadoop集群中。我在文件的子集上运行bash循环，运行的循环越多，所有复制的东西就越慢 do cat $filename | ssh user@hadoop "hadoop fs -put - /path/to/new/data/$filename"; 当我在集群上移动数据时，也会出现同样的问题，所以我不认为是通过网络复制造成问题的。编辑：集群

浏览 0提问于2016-12-07得票数 0

回答已采纳

1回答

为什么我应该避免在Hadoop中存储大量的小文件？

、

我读过很多存储在HDFS中的小文件可能是一个问题，因为很多小文件意味着很多对象Hadoop NameNode内存。但是，由于每个块都作为一个对象存储在指定的节点中，那么对于一个大文件来说，它有什么不同呢？既然它们是在块上操作，那么块是小文件还是大文件又有什么关系呢？

浏览 0提问于2017-10-21得票数 1

回答已采纳

1回答

HDFS (序列文件)中的单个大文件还是多个小文件？

、

目前，我正在使用Sequence File压缩现有的HDFS数据。尽可能将小文件

浏览 1提问于2017-03-11得票数 0

回答已采纳

2回答

将小文件合并为用于Hadoop分布式缓存的大文件？

、

我有很多小文件(大小约1MB)需要分发。众所周知，Hadoop和HDFS更喜欢大文件。但我不知道这是否也适用于分布式缓存，因为分布式文件存储在本地计算机上。如果它们需要合并，在HDFS上以编程方式合并文件的最佳方式是什么？还有一个问题:使用symlink的好处是什么？谢谢

浏览 1提问于2013-04-07得票数 2

回答已采纳

3回答

合并小型HDFS数据块的最简单方法是什么？

、、

我用Flume把日志收集到HDFS上。对于测试用例，我有很小的文件(~300kB)，因为日志收集过程是根据实际使用进行扩展的。有没有什么简单的方法可以将这些小文件组合成更接近HDFS块大小(64MB)的大文件？

浏览 0提问于2010-12-13得票数 6

回答已采纳

4回答

从Hadoop提供静态文件

、、、、

我的工作是为静态图像/视频文件设计一个分布式系统。数据的大小大约是几十兆字节。更清楚一点的是，这是一个系统： Hadoop文件系统。我以前使用过Hadoop，但我没有使用Hadoop作为HTTP请求的静态文件存储库的经验。

浏览 11提问于2013-06-02得票数 4

回答已采纳

5回答

HDFS -加载大量文件

、、、、

为了测试目的，我试图将大量的小文件加载到HDFS中。实际上，我们讨论的是大约100万(1'000'000)个大小为1KB到100 1KB的文件。我在一个文件夹中的Linux系统上用R脚本生成了这些文件。每个文件都有一个信息结构，其中包含一个带有产品信息的标头，以及包含数字信息的不同数量的列。问题是当我尝试用命令将这些本地文件上传到HDFS中时： hdfs dfs -copyFromLocal /home/user/Documents/smallD

浏览 2提问于2015-08-13得票数 2

3回答

如何将HDFS小文件合并为一个大文件？

、、、

我有从Kafka流生成的小文件的数量，所以我喜欢合并小文件到一个单一的文件，但这种合并是基于日期，即原始文件夹可能有以前的文件数量，但我只喜欢合并给定的日期文件到一个单一的文件。有什么建议吗？

浏览 9提问于2018-07-26得票数 0

1回答

HDFS小文件

、、

我有一个源，有许多小文件( mb)，一些中等文件(1MB到5MB)和一些大文件(大于50MB) 现在可以选择将这些文件放入HDFS (合并文件)或HBase (作为MOBs)。就向最终用户摄取和显示文件的性能而言，推荐使用哪种方法？

浏览 1提问于2015-08-29得票数 1

2回答

BlockSize与大数据

、

每个人都知道Hadoop对小文件的处理很差，因为它必须使用映射器的数量。但是大文件呢，它比块大小稍微大一点。例如，假设hdfs块大小为128 an，hadoop接收126 an至130 an之间的文件。126 to和128 to之间的文件适合存储在hadoop中，但是对于129 to 130 to的文件，hadoop需要2个映射器才能读取这些文件吗？如何在hadoop中处理这个问题，以克服hdfs块更大的事实？ (预先谢谢:)

浏览 3提问于2016-02-29得票数 0

回答已采纳

1回答

HDFS Balancer -适用于包含1KB文件的群集

我有一个包含3个节点的HDFS集群。该集群包含大量小文件(KB)，我已经达到了每个节点数百万个数据块。我又向集群中添加了4台新服务器，并启动了均衡器进程，但看起来效果不是很好。-目标是减少每台服务器的数据块数量为了平衡小文件，我应该更改以下参数的值以支持从1KB大小的文件移动吗？Ddfs.balancer.getBlocks.min-block-size=1048 **我确实知道HDFS应该管理大文件-处理压缩

浏览 25提问于2021-10-16得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

InputSplit大小或地图任务的数量是否受输入文件数量的影响

Hadoop滚动小文件

R将大型CSV文件转换为HDFS

在hadoop中存储多个小文件的最佳位置是什么？

使用文件中的数据作为映射减少作业Hadoop中的哈希映射

当我使用FileSystem.get(URI.create("hdfs://loacalhost:9000/filepath")，conf时发生了什么？

如何提高大量小文件的读写速度？

如何在hadoop中一次处理多个文本文件进行分析

使用Delta，如何在压缩后删除原始文件

Hadoop多个-put命令减速

为什么我应该避免在Hadoop中存储大量的小文件？

HDFS (序列文件)中的单个大文件还是多个小文件？

将小文件合并为用于Hadoop分布式缓存的大文件？

合并小型HDFS数据块的最简单方法是什么？

从Hadoop提供静态文件

HDFS -加载大量文件

如何将HDFS小文件合并为一个大文件？

HDFS小文件

BlockSize与大数据

HDFS Balancer -适用于包含1KB文件的群集

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐