HDFS Balancer -适用于包含1KB文件的群集_包含选定列的HDFS群集内拷贝_将包含空格的文件复制到hdfs - 腾讯云开发者社区

我有一个包含3个节点的HDFS集群。该集群包含大量小文件(KB)，我已经达到了每个节点数百万个数据块。我又向集群中添加了4台新服务器，并启动了均衡器进程，但看起来效果不是很好。-目标是减少每台服务器的数据块数量为了平衡小文件，我应该更改以下参数的值以支持从1KB大小的文件移动吗？Ddfs.balancer.getBlocks.min-block-size=1048 **我确实知

浏览 25提问于2021-10-16得票数 0

回答已采纳

1回答

将HDFS文件映射到外部驱动器时出错

、

我想在hadoop-2.7.3中创建一个文件夹，它物理上驻留在外部(usb-拇指)驱动器上，我的想法是，我-copyFromLocal的任何文件都将驻留在拇指驱动器上。，我没有得到这样的文件/文件夹错误。只有当我将文件夹设置为hadoop的本地文件夹时，它才能起作用：hdfs dfs -copyFromLocal

浏览 0提问于2017-01-13得票数 0

1回答

运行'hdfs平衡器‘时，我确实看到它显示了安装的机架拓扑、过度使用和未充分利用的节点，它说“需要移动5TB才能使集群平衡”，并且“决定将10 GB字节从10.150.11.24:50010移动到10.150.11.164Holder _NONMAPREDUCE_-201468433_1没有任何打开的文件。Holder _NONMAPREDUCE_-201468433_1没有任何打开的文件。:从10.150.11.126:56490 Call#71 Retry

浏览 7提问于2014-08-19得票数 3

1回答

在正在运行的spark/hadoop群集中添加hdfs datanode

、、

我有一个包含1个master和2个节点的spark集群(worker + datanode)。 1st datanode -> DFS Used%:75.61% 3rd datanode -> DFS Used%: 8.83% 您是

浏览 0提问于2017-02-10得票数 2

1回答

Hdfs查找小于特定大小的文件

、、

有没有办法在Hdfs中列出小于特定大小的文件。使用命令行，甚至是spark脚本？Scala / spark会更好，因为与命令行相比，它可能运行得更快。

浏览 20提问于2019-10-29得票数 1

回答已采纳

1回答

命令使用:何时使用hadoop fs和hdfs

、、

如标题所示，我很困惑何时使用以“hdfs”和“hadoop”开头的命令 FYI，我是使用Cloudera4.6快速启动vm的hadoop新手。

浏览 6提问于2014-06-24得票数 3

回答已采纳

2回答

Hadoop Distcp将目录内的内容复制到同名目录

、

这个目录包含目录“一”、“二”、“三”、...、“九十”。在集群B中，我有目录/a/b/c。这个目录包含目录"one“。我希望将目录"one“到”90ty“从群集A复制到群集B，这样，最后，群集B将拥有目录/a/b/c/one ... /a/b/c/90ty。群集B /a/b/c/one中存在不在群集A

浏览 7提问于2013-10-18得票数 2

5回答

HDFS -加载大量文件

、、、、

为了测试目的，我试图将大量的小文件加载到HDFS中。实际上，我们讨论的是大约100万(1'000'000)个大小为1KB到100 1KB的文件。我在一个文件夹中的Linux系统上用R脚本生成了这些文件。每个文件都有一个信息结构，其中包含一个带有产品信息的标头，以及包含数字信息的不同数量<em

浏览 2提问于2015-08-13得票数 2

2回答

并发追加到spark中的hdfs文件

、、

我得到的ex是append_file失败的文件是忙hdfs_non_map_reducefs.append.write(rdd.collect.mkstring.getBytes)hdfs中的复制因子为1，我使用一个节点群集spa

浏览 2提问于2017-06-24得票数 0

2回答

hdfs数据被破坏了。无法删除损坏的文件夹，因为它没有显示此类文件或目录。

、

我的hdfs数据被破坏了。/siva:损坏的块blk_6483992593913191763 /siva:丢失2块总大小82009995 B.Status:损坏总大小: 82009995 B总文件:8总文件:1总块(验证)：2 (avg )。:0 (0.0 %)默认复制因子:2平均块复制: 0.0损坏块:2个丢失副本:0数据-节点数:1架：1场FSCK比赛结束于2月23日1

浏览 7提问于2016-02-23得票数 1

1回答

远程HDFS文件从安全群集移动到不工作的非安全群集。

、、

尝试将文件从一个hdfs文件夹移动到非安全群集中的另一个hdfs文件夹中。源和目的地都位于非安全群集上。下面的代码在安全群集中执行，以将文件从源hdfs文件夹移动到非安全群集中的目标hdfs文件夹。getOrCreate() val conf =

浏览 2提问于2019-12-24得票数 0

回答已采纳

2回答

HDFS复制系数更改

如果群集中的复制因子发生更改，例如从5更改为3，并且重新启动群集，则旧文件块会发生什么情况？它们是否会被视为过度复制并被删除，或者复制因素仅适用于新文件？这意味着旧文件块被复制5次，而新文件块(在重启之后)被复制3次。如果集群没有重启，会发生什么情况？

浏览 2提问于2013-06-13得票数 7

1回答

如何在Hive中使用DistCp直接将数据转换为表格？

、、

我使用DistCp将数据从群集1复制到群集2。我成功地将表数据从群集1复制到群集2。但是，使用hdfs，数据已发送到文件浏览器。有没有什么直接的方法可以通过使用DistCp命令将这个hdfs数据转换成一个Hive表(包括数据类型、分隔符...etc)？我当然可以查询它来从hdfs收集数据，但是我必须逐个转换它们。试图寻找有效的方法来实现这一点。谢谢!示例： hadoop distcp hdfs:&#

浏览 0提问于2015-10-22得票数 1

1回答

Hadoop用较小的硬盘添加datanode

、

我们计划在Hadoop集群中添加两个新的datanodes。在谷歌搜索了一天之后，我仍然无法回答这个问题:如果新的数据阳极上的硬盘较小，会发生什么情况？这会导致HDFS的总规模缩小吗？下面是一个例子Datanode2 with 1TB多添加一个具有500 one磁盘的节点HDFS的总存储量是多少?如果是2.5TB (我希望如此)，

浏览 0提问于2013-10-09得票数 0

回答已采纳

1回答

spark-提交从本地到群集的文件传输

我需要在本地机器和spark集群之间来回传输输入文件、输出文件和作业日志文件。使用文件传输的任何推荐方法。有没有什么未来的计划，spark将支持文件从群集传输到本地，反之亦然。

浏览 2提问于2015-07-27得票数 0

1回答

如何使用maprfs Java API执行递归ls？

、、、、

我写了一个应用程序，列出HDFS中的所有文件，然后对它们进行一些处理。这是我的代码中列出HDFS中所有文件的部分：FileSystem hdfs;RemoteIterator<LocatedFileStatus> i

浏览 0提问于2016-03-17得票数 0

1回答

nifi putHDFS写入本地文件系统

、、

挑战在NIFI集群上，我使用一个连接到PutHDFS的简单GetFile。当通过这种方式推送文件时，PutHDFS会成功终止。但是，我并没有看到文件被放到我的HFDS上(在HDFS集群上)，而是看到一个文件被放到了我运行NIFI的本地文件系统上。这让我感到困惑，因此我提出了这样的问题

浏览 65提问于2018-05-27得票数 1

2回答

在hadoop的映射阶段写入本地文件

、

Hadoop将中间结果写入本地磁盘，将reducer的结果写入HDFS。HDFS是什么意思。它在物理上翻译成什么？

浏览 1提问于2012-09-14得票数 0

回答已采纳

3回答

将整个HDFS从一个群集转移到另一个群集

、

在一个有5个节点的测试集群上，我的HDFS中存储了大量的hive表。数据应在70 Gb *3左右(复制)。不，我想将整个设置转移到具有更多节点的不同环境中。无法在两个群集之间建立网络连接。问题是，我没有太多的时间与新的集群，也没有可能测试与其他测试环境的传输。因此，我需要一个可靠的计划。:)如何在新群集上以最小的配置工作量传输配置单元设置？是否可以仅将5个节点<e

浏览 3提问于2013-01-11得票数 1

回答已采纳

2回答

Hadoop DFSClient安装

、、

我运行Hadoop集群，并且我有兴趣再安装一台只安装DFSClient的机器。机器X将运行DFSClient，我应该能够从它看到HDFS。为了安装Hadoop，我从集群的一个节点复制了DFSClient主目录到机器X(包括.jar文件和配置)。hadoop fs -ls / 我得到本地根目录(不是HDFS根目录)。

浏览 3提问于2013-07-07得票数 0

点击加载更多