块分布的HDFS可视化

文章/答案/技术大牛

发布

1回答

、、

我正在尝试创建一个集群的HDFS块分布的可视化。我计划使用tableau来创建它，但我想知道什么样的可视化能够让您了解哪些节点需要重新平衡，以及将服务器日志数据放入Tableau的有效方法？

浏览 31提问于2017-01-30得票数 1

4回答

火花基本面

、、

在复习基本面时，我不太清楚一些基本的事情：查询1.对于分布式处理--可以不使用HDFS - Hadoop文件系统而在集群上工作(比如创建自己的分布式文件系统)，还是需要一些基本的分布式文件系统，如HDFS查询2.如果我们已经在HDFS中加载了一个文件(作为分布式块)，那么Spark将再次将其转换为块，并在其级别上重新分发(用于分布式处理)，或者只使用Haddop

浏览 7提问于2015-08-24得票数 1

回答已采纳

1回答

Spark和HDFS数据块的差异

、、、

请帮助我理解HDFS的数据块和星火中的RDDs之间的区别。HDFS将数据集作为相同大小的块分发到集群中的多个节点，数据块将被多次复制和存储。RDD是作为并行化集合创建的。并行化集合的元素是否分布在节点之间，还是存储在内存中进行处理？是否与HDFS的数据块有关？

浏览 0提问于2018-01-31得票数 2

4回答

如何确保数据均匀分布在hadoop节点上？

、

如果我将数据从本地系统复制到HDFS，с是否可以确保数据均匀分布在节点上？ PS HDFS保证每个块将存储在3个不同的节点上。但这是否意味着我的文件的所有块都将在相同的3个节点上排序？或者HDFS会为每个新数据块随机选择它们？

浏览 1提问于2011-02-21得票数 6

回答已采纳

1回答

HDFS中引起偏斜的distcp

、

我在HDFS中有一个文件夹(大约2 TB大小)，它是使用Apache的save方法创建的。它几乎均匀地分布在各个节点上(我使用hdfs fsck进行了检查)。当我尝试distcp这个文件夹(集群内)并在目标文件夹上运行hdfs fsck时，结果是高度倾斜的，也就是说，很少的节点有很多块，而很少的节点上存储的块非常少。HDFS上的这种偏斜导致了性能

浏览 3提问于2018-10-31得票数 1

回答已采纳

1回答

我们如何处理Hadoop DB中处理过的数据(输出)？

、、

我是Hadoop的新手，如果我的问题太不成熟，我深表歉意。但是，在基于Hadoop的数据库中是如何工作的呢？在客户端，如果请求特定的报告，这需要来自Hadoop DB的数据点，那么流程会是怎样的？我确信客户端不会直

浏览 2提问于2015-12-23得票数 0

1回答

使用Hive时HDFS中的文件分发和分区

、、、、

一方面，在HDFS文档中，他们说： HDFS被设计为支持非常大的文件。与HDFS兼容的应用程序是处理大型数据集的应用程序。这些应用程序只写他们的数据一次，但他们读它一次或多次，并要求这些读取满足流速度。HDFS支持在文件上写一次读-许多语义.HDFS使用的典型块大小为64 MB。因此，HDFS文件被分割成64 MB块，如果可能，每个块将驻留在不

浏览 0提问于2019-08-28得票数 1

回答已采纳

2回答

在hadoop的映射阶段写入本地文件

、

Hadoop将中间结果写入本地磁盘，将reducer的结果写入HDFS。HDFS是什么意思。它在物理上翻译成什么？

浏览 1提问于2012-09-14得票数 0

回答已采纳

2回答

HBase中的随机访问性能和HDFS中的数据块大小

、

HBase可以使用HDFS作为后端分布式文件系统。但是，它们的默认块大小有很大的不同。HBase默认块大小为64KB，HDFS默认块大小至少为64MB，至少是HBase的1000倍。我知道HBase是为随机访问而设计的，所以较小的块大小是有帮助的。但是，当在HBase中访问64K的块时，还需要在HDFS中访问一

浏览 1提问于2012-09-18得票数 12

回答已采纳

1回答

我正在学习一个教程，其中我使用的是Cloudera VM。hadoop堆栈已预安装在虚拟机中。每当我必须执行操作时，我必须将文件从VM文件系统传输到HDFS，在我看来，将所有文件从本机文件系统(在我的示例中为VM本机文件系统)复制到HDFS会产生一定的开销。hdfs dfs -put <FILE_IN_VM_FS> <FILE_IN_HDFS> HDFS在工业环境中是否作为本机文件系统运行，或者以上提到的方法是

浏览 2提问于2015-09-18得票数 1

3回答

直接在datanode中读取块的内容

、

在HDFS中，数据块分布在主动节点/从节点之间。这些块的内容是简单的文本，所以有没有办法查看、读取或访问每个数据节点中存在的块？

浏览 1提问于2013-10-28得票数 3

1回答

FileStatus对象块大小

、

根据HDFS指南，对于较小的文件大小，hadoop不会分配用于通过数据节点存储文件数据的完整数据块。我正在使用FileStatus和java api进行连接，以获取与文件路径相关联的元数据信息。下面提到的是代码。iterator = fs.listFiles(我

浏览 2提问于2014-07-07得票数 0

1回答

使用nohup后停止HDFS均衡器

、

我使用nohup命令启动了HDFS平衡器：这需要花费很长时间，我需要在集群上工作。你知道我怎么才能阻止这个过程吗？这是一个分布式的过程，所以很难通过做“杀死PID”来阻止. 谢谢

浏览 0提问于2018-09-21得票数 1

回答已采纳

1回答

Hadoop和Mapreduce配置

、、

在Mapreduce中，我们可以动态地修改映射器的块大小和no，如果是这样的话，我们该怎么办呢？如何在HDFS中创建块。例如，hadoop框架安装在例如redhat linux机器上。linux文件系统的默认块大小是4k。HDFS块是4k块上的逻辑包装器，或者是如何创建块的。同时，它是并行的还是连续的？因为例如，一个文件只有32 MB，因为

浏览 1提问于2016-03-03得票数 1

回答已采纳

1回答

Hadoop分布式文件系统( HDFS )中的重新分区

有没有办法直接在HDFS中对数据进行重新分区？如果您注意到您的分区不平衡(一个或多个分区比其他分区大得多)，您如何处理它？

浏览 18提问于2019-05-15得票数 1

1回答

如何存储HDFS块中的数据？

、、

我读到了关于HDFS的文章，想知道是否有任何特定的格式来安排块中的数据。我怀疑64 MB块中是否存在存储数据的格式？如果在块中存储数据的格式/结构，则存储的</e

浏览 3提问于2015-01-10得票数 2

回答已采纳

1回答

配置单元表删除和查询处理

根据我对配置单元概念的理解，如果我们将数据集加载到配置单元表中，数据文件将在HDFS中从源路径移动到配置单元仓库，并且HDFS被设置为数据的三个副本。这些问题可能看起来很愚蠢，但由于我是初学者，我想弄清楚我的疑虑。1)如果我删除配置单元表，它是只从配置单元仓库中删除数据文件，还是也从HDFS中删除其他两个副本？2)如果我们在hive表上处理查询，该查询会作为分布式处理完成吗？例如，一个数据文件的大小为1 1GB (实习

浏览 1提问于2018-05-31得票数 0

1回答

如何构建基于hadoop和lucene的分布式搜索

、、

我正准备使用lucence和hadoop制作分布式搜索模块，但我对以下内容感到困惑：众所周知，hdfs是一个分布式文件系统，当我将一个文件放到hdfs中时，文件将被分成几个块，并存储在claster中的不同的从机中，但是如果我使用lucene在hdfs上编写索引，我希望看到每台机器上的索引，如何实现它？我读过一些hadoop/cont肋骨/index和一些katta，但不理解“碎片，看起来像索引的</

浏览 2提问于2013-12-08得票数 1

1回答

关于配置单元表存储

我已经创建了一个不是分区表的HIVE表，但我在一个10节点集群中工作，那么在这种情况下，该表(表是一个大表)的数据是否会分布在不同的数据节点上？或者它将只存在于一个节点中？？如果它分布在不同的数据节点上，那么我们如何才能看到\hive\warehouse文件夹下的一个文件呢？另外，请不要说明这个存储是如何分配给一个分区表的。

浏览 2提问于2015-02-26得票数 0

1回答

Hadoop的目的是保存在RAM或磁盘中？

、

我们正在考虑和Hadoop一起去我的公司。通过查看互联网上的文档，我得到了这样的印象: HDFS的想法是将其保存在RAM中，以加快速度。现在我们的架构师说HDFS的主要思想是可伸缩性。我没意见。但他也声称，主要的想法是把它放在硬盘上。HDFS基本上是一个可伸缩的硬盘。我的观点是，硬盘支持HDFS是一种选择。但是，主要的想法是将其保存在RAM中。现

浏览 2提问于2013-08-01得票数 1

回答已采纳

点击加载更多