腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
块
分布
的
HDFS
可视化
、
、
我正在尝试创建一个集群
的
HDFS
块
分布
的
可视化
。 我计划使用tableau来创建它,但我想知道什么样
的
可视化
能够让您了解哪些节点需要重新平衡,以及将服务器日志数据放入Tableau
的
有效方法?
浏览 31
提问于2017-01-30
得票数 1
4
回答
火花基本面
、
、
在复习基本面时,我不太清楚一些基本
的
事情: 查询1.对于
分布
式处理--可以不使用
HDFS
- Hadoop文件系统而在集群上工作(比如创建自己
的
分布
式文件系统),还是需要一些基本
的
分布
式文件系统,如
HDFS
查询2.如果我们已经在
HDFS
中加载了一个文件(作为
分布
式
块
),那么Spark将再次将其转换为
块
,并在其级别上重新分发(用于
分布
式处理),或者只使用Haddop
浏览 7
提问于2015-08-24
得票数 1
回答已采纳
1
回答
Spark和
HDFS
数据
块
的
差异
、
、
、
请帮助我理解
HDFS
的
数据
块
和星火中
的
RDDs之间
的
区别。
HDFS
将数据集作为相同大小
的
块
分发到集群中
的
多个节点,数据
块
将被多次复制和存储。RDD是作为并行化集合创建
的
。并行化集合
的
元素是否
分布
在节点之间,还是存储在内存中进行处理?是否与
HDFS
的
数据
块
有关?
浏览 0
提问于2018-01-31
得票数 2
4
回答
如何确保数据均匀
分布
在hadoop节点上?
、
如果我将数据从本地系统复制到
HDFS
,с是否可以确保数据均匀
分布
在节点上? PS
HDFS
保证每个
块
将存储在3个不同
的
节点上。但这是否意味着我
的
文件
的
所有
块
都将在相同
的
3个节点上排序?或者
HDFS
会为每个新数据
块
随机选择它们?
浏览 1
提问于2011-02-21
得票数 6
回答已采纳
1
回答
HDFS
中引起偏斜
的
distcp
、
我在
HDFS
中有一个文件夹(大约2 TB大小),它是使用Apache
的
save方法创建
的
。它几乎均匀地
分布
在各个节点上(我使用
hdfs
fsck进行了检查)。当我尝试distcp这个文件夹(集群内)并在目标文件夹上运行
hdfs
fsck时,结果是高度倾斜
的
,也就是说,很少
的
节点有很多
块
,而很少
的
节点上存储
的
块
非常少。
HDFS
上
的
这种偏斜导致了性能
浏览 3
提问于2018-10-31
得票数 1
回答已采纳
1
回答
我们如何处理Hadoop DB中处理过
的
数据(输出)?
、
、
我是Hadoop
的
新手,如果我
的
问题太不成熟,我深表歉意。但是,在基于Hadoop
的
数据库中是如何工作
的
呢?在客户端,如果请求特定
的
报告,这需要来自Hadoop DB
的
数据点,那么流程会是怎样
的
?我确信客户端不会直
浏览 2
提问于2015-12-23
得票数 0
1
回答
使用Hive时
HDFS
中
的
文件分发和分区
、
、
、
、
一方面,在
HDFS
文档中,他们说:
HDFS
被设计为支持非常大
的
文件。与
HDFS
兼容
的
应用程序是处理大型数据集
的
应用程序。这些应用程序只写他们
的
数据一次,但他们读它一次或多次,并要求这些读取满足流速度。
HDFS
支持在文件上写一次读-许多语义.
HDFS
使用
的
典型
块
大小为64 MB。因此,
HDFS
文件被分割成64 MB
块
,如果可能,每个
块
将驻留在不
浏览 0
提问于2019-08-28
得票数 1
回答已采纳
2
回答
在hadoop
的
映射阶段写入本地文件
、
Hadoop将中间结果写入本地磁盘,将reducer
的
结果写入
HDFS
。
HDFS
是什么意思。它在物理上翻译成什么?
浏览 1
提问于2012-09-14
得票数 0
回答已采纳
2
回答
HBase中
的
随机访问性能和
HDFS
中
的
数据
块
大小
、
HBase可以使用
HDFS
作为后端
分布
式文件系统。但是,它们
的
默认
块
大小有很大
的
不同。HBase默认
块
大小为64KB,
HDFS
默认
块
大小至少为64MB,至少是HBase
的
1000倍。我知道HBase是为随机访问而设计
的
,所以较小
的
块
大小是有帮助
的
。但是,当在HBase中访问64K
的
块
时,还需要在
HDFS
中访问一
浏览 1
提问于2012-09-18
得票数 12
回答已采纳
1
回答
HDFS
可以作为机器
的
本机文件系统运行吗?
、
我正在学习一个教程,其中我使用
的
是Cloudera VM。hadoop堆栈已预安装在虚拟机中。每当我必须执行操作时,我必须将文件从VM文件系统传输到
HDFS
,在我看来,将所有文件从本机文件系统(在我
的
示例中为VM本机文件系统)复制到
HDFS
会产生一定
的
开销。
hdfs
dfs -put <FILE_IN_VM_FS> <FILE_IN_
HDFS
>
HDFS
在工业环境中是否作为本机文件系统运行,或者以上提到
的
方法是
浏览 2
提问于2015-09-18
得票数 1
3
回答
直接在datanode中读取
块
的
内容
、
在
HDFS
中,数据
块
分布
在主动节点/从节点之间。这些
块
的
内容是简单
的
文本,所以有没有办法查看、读取或访问每个数据节点中存在
的
块
?
浏览 1
提问于2013-10-28
得票数 3
1
回答
FileStatus对象
块
大小
、
根据
HDFS
指南,对于较小
的
文件大小,hadoop不会分配用于通过数据节点存储文件数据
的
完整数据
块
。我正在使用FileStatus和java api进行连接,以获取与文件路径相关联
的
元数据信息。下面提到
的
是代码。iterator = fs.listFiles(我
浏览 2
提问于2014-07-07
得票数 0
1
回答
使用nohup后停止
HDFS
均衡器
、
我使用nohup命令启动了
HDFS
平衡器:这需要花费很长时间,我需要在集群上工作。你知道我怎么才能阻止这个过程吗?这是一个
分布
式
的
过程,所以很难通过做“杀死PID”来阻止. 谢谢
浏览 0
提问于2018-09-21
得票数 1
回答已采纳
1
回答
Hadoop和Mapreduce配置
、
、
在Mapreduce中,我们可以动态地修改映射器
的
块
大小和no,如果是这样的话,我们该怎么办呢? 如何在
HDFS
中创建
块
。例如,hadoop框架安装在例如redhat linux机器上。linux文件系统
的
默认
块
大小是4k。
HDFS
块
是4k
块
上
的
逻辑包装器,或者是如何创建
块
的
。同时,它是并行
的
还是连续
的
?因为例如,一个文件只有32 MB,因为
浏览 1
提问于2016-03-03
得票数 1
回答已采纳
1
回答
Hadoop
分布
式文件系统(
HDFS
)中
的
重新分区
有没有办法直接在
HDFS
中对数据进行重新分区?如果您注意到您
的
分区不平衡(一个或多个分区比其他分区大得多),您如何处理它?
浏览 18
提问于2019-05-15
得票数 1
1
回答
如何存储
HDFS
块
中
的
数据?
、
、
我读到了关于
HDFS
的
文章,想知道是否有任何特定
的
格式来安排
块
中
的
数据。 我怀疑64 MB
块
中是否存在存储数据
的
格式?如果在
块
中存储数据
的
格式/结构,则存储
的</e
浏览 3
提问于2015-01-10
得票数 2
回答已采纳
1
回答
配置单元表删除和查询处理
根据我对配置单元概念
的
理解,如果我们将数据集加载到配置单元表中,数据文件将在
HDFS
中从源路径移动到配置单元仓库,并且
HDFS
被设置为数据
的
三个副本。这些问题可能看起来很愚蠢,但由于我是初学者,我想弄清楚我
的
疑虑。1)如果我删除配置单元表,它是只从配置单元仓库中删除数据文件,还是也从
HDFS
中删除其他两个副本?2)如果我们在hive表上处理查询,该查询会作为
分布
式处理完成吗?例如,一个数据文件
的
大小为1 1GB (实习
浏览 1
提问于2018-05-31
得票数 0
1
回答
如何构建基于hadoop和lucene
的
分布
式搜索
、
、
我正准备使用lucence和hadoop制作
分布
式搜索模块,但我对以下内容感到困惑: 众所周知,
hdfs
是一个
分布
式文件系统,当我将一个文件放到
hdfs
中时,文件将被分成几个
块
,并存储在claster中
的
不同
的
从机中,但是如果我使用lucene在
hdfs
上编写索引,我希望看到每台机器上
的
索引,如何实现它?我读过一些hadoop/cont肋骨/index和一些katta,但不理解“碎片,看起来像索引
的</
浏览 2
提问于2013-12-08
得票数 1
1
回答
关于配置单元表存储
我已经创建了一个不是分区表
的
HIVE表,但我在一个10节点集群中工作,那么在这种情况下,该表(表是一个大表)
的
数据是否会
分布
在不同
的
数据节点上?或者它将只存在于一个节点中??如果它
分布
在不同
的
数据节点上,那么我们如何才能看到\hive\warehouse文件夹下
的
一个文件呢? 另外,请不要说明这个存储是如何分配给一个分区表
的
。
浏览 2
提问于2015-02-26
得票数 0
1
回答
Hadoop
的
目的是保存在RAM或磁盘中?
、
我们正在考虑和Hadoop一起去我
的
公司。通过查看互联网上
的
文档,我得到了这样
的
印象:
HDFS
的
想法是将其保存在RAM中,以加快速度。现在我们
的
架构师说
HDFS
的
主要思想是可伸缩性。我没意见。但他也声称,主要
的
想法是把它放在硬盘上。
HDFS
基本上是一个可伸缩
的
硬盘。我
的
观点是,硬盘支持
HDFS
是一种选择。但是,主要
的
想法是将其保存在RAM中。现
浏览 2
提问于2013-08-01
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券