首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >是否将多个文件存储在单个块中?

是否将多个文件存储在单个块中?
EN

Stack Overflow用户
提问于 2014-01-22 04:41:29
回答 4查看 5.7K关注 0票数 4

当我将许多小文件存储到HDFS中时,它们是否会存储在单个数据块中?

在我看来,根据下面的讨论,这些小文件应该存储到单个块中:HDFS block size Vs actual file size

EN

回答 4

Stack Overflow用户

发布于 2014-01-22 04:46:41

引用Hadoop -权威指南

HDFS存储小文件效率低下,因为每个文件都存储在一个块中,而块元数据由namenode保存在内存中。因此,大量的小文件可能会占用namenode上的大量内存。(但是请注意,小文件占用的磁盘空间不会超过存储文件原始内容所需的磁盘空间。例如,以128 MB的数据块大小存储的1 MB文件使用1 MB的磁盘空间,而不是128 MB。)Hadoop Archives或HAR文件是一种文件归档工具,可以更高效地将文件打包到HDFS块中,从而减少namenode内存使用量,同时仍然允许对文件进行透明访问。

结论:每个文件将存储在单独的块中。

票数 11
EN

Stack Overflow用户

发布于 2014-01-22 10:37:23

以下是Hadoop权威指南中指定的内容:

与单个磁盘的文件系统不同,

中小于单个数据块的文件不会占用整个数据块的底层存储空间

例如,如果您有30 MB的文件,并且数据块大小为64 MB,则此文件在逻辑上将存储在一个数据块中,但在物理文件系统中,HDFS仅使用30 MB来存储文件。剩下的30MB将免费使用。

票数 2
EN

Stack Overflow用户

发布于 2017-09-01 08:40:36

每个block只属于一个文件,如下所示:1.使用fsck命令获取文件的block信息:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hadoop fsck /gavial/data/OB/AIR/PM25/201709/01/15_00.json -files -blocks

输出如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
    /gavial/data/OB/AIR/PM25/201709/01/15_00.json 521340 bytes, 1 block(s):  OK
0. BP-1004679263-192.168.130.151-1485326068364:blk_1074920015_1179253 len=521340 repl=3

Status: HEALTHY
 Total size:    521340 B
 Total dirs:    0
 Total files:   1
 Total symlinks:        0
 Total blocks (validated):  1 (avg. block size 521340 B)
 Minimally replicated blocks:   1 (100.0 %)
 Over-replicated blocks:    0 (0.0 %)

数据块id为

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
blk_1074920015

2.使用fsck命令显示块状态,输出如下

hdfs fsck -blockId blk_1074920015

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Block Id: blk_1074920015
Block belongs to: /gavial/data/OB/AIR/PM25/201709/01/15_00.json
No. of Expected Replica: 3
No. of live Replica: 3
No. of excess Replica: 0
No. of stale Replica: 0
No. of decommission Replica: 0
No. of corrupted Replica: 0
Block replica on datanode/rack: datanode-5/default-rack is HEALTHY
Block replica on datanode/rack: datanode-1/default-rack is HEALTHY

显然,该块只属于一个文件

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21274334

复制
相关文章
GoogleMaps api for javascript demo 动态按顺序加载marker
@{ } <!DOCTYPE html> <html lang="zh"> <head> <meta name="viewport" content="initi
阿新
2018/04/12
8040
JavaScript 将对象数组按字母顺序排序
Chrome、IE、Edge、Firefox、Safari、Opera 等 都支持 sort() 方法。
唐志远
2023/07/26
6330
JavaScript 将对象数组按字母顺序排序
JavaScript 将对象数组按字母顺序排序
1.if条件语句 + sort() 2.localeCompare() + sort() 3.Collator() + sort()
唐志远
2023/08/01
2610
JavaScript 将对象数组按字母顺序排序
junit方法按顺序执行
选定版本,直接加注解
IT云清
2021/12/06
1.3K0
junit方法按顺序执行
sql按顺序去重
参考博客: https://blog.csdn.net/qtvb1987/article/details/42081585
周杰伦本人
2022/10/25
8450
sql按顺序去重
数组按指定顺序排序
数组排序可以直接使用 sort() 方法,可以对数组按规律排序。 但如果指定一个没有规律的顺序进行排序呢? 同样可以使用  sort() 方法: const data = [   { name: '张三', code: 'zs' },   { name: '王五', code: 'ww' },   { name: '赵七', code: 'zq' }, ]; data.sort((star, next) => {   const sortList = ['zq', 'zs', 'ww']   return 
德顺
2022/06/12
2.7K0
HTML加载顺序
完成了若干个基于WEB的项目, 也了解了从前端的js,css,html到后端python/php等, 二者如何交互, 最终浏览器如何执行, 这些在心里也已经很明确了. 不过一个问题一直萦绕在心中,那就是:
用户7657330
2020/08/14
1.9K0
vue for循环中按顺序axios请求拿到每条数据对应的状态
在循环数组的时候基于每个对象中的某个参数来进行数据请求,获取当前对象对应的数据状态 实现方法基于最新的es6中的async await 来实现 首先要把对应的Promise方法进行一个封装
李维亮
2021/07/08
1.9K0
实现线程按顺序输出ABC
线程按顺序输出ABC 实现描述:建立三个线程A、B、C,分别按照顺序输出十次ABC 首先建立一个方法,按照条件进行输出 class PrintABC{ private int index=0; public synchronized void print(int n) { // TODO Auto-generated method stub try { while(index!=n) { wait(); } if(index==0) { System.out.
呆呆
2021/10/06
7810
JavaScript 按值传递 & 按引用传递
其次,对象的比较并非值的比较:对象的比较均是引用的比较,当且仅当它们引用同一个基对象时,它们才相等。     即使两个对象包含同样的属性和相同的值,它们也是不相等的。各个索引元素完全相等的两个数组也不相等
书童小二
2018/09/03
3.8K0
Javascript - 事件顺序
原文标题:Javascript - Event order 原文链接:https://www.quirksmode.org/js/events_order.html Netscape 4 只支持事件捕获,Explorer只支持事件冒泡。Netscape 6和 Konqueror冒泡和捕获均支持,但Opera 和iCab冒泡和捕获均不支持。 在介绍事件的那篇文章(文章链接:https://www.quirksmode.org/js/introevents.html)中,我提了个看起来比较难以理解的问题:“
崔庆才
2018/06/25
1K0
hive-行转列按顺序合并
目录 一、背景 二、实现 1.建表ddl 2.示例数据 3.按顺序合并 4.按顺序合并结果 5.可以看到最后一条最长的才是我们需要的数据 6.结果 ---- ---- 一、背景 想实现行转列按顺序合并,但是impala不支持,故用hive实现 二、实现 1.建表ddl create table a( id bigint comment '主键', type bigint comment '分类', start_time bigint comment '开始时间,时间戳', end_time big
chimchim
2022/11/13
2.1K0
hive-行转列按顺序合并
java | 如何让线程按顺序执行?
本文使用了8种方法实现在多线程中让线程按顺序运行的方法,涉及到多线程中许多常用的方法,不止为了知道如何让线程按顺序运行,更是让读者对多线程的使用有更深刻的了解。使用的方法如下:
JavaFish
2019/10/16
6.5K0
Java类加载的顺序
那一年,呼延十又回想起被加载顺序支配的恐惧,笔试题上,好几个类,几个方法,几个输出语句,让你按照顺序写出输出.我真的是有一句….
呼延十
2019/07/01
1.3K0
java变量的加载顺序
学习编程思想 1 package com.test.java.classs; 2 3 /** 4 * Created by Administrator on 2015/12/7. 5 * 在类的内部,变量定义的顺序决定了初始化的顺序。 6 * 变量会在任何方法(包含构造器)被调用之前得到初始化 7 */ 8 public class Variable { 9 public static void main(String[] args) { 10 House
Ryan-Miao
2018/03/13
1.1K0
javascript按位异或(^)[通俗易懂]
大家好,又见面了,我是你们的朋友全栈君。<script type=”text/javascript”> var num1=25; var num2=3; alert(num1^num2);//输出: 26 ;对两个数值的二进制写法进行比较,只有当相同位置上的数字只有一个1时,才返回1,有两个1或者都是0则返回0,然后转换成十进制数值; </script>
全栈程序员站长
2022/09/06
8460
让线程按顺序执行 8 种方法
本文使用了8种方法实现在多线程中让线程按顺序运行的方法,涉及到多线程中许多常用的方法,不止为了知道如何让线程按顺序运行,更是让读者对多线程的使用有更深刻的了解。使用的方法如下:
业余草
2019/09/18
2K0
让线程按顺序执行 8 种方法
web.xml 组件加载顺序
在配置项目组件的过程中, 了解Tomcat加载组件顺序很有必要。 例如某些框架如Quartz的集群功能需要数据库的支持, 数据库的加载肯定要在框架组件加载之前。
用户1257393
2018/07/30
8020
web.xml 组件加载顺序
在配置项目组件的过程中, 了解Tomcat加载组件顺序很有必要。 例如某些框架如Quartz的集群功能需要数据库的支持, 数据库的加载肯定要在框架组件加载之前。
用户1257393
2018/07/30
8930
点击加载更多

相似问题

按顺序加载JavaScript脚本

64

按特定顺序获取api请求

22

JavaScript按顺序获取多个请求

11

如何强制JavaScript按顺序加载?

11

Javascript承诺按反向顺序加载

14
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文