开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >是否将多个文件存储在单个块中？

问是否将多个文件存储在单个块中？
EN

Stack Overflow用户

提问于 2014-01-22 04:41:29

回答 4查看 5.7K关注 0票数 4

当我将许多小文件存储到HDFS中时，它们是否会存储在单个数据块中？

在我看来，根据下面的讨论，这些小文件应该存储到单个块中：HDFS block size Vs actual file size

腾讯云会员中心

加入腾讯云会员，每月可领会员专属优惠券；会员云产品免费体验；云产品会员专享价；会员签到抽奖…

EN

回答 4

Stack Overflow用户

发布于 2014-01-22 04:46:41

引用Hadoop -权威指南

HDFS存储小文件效率低下，因为每个文件都存储在一个块中，而块元数据由namenode保存在内存中。因此，大量的小文件可能会占用namenode上的大量内存。(但是请注意，小文件占用的磁盘空间不会超过存储文件原始内容所需的磁盘空间。例如，以128 MB的数据块大小存储的1 MB文件使用1 MB的磁盘空间，而不是128 MB。)Hadoop Archives或HAR文件是一种文件归档工具，可以更高效地将文件打包到HDFS块中，从而减少namenode内存使用量，同时仍然允许对文件进行透明访问。

结论：每个文件将存储在单独的块中。

票数 11

EN

Stack Overflow用户

发布于 2014-01-22 10:37:23

以下是Hadoop权威指南中指定的内容：

与单个磁盘的文件系统不同，

中小于单个数据块的文件不会占用整个数据块的底层存储空间

例如，如果您有30 MB的文件，并且数据块大小为64 MB，则此文件在逻辑上将存储在一个数据块中，但在物理文件系统中，HDFS仅使用30 MB来存储文件。剩下的30MB将免费使用。

票数 2

EN

Stack Overflow用户

发布于 2017-09-01 08:40:36

每个block只属于一个文件，如下所示:1.使用fsck命令获取文件的block信息：

hadoop fsck /gavial/data/OB/AIR/PM25/201709/01/15_00.json -files -blocks

输出如下：

    /gavial/data/OB/AIR/PM25/201709/01/15_00.json 521340 bytes, 1 block(s):  OK
0. BP-1004679263-192.168.130.151-1485326068364:blk_1074920015_1179253 len=521340 repl=3

Status: HEALTHY
 Total size:    521340 B
 Total dirs:    0
 Total files:   1
 Total symlinks:        0
 Total blocks (validated):  1 (avg. block size 521340 B)
 Minimally replicated blocks:   1 (100.0 %)
 Over-replicated blocks:    0 (0.0 %)

数据块id为

blk_1074920015

2.使用fsck命令显示块状态，输出如下

hdfs fsck -blockId blk_1074920015

Block Id: blk_1074920015
Block belongs to: /gavial/data/OB/AIR/PM25/201709/01/15_00.json
No. of Expected Replica: 3
No. of live Replica: 3
No. of excess Replica: 0
No. of stale Replica: 0
No. of decommission Replica: 0
No. of corrupted Replica: 0
Block replica on datanode/rack: datanode-5/default-rack is HEALTHY
Block replica on datanode/rack: datanode-1/default-rack is HEALTHY

显然，该块只属于一个文件

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21274334

复制

相关文章

GoogleMaps api for javascript demo 动态按顺序加载marker

@{ } <!DOCTYPE html> <html lang="zh"> <head> <meta name="viewport" content="initi

阿新

2018/04/12

8040

JavaScript 将对象数组按字母顺序排序

Chrome、IE、Edge、Firefox、Safari、Opera 等都支持 sort() 方法。

唐志远

2023/07/26

6330

JavaScript 将对象数组按字母顺序排序

JavaScript 将对象数组按字母顺序排序

javascript 对象函数排序数组

1.if条件语句 + sort() 2.localeCompare() + sort() 3.Collator() + sort()

唐志远

2023/08/01

2610

JavaScript 将对象数组按字母顺序排序

junit方法按顺序执行

选定版本，直接加注解

IT云清

2021/12/06

1.3K0

sql按顺序去重

参考博客： https://blog.csdn.net/qtvb1987/article/details/42081585

周杰伦本人

2022/10/25

8450

数组按指定顺序排序

数组排序可以直接使用 sort() 方法，可以对数组按规律排序。但如果指定一个没有规律的顺序进行排序呢？同样可以使用 sort() 方法： const data = [ { name: '张三', code: 'zs' }, { name: '王五', code: 'ww' }, { name: '赵七', code: 'zq' }, ]; data.sort((star, next) => { const sortList = ['zq', 'zs', 'ww'] return

德顺

2022/06/12

2.7K0

HTML加载顺序

html css 网站

完成了若干个基于WEB的项目, 也了解了从前端的js,css,html到后端python/php等, 二者如何交互, 最终浏览器如何执行, 这些在心里也已经很明确了. 不过一个问题一直萦绕在心中,那就是:

用户7657330

2020/08/14

1.9K0

vue for循环中按顺序axios请求拿到每条数据对应的状态

javascript node.js

在循环数组的时候基于每个对象中的某个参数来进行数据请求，获取当前对象对应的数据状态实现方法基于最新的es6中的async await 来实现首先要把对应的Promise方法进行一个封装

李维亮

2021/07/08

1.9K0

实现线程按顺序输出ABC

线程按顺序输出ABC 实现描述：建立三个线程A、B、C,分别按照顺序输出十次ABC 首先建立一个方法，按照条件进行输出 class PrintABC{ private int index=0; public synchronized void print(int n) { // TODO Auto-generated method stub try { while(index!=n) { wait(); } if(index==0) { System.out.

呆呆

2021/10/06

7810

JavaScript 按值传递 & 按引用传递

其次，对象的比较并非值的比较：对象的比较均是引用的比较，当且仅当它们引用同一个基对象时，它们才相等。　　即使两个对象包含同样的属性和相同的值，它们也是不相等的。各个索引元素完全相等的两个数组也不相等

书童小二

2018/09/03

3.8K0

Javascript - 事件顺序

原文标题：Javascript - Event order 原文链接：https://www.quirksmode.org/js/events_order.html Netscape 4 只支持事件捕获，Explorer只支持事件冒泡。Netscape 6和 Konqueror冒泡和捕获均支持，但Opera 和iCab冒泡和捕获均不支持。在介绍事件的那篇文章（文章链接：https://www.quirksmode.org/js/introevents.html）中，我提了个看起来比较难以理解的问题：“

崔庆才

2018/06/25

1K0

hive-行转列按顺序合并

hive ddl impala 数据

目录一、背景二、实现 1.建表ddl 2.示例数据 3.按顺序合并 4.按顺序合并结果 5.可以看到最后一条最长的才是我们需要的数据 6.结果 ---- ---- 一、背景想实现行转列按顺序合并，但是impala不支持，故用hive实现二、实现 1.建表ddl create table a( id bigint comment '主键', type bigint comment '分类', start_time bigint comment '开始时间，时间戳', end_time big

chimchim

2022/11/13

2.1K0

java | 如何让线程按顺序执行？

node.js javascript 腾讯云测试服务编程算法

本文使用了8种方法实现在多线程中让线程按顺序运行的方法，涉及到多线程中许多常用的方法，不止为了知道如何让线程按顺序运行，更是让读者对多线程的使用有更深刻的了解。使用的方法如下:

JavaFish

2019/10/16

6.5K0

Java类加载的顺序

那一年,呼延十又回想起被加载顺序支配的恐惧,笔试题上,好几个类,几个方法,几个输出语句,让你按照顺序写出输出.我真的是有一句….

呼延十

2019/07/01

1.3K0

java变量的加载顺序

学习编程思想 1 package com.test.java.classs; 2 3 /** 4 * Created by Administrator on 2015/12/7. 5 * 在类的内部，变量定义的顺序决定了初始化的顺序。 6 * 变量会在任何方法（包含构造器）被调用之前得到初始化 7 */ 8 public class Variable { 9 public static void main(String[] args) { 10 House

Ryan-Miao

2018/03/13

1.1K0

javascript按位异或（^）[通俗易懂]

java https 网络安全

大家好，又见面了，我是你们的朋友全栈君。<script type=”text/javascript”> var num1=25; var num2=3; alert(num1^num2);//输出： 26 ；对两个数值的二进制写法进行比较，只有当相同位置上的数字只有一个1时，才返回1，有两个1或者都是0则返回0，然后转换成十进制数值； </script>

全栈程序员站长

2022/09/06

8460

让线程按顺序执行 8 种方法

node.js javascript 编程算法

本文使用了8种方法实现在多线程中让线程按顺序运行的方法，涉及到多线程中许多常用的方法，不止为了知道如何让线程按顺序运行，更是让读者对多线程的使用有更深刻的了解。使用的方法如下:

业余草

2019/09/18

2K0

web.xml 组件加载顺序

在配置项目组件的过程中，了解Tomcat加载组件顺序很有必要。例如某些框架如Quartz的集群功能需要数据库的支持，数据库的加载肯定要在框架组件加载之前。

用户1257393

2018/07/30

8020

web.xml 组件加载顺序

在配置项目组件的过程中，了解Tomcat加载组件顺序很有必要。例如某些框架如Quartz的集群功能需要数据库的支持，数据库的加载肯定要在框架组件加载之前。

用户1257393

2018/07/30

8930

点击加载更多

相似问题

按顺序加载JavaScript脚本

64

按特定顺序获取api请求

22

JavaScript按顺序获取多个请求

11

如何强制JavaScript按顺序加载？

11

Javascript承诺按反向顺序加载

14

活动推荐

提供高质量视频生成与处理服务，效果专业

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例