开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

HDFS -一个大文件或几个小文件，大小与块大小相同

HDFS（Hadoop Distributed File System）是一个分布式文件系统，用于存储和管理大规模数据集。它是Apache Hadoop生态系统的核心组件之一。

HDFS的特点包括：

分布式存储：HDFS将文件切分成多个块，并将这些块分布存储在集群中的多个节点上。这种分布式存储方式使得HDFS能够处理大规模数据集，并提供高可靠性和容错性。
冗余备份：HDFS通过在集群中的不同节点上存储多个副本来提供数据冗余备份。默认情况下，每个块会有三个副本，这样即使某个节点发生故障，数据仍然可用。
高吞吐量：HDFS的设计目标之一是提供高吞吐量的数据访问。它适用于大规模数据集的批量读写操作，而不适用于低延迟的交互式访问。
数据局部性：HDFS通过将计算任务分配到存储数据所在的节点上，实现了数据局部性。这样可以减少数据传输的网络开销，提高计算性能。

HDFS适用于以下场景：

大数据存储与处理：HDFS适用于存储和处理大规模数据集，如日志文件、传感器数据、图像和视频等。
批量数据分析：HDFS与Apache Hadoop生态系统的其他组件（如MapReduce、Hive、Spark等）结合使用，可以进行大规模的批量数据分析和处理。
数据备份与恢复：HDFS的数据冗余备份机制可以用于数据备份和灾难恢复。

腾讯云提供了与HDFS相似的分布式存储服务，称为Tencent Cloud Distributed File System（CFS）。您可以通过以下链接了解更多关于Tencent CFS的信息：Tencent CFS产品介绍

请注意，本回答仅提供了HDFS的概念、分类、优势和应用场景，并提供了腾讯云相关产品的介绍链接。如需更详细的技术细节和实际应用案例，建议参考相关文档和资料。

相关搜索:hdfs中具有相同大小文件的火花写入分区使一个视图与在SwiftUI中具有动态大小的另一个视图大小相同使宽度与另一个html元素的大小相同使文本框与上一个文本框大小相同如何使绝对定位的元素与另一个元素具有相同的大小如何在Flutter中使一个小部件的大小与另一个小部件相同如何压缩两个不同大小的列表，以创建一个与原始列表中最长的列表大小相同的新列表？如何对给定大小的数组进行随机排列，并将其与C++中的另一个相同大小的数组进行比较如何使tbody子对象的大小与在thead之后创建的第一个tbody相同如何使flexbox中的第一个按钮与第二个按钮的大小相同我的函数返回一个与用户输入的大小相同的三角形，但我得到一个随机错误创建与另一个数组大小相同的二维数组，并在python中以零初始化如果字段与一个或多个文本字符串(单词)完全匹配，我如何在BigQuery的SELECT中使用大小写？对于包含不同数量元素的两个一维数组，如何删除其中一个数组中的元素，使其大小与另一个相同？如何将这种类型的numpy数组存储到HDF5中，在每一行中有一个int和一个由几个int组成的numpy数组，每行的大小各不相同

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Hadoop 大量小文件问题的优化

小文件是指文件大小明显小于 HDFS 上块（block）大小（默认64MB，在Hadoop2.x中默认为128MB）的文件。如果存储小文件，必定会有大量这样的小文件，否则你也不会使用 Hadoop，这样的文件给 Hadoop 的扩展性和性能带来严重问题。当一个文件的大小小于 HDFS 的块大小（默认64MB）就认定为小文件，否则就是大文件。为了检测输入文件的大小，可以浏览Hadoop DFS 主页，并点击 Browse filesystem（浏览文件系统）。

04

2020-08-24：什么是小文件？很多小文件会有什么问题？很多小文件怎么解决？（大数据）

[知乎答案](https://www.zhihu.com/question/417040766)

01

HDFS存储大量小文件居然有这样的问题！看我怎么搞定它！「建议收藏」

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

02

HDFS你一定要知道，要考的

前面我们分析存储方案的发展的时候有提到分布式文件存储的出现是为了解决存储的三大问题：可扩展性，高吞吐量，高可靠性

01

基于Hadoop的云盘系统客户端技术难点之三小文件存储优化

首先明确概念，这里的小文件是指小于HDFS系统Block大小的文件（默认64M），如果使用HDFS存储大量的小文件，将会是一场灾难，这取决于HDFS的实现机制和框架结构，每一个存储在HDFS中的文件、目录和块映射为一个对象存储在NameNode服务器内存中，通常占用150个字节。如果有1千万个文件，就需要消耗大约3G的内存空间。如果是10亿个文件呢，简直不可想象。这里需要特别说明的是，每一个小于Block大小的文件，存储是实际占用的存储空间仍然是实际的文件大小，而不是整个block大小。

06

【Hadoop】三句话告诉你 mapreduce 中MAP进程的数量怎么控制？

原文地址： MapReduce Input Split（输入分/切片）详解结论：经过以上的分析，在设置map个数的时候，可以简单的总结为以下几点：（1）如果想增加map个数，则设置mapred.map.tasks 为一个较大的值。（2）如果想减小map个数，则设置mapred.min.split.size 为一个较大的值。（3）如果输入中有很多小文件，依然想减少map个数，则需要将小文件merger为大文件，然后使用准则2。看了很多博客，感觉没有一个说的很清楚，所以我来整理一下。

08

代达罗斯之殇-大数据领域小文件问题解决攻略

海量小文件问题是工业界和学术界公认的难题，大数据领域中的小文件问题，也是一个非常棘手的问题，仅次于数据倾斜问题，对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案，给大家还原一个大数据系统中小文件问题的系统性解决方案。

02

HDFS优缺点

Hadoop分布式文件系统（HDFS）是Hadoop生态系统的重要组成部分之一，它是一个高度可靠、高度可扩展的分布式文件系统，专门为海量数据存储而设计。

04

蚂蚁绊倒大象？不起眼的小文件竟拖了Hadoop大佬的后腿

在使用Hadoop过程中，小文件是一种比较常见的挑战，如果不小心处理，可能会带来一系列的问题。HDFS是为了存储和处理大数据集（M以上）而开发的，大量小文件会导致Namenode内存利用率和RPC调用效率低下，block扫描吞吐量下降，应用层性能降低。通过本文，我们将定义小文件存储的问题，并探讨如何对小文件进行治理。

01

（译）优化ORC和Parquet文件，提升大SQL读取性能

本文编译自IBM开发者社区，主要介绍了HDFS中小的ORC和Parquet文件的问题，以及这些小文件如何影响Big SQL的读取性能，并探索了为了提高读取性能，使用现有工具将小文件压缩为大文件的可能解决方案。

03

Hadoop学习笔记(二)之HDFS

面对各行各业日益增长的数据量，普通的机器无论在存储空间还是管理能力上都显得力不从心。既然单台机器的资源有限，那么增加机器的方式是否可行？答案是肯定的，于是乎出现了分布式的概念。分布式文件管理系统便可以将一堆机器组合在一起，并隐藏细节，让用户感觉与之前单机储存文件毫无差别，但其实文件是通过网络来访问的。更多精彩文章请关注公众号『Pythonnote』或者『全栈技术精选』

01

HDFS的特性和缺点

文章目录 HDFS的特性 HDFS的缺点 HDFS的特性海量数据存储：HDFS 可横向扩展，其存储文件可以支持PB级别数据高容错性：节点丢失，系统依然可用，数据保存多个副本，副本丢失后自动恢复。可建构在廉价（与小型机大型机比）的机器上，实现线性扩展（随着节点数量的增加，集群的存储能力增加）大文件存储：DFS采用数据块的方式存储数据，将一个大文件切分成多个小文件，分布存储 HDFS的缺点不能做到低延迟数据访问：HDFS 针对一次性读取大量数据继续了优化，牺牲了延迟性。不适合大量的小文件存储：

01

快速了解HDFS、NameNode和DataNode

首先我们来认识一下HDFS， HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件，为了降低文件丢失造成的错误，它会为每个小文件复制多个副本（默认为三个），以此来实现多机器上的多用户分享文件和存储空间。

03

HDFS特性及缺点分析(3)

因为在前面几期的分享中,大家看到的更多是HDFS的底层原理,内部结构,并没有谈到其自身优势和劣势的一个比较！因此,本次小菌为大家带来的就是HDFS的特性以及缺点分析。

00

HDFS的小文件合并(12)

由于Hadoop擅长存储大文件，因为大文件的元数据信息比较少，如果Hadoop集群当中有大量的小文件，那么每个小文件都需要维护一份元数据信息，会大大的增加集群管理元数据的内存压力，所以在实际工作当中，如果有必要一定要将小文件合并成大文件进行一起处理。

02

hbase解决海量图片存储

随着互联网、云计算及大数据等信息技术的发展，越来越多的应用依赖于对海量数据的存储和处理，如智能监控、电子商务、地理信息等，这些应用都需要对海量图片的存储和检索。由于图片大多是小文件(80%大小在数MB以内)，以GFS、HDFS为代表的适用于流式访问大文件的分布式存储系统，若直接用来存储图片，由于元数据膨胀，在扩展性和性能方面均存在严重问题。

02

HDFS设计原理最详讲解

我们都知道HDFS是来源于Google的GFS的分布式系统，它的特点是易于扩展，同时可以开发于廉价的机器上，同时他可以保证所有文件的备份数据维持在健康的数量上，同时非常适合进行批处理，因为设计之处就是在大数据文件大量的操作是顺序读的操作，同时也非常适合流处理。

05

大数据之Hadoop面试官的11个灵魂拷问！

接下来还有很多大数据组件的灵魂拷问准备好了吗？各位小伙伴们！！！咱们下期再见！

06

HDFS应用场景、原理、基本架构及使用方法

如果一个文件大小为10K，则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存)

02

HDFS 是如何实现大数据高容量、高速、可靠的存储和访问的。

对于一个企业大数据应用来说，搞定了大数据存储基本上就解决了大数据应用最重要的问题。Google 三驾马车的第一驾是GFS，Hadoop最先开始设计的就是HDFS，可见分布式存储的重要性，整个大数据生态计算框架多种多样，但是大数据的存储却没有太大的变化，HDFS依旧是众多分布式计算的基础。当然HDFS也有许多缺点，一些对象存储等技术的出现给HDFS的地位带来了挑战，但是HDFS目前还是最重要的大数据存储技术，新的计算框架想要获得广泛应用依旧需要支持HDFS。大数据数据量大、类型多种多样、快速的增长等特性，那么HDFS是如何去解决大数据存储、高可用访问的了？

02

Hadoop中HDFS的存储机制

HDFS（Hadoop Distributed File System）是Hadoop分布式计算中的数据存储系统，是基于流数据模式访问和处理超大文件的需求而开发的。下面我们首先介绍HDFS中的一些基础概念，然后介绍HDFS中读写操作的过程，最后分析了HDFS的优缺点。

02

漫谈未来的HDFS

前面我们提到的HDFS，了解了HDFS的特性和架构。HDFS能够存储TB甚至PB规模的数据是有前提的，首先数据要以大文件为主，其次NameNode的内存要足够大。对HDFS有所了解的同学肯定都知道，NameNode是HDFS的存储着整个集群的元数据信息，比如所有文件和目录信息等等。而且当元数据信息较多时，NameNode的启动会变得很慢，也比较容易触发GC操作。显然当数据到了一定的量级，元数据管理会成为HDFS的一个瓶颈，其实这也是为什么说它适合存储大文件的原因。如果解决了元数据管理的问题，其实HDFS是可以支撑海量小文件的。

00

漫谈未来的HDFS

前面我们提到的HDFS，了解了HDFS的特性和架构。HDFS能够存储TB甚至PB规模的数据是有前提的，首先数据要以大文件为主，其次NameNode的内存要足够大。对HDFS有所了解的同学肯定都知道，NameNode是HDFS的存储着整个集群的元数据信息，比如所有文件和目录信息等等。而且当元数据信息较多时，NameNode的启动会变得很慢，也比较容易触发GC操作。显然当数据到了一定的量级，元数据管理会成为HDFS的一个瓶颈，其实这也是为什么说它适合存储大文件的原因。如果解决了元数据管理的问题，其实HDFS是可以支撑海量小文件的。

03

MapReduce性能优化大纲

检测系统瓶颈性能调优创建一项基线，用来评估系统的首次运行性能（即集群默认配置）分析Hadoop计数器，修改，调整配置，并重新执行任务，与基线进行比较重复执行第2步，直到最高效率识别资源瓶颈内存瓶颈当发现节点频繁出现虚拟内存交换时表示出现了内存瓶颈 CPU瓶颈通常情况下，处理器负载超过90%，在多处理器系统上整体负载超过50% 判断是否是单个特定线程独占了CPU IO瓶颈磁盘持续活动率超过85%（也有可能是由CPU或内存导致）网络带宽瓶颈在输出结果或shuffle阶段从map拉取数据时

01

6道经典大数据面试题（ChatGPT回答版）

HDFS（Hadoop Distributed File System）的读写流程如下：

06

了解HDFS的数据存取机制

HDFS是大数据存取的基础，很多数据都依赖于HDFS，如HBase数据库。作为Hadoop的基础，HDFS的数据读取机制有很多细节。我们今天来看一下。

02

Spark 处理小文件

不论是Hive还是Spark SQL在使用过程中都可能会遇到小文件过多的问题。小文件过多最直接的表现是任务执行时间长，查看Spark log会发现大量的数据移动的日志。我们可以查看log中展现的日志信息，去对应的路径下查看文件的大小和个数。

00

大数据技术之Hadoop（HDFS）第1章 HDFS概述

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

01

如何在Hadoop中处理小文件-续

Fayson在前面的文章《如何在Hadoop中处理小文件》和《如何使用Impala合并小文件》中介绍了什么是Hadoop中的小文件，以及常见的处理方法。这里Fayson再补充一篇文章进行说明。

08

hdfs基本概念

HDFS是Hadoop Distribute File System 的简称，也就是Hadoop的一个分布式文件系统。一、HDFS的主要设计理念 1、存储超大文件这里的“超大文件”是指几百MB、GB甚至TB级别的文件。 2、最高效的访问模式是一次写入、多次读取(流式数据访问) HDFS存储的数据集作为hadoop的分析对象。在数据集生成后，长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分数据甚至全部数据，因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。 3、运行在

06

大数据开发：Hive小文件合并

Hadoop生态技术体系下，负责大数据存储管理的组件，涉及到HDFS、Hive、Hbase等。Hive作为数据仓库工具，最初的存储还是落地到HDFS上，这其中就有一个关键的环节，是小文件的处理。今天的大数据培训分享，我们就主要来讲讲，Hive小文件合并。

03

磁盘I/O那些事

背景计算机硬件性能在过去十年间的发展普遍遵循摩尔定律，通用计算机的CPU主频早已超过3GHz，内存也进入了普及DDR4的时代。然而传统硬盘虽然在存储容量上增长迅速，但是在读写性能上并无明显提升，同时SSD硬盘价格高昂，不能在短时间内完全替代传统硬盘。传统磁盘的I/O读写速度成为了计算机系统性能提高的瓶颈，制约了计算机整体性能的发展。硬盘性能的制约因素是什么？如何根据磁盘I/O特性来进行系统设计？针对这些问题，本文将介绍硬盘的物理结构和性能指标，以及操作系统针对磁盘性能所做的优化，最后讨论下基于磁盘I/O

HDFS详解

【一】HDFS简介 HDFS的基本概念1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间。 ----------------------------------------------------------------------------

hadoop必知必会的基本知识

这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。 1）Client：就是客户端。（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储；（2）与NameNode交互，获取文件的位置信息；（3）与DataNode交互，读取或者写入数据；（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS；（5）Client可以通过一些命令来访问HDFS； 2）NameNode：就是Master，它是一个主管、管理者。（1）管理HDFS的名称空间；（2）管理数据块（Block）映射信息；（3）配置副本策略；（4）处理客户端读写请求。 3）DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。（1）存储实际的数据块；（2）执行数据块的读/写操作。 4）Secondary NameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。（1）辅助NameNode，分担其工作量；（2）定期合并Fsimage和Edits，并推送给NameNode；（3）在紧急情况下，可辅助恢复NameNode。

01

hadoop必知必会的基本知识

这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。 1）Client：就是客户端。（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储；（2）与NameNode交互，获取文件的位置信息；（3）与DataNode交互，读取或者写入数据；（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS；（5）Client可以通过一些命令来访问HDFS； 2）NameNode：就是Master，它是一个主管、管理者。（1）管理HDFS的名称空间；（2）管理数据块（Block）映射信息；（3）配置副本策略；（4）处理客户端读写请求。 3）DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。（1）存储实际的数据块；（2）执行数据块的读/写操作。 4）Secondary NameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。（1）辅助NameNode，分担其工作量；（2）定期合并Fsimage和Edits，并推送给NameNode；（3）在紧急情况下，可辅助恢复NameNode。

02

【万字长文】HDFS最全知识点整理（建议收藏）

1）跟NN通信查询元数据(block所在的DN的节点)，找到文件块所在的DN的服务器。2）挑选一台DN（就近原则，然后随机）服务器，请求建立socket流。3）DN开始发送数据（从磁盘里读取数据放入流，一packet为单位做校验） 4）客户端以packet为单位接收，现在本地缓存，然后写入目标文件中，后面的block块就相当于append到前面的block块，最后合成最终需要的文件。

02

盘点分布式文件存储系统____分布式文件存储系统简介

**分布式存储：**通过网络使用企业中的每台机器上的磁盘空间，并将这些分散的存储资源构成一个虚拟的存储设备，数据分散的存储在企业的各个角落。

01

大数据平台：资源管理及存储优化技术

大数据平台的资源管理组件主要涉及存储资源和计算资源管理两部分，属于大数据平台运维管理系统。基于资源管理系统，大数据平台的开发运维人员能够清晰掌控平台的资源使用情况和资源在不同时间段下的变化趋势，能对资源使用异常进行及时发现并定位处理，避免造成更严重的影响，如磁盘空间撑爆，计算资源无空余，任务长时间等待不运行等造成业务阻塞。

09

HDFS原理概念扫盲

hdfs文件系统主要设计为了存储大文件的文件系统；如果有个TB级别的文件，我们该怎么存储呢？分布式文件系统未出现的时候，一个文件只能存储在个服务器上，可想而知，单个服务器根本就存储不了这么大的文件；退而求其次，就算一个服务器可以存储这么大的文件，你如果想打开这个文件，效率会高吗

02

分布式文件系统(HDFS）与 linux系统文件系统对比

初次接触分布式文件系统，有很多迷惑。通过参考网络文章，这里进行对比一下Hadoop 分布式文件系统（HDFS）与传统文件系统之间的关系：

00

Hadoop（四）HDFS集群详解

前言　　前面几篇简单介绍了什么是大数据和Hadoop，也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。　　HDFS前言：　　　　设计思想：（分而治之）将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析。　　　　在大数据系统中作用：为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务。　　分布式文件系统：　　　　问题引发：海量数据超过了单台物理计算机的存储能力　　　　解

09

大数据组件：Hive优化之配置参数的优化

Hive是大数据领域常用的组件之一，主要用于大数据离线数仓的运算，关于Hive的性能调优在日常工作和面试中是经常涉及的一个点，因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解。

03

HDFS分布式文件存储系统详解

优点： 1.处理超大文件能用来存储管理PB级的数据 1PB = 1024TB 2.处理非结构化数据、半结构化数据、结构化数据流式的访问数据一次写入、多次读取 3.运行于廉价的商用机器集群上可运行在低廉的商用硬件集群上故障时能继续运行且不让用户察觉到明显的中断

02

Hadoop基础教程-第7章 MapReduce进阶（7.1 MapReduce过程）

一般而言，数据文件都会上传到HDFS上，也就是说HDFS上的文件作为MapReduce的输入。已知block块大小是128M（Hadoop 2.x默认的blockSize是128MB，Hadoop 1.x默认的blockSize是64MB）。MapReduce计算框架首先会用InputFormat的子类FileInputFormat类对输入文件进行切分，形成输入分片（InputSplit）。每个InputSplit分片将作为一个Map任务的输入，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组。也就是说，InputSplit只是对输入数据进行逻辑上切分，并不会将物理文件切分成片进行存储。

02

HDFS 基本概念及常用操作学习笔记

Hadoop 附带了一个名为 HDFS(Hadoop Distributed File System, Hadoop分布式文件系统)的分布式文件系统，基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件，运行在集群的商品硬件上。它是容错的，可伸缩的，并且非常易于扩展。

01

大数据面试题（五）：Hadoop优化核心高频面试题

1.1、合并小文件：在执行mr任务前将小文件进行合并，大量的小文件会产生大量的map任务，增大map任务装载次数，而任务的装载比较耗时，从而导致 mr 运行较慢。

大数据面试题（五）：Hadoop优化核心高频面试题

1.1、合并小文件：在执行mr任务前将小文件进行合并，大量的小文件会产生大量的map任务，增大map任务装载次数，而任务的装载比较耗时，从而导致 mr 运行较慢。

01

哇！这就是HDFS！

今天是小史生日，为了庆祝自己今年喜提A厂offer，小史叫了二十多个人一起庆生，吕老师、小史姐姐、小林都去啦。

03

大数据-HDFS的API操作

由于 Hadoop 擅长存储大文件，因为大文件的元数据信息比较少，如果 Hadoop集群当中有大量的小文件，那么每个小文件都需要维护一份元数据信息，会大大的增加集群管理元数据的内存压力，所以在实际工作当中，如果有必要一定要将小文件合并成大文件进行一起处理

01

2021年大数据Hadoop（七）：HDFS分布式文件系统简介

在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭