HDFS,你必须知道,你必须测试

大家好我是漂亮可爱的小小编,快乐伴随生活,资讯开拓视界,笑谈新鲜资讯,品味人生!各位读者老爷好吖,我是你们最爱的小小编,欢迎来到小小编的最新资讯圣地,小小编陪大家一起来品尝了解最新的资讯!

HDFS,你必须要知道,你必须要测试

你必须听说过Hadoop,正确的是小象跑。

Hadoop是众所周知的大数据时代的代表性解决方案。它主要由两部分组成:

HDFS分布式文件存储

MapReduce子萌芽计算框架

前面当我们分析存储解决方案的发展时,我们提到分布式文件存储的出现是解决三个主要问题。存储:可扩展性,高吞吐量,高可靠性

那么Hadoop的核心HDFS如何解决上述三个问题?

实际上,设计系统需要我们考虑其应用场景,然后设计并进行交易 - 它的功能和特点。我们可能会关注这些问题:

1。原始存储格式或特殊存储格式,通过什么格式存储可以方便地管理数据,确保数据迁移和安全。

2。大文件或小文件,适合大文件或小文件存储的文件系统,如何提供I/O效率。

3。数据高度可用或空间利用率高。通过复制技术提高数据可用性将不可避免地降低空间利用率和选择方式。

4。有元数据服务吗?元数据服务是存储关于存储的元数据的信息的服务。要读取和写入数据,您需要连接到元数据服务器以确保一致性。元数据服务的存在势必会产生单点问题和性能瓶颈。

以上四个问题是要测试的关键点!!!

HDFS旨在将大型数据集存储在多台普通计算机上,并提供高可靠性和高吞吐量的服务。通过添加节点支持群集扩展。所以HDFS有自己的设计前提:

1。支持存储大文件非常好,不适合存储大量小文件。

2。流数据以确保高吞吐量而不是低延迟用户响应

3。简单一致,使用场景应该是一次性写入多次读取,不支持多用户写入,并且不支持任意修改文件。

4。冗余备份机制,可靠性空间(Hadoop3引入纠删码机制,擦除代码需要通过计算恢复数据,是时候改变空间,有兴趣可以查看RAID实现)

5移动计算优于移动数据和移动计算优于移动数据,支持大数据处理,提供相关接口。

NameNode

DataNode

数据块

数据块

数据块

数据块

NameNode

NameNode

NameNode

DataNode

NameNode

NameNode

NameNode

NameNode

NameNode

NameNode

NameNode

NameNode

NameNode

DataNode

DataNode

DataNode

数据块

数据块

NameNode

NameNode

数据块

NameNode

数据块

数据块

DataNode

NameNode

DataNode

write flow

NameNode

NameNode

NameNode

DataNode

DataNode

NameNode

DataNode

NameNode

DataNode

DataNode

Data Block

NameNode

DataNode

DataNode

DataNode

DataNode

DataNode

DataNode

DataNode

DataNode

Data Block

DataNode

data block

NameNode

data block

data block

NameNode

NameNode

data block

data block

data block

read flow

NameNode

NameNode

NameNode

数据块

数据块

DataNode

DataNode

数据块

DataNode

数据块

DataNode

DataNode

数据块

NameNode

DataNode

焦点,到测试!!!

今天小小编就和大家聊到这里,欢迎各位读者朋友在下方评论区和小小编一起讨论哦,喜欢小小编的朋友可以点个关注,小小编会每天更新最新最热的娱乐文章哦,给无聊的你来一场及时雨,拜拜~。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181029A13QQU00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券