大数据开发：Hadoop技术原理简介

成都加米谷大数据

修改于 2021-07-23 18:12:52

1.2K0

在大数据技术体系当中，Hadoop技术框架无疑是重点当中的重点，目前主流的大数据开发任务，都是基于Hadoop来进行的。对于很多初入门或者想要学习大数据的同学们，对于大数据Hadoop原理想必是比较好奇的，今天我们就主要为大家分享大数据Hadoop技术体系详解。

关于Hadoop，大家都知道这是目前市面上主流的大数据都在用的框架，通过分布式存储和分布式计算来解决海量数据处理的问题。目前Hadoop已经更新到最新的3.0版本，从最初的1.0版本到现在，也在不断更新和优化。

Hadoop的官方定义，是开源的大数据框架，可运行在大规模集群上，进行分布式的存储和计算，大数据Hadoop原理，就是基于Hadoop，能够高效地处理海量数据的分布式并行程序，将其运行于成百上千个节点组成的大规模计算机集群上。

Hadoop的核心架构，主要就是HDFS和MapReduce，这两者之中，HDFS为海量数据提供分布式存储，MapReduce为海量数据提供分布式计算框架，通过分布式结构来完成对海量数据的更高效的处理和运算。

大数据Hadoop原理，主要就在于如何通过HDFS和MapReduce实现大数据处理的工作的。

HDFS，包括三个重要角色：NameNode、DataNode、Client。

NameNode：将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等；

DataNode：是Slave节点（从节点），是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode；

Client：切分文件；访问HDFS；与NameNode交互，获得文件位置信息；与DataNode交互，读取和写入数据。

这其中还涉及到，Block的概念，Block是HDFS中的基本读写单元，HDFS中的文件都是被切割为block进行存储的。

关于大数据Hadoop原理，以上就是今天为大家分享的大数据Hadoop技术体系详解内容了。Hadoop在大数据技术当中处于非常重要的地位，学习大数据，Hadoop技术体系知识是必须要牢牢掌握的。

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度