大数据测试能力--大数据开发技术(上)

rainbowzhouj

发布于 2023-03-16 14:51:03

2490

发布于 2023-03-16 14:51:03

文章被收录于专栏：rainbowzhou的成长足迹

什么是Hadoop？

Apache Hadoop 是一种开源框架，用于高效存储和处理从 GB 级到 PB 级的大型数据集。利用 Hadoop，可以将多台计算机组成集群以便更快地并行分析海量数据集，而不是使用一台大型计算机来存储和处理数据。

Hadoop的组成？

Hadoop 由四个主要模块组成：

HDFS（Hadoop Distributed File System）——一个在标准或低端硬件上运行的分布式文件系统。除了更高容错和原生支持大型数据集，HDFS 还提供比传统文件系统更出色的数据吞吐量。
YARN（Yet Another Resource Negotiator）--用于作业调度和集群资源管理的框架。
MapReduce--基于YARN的系统，用于并行处理大数据集。
Hadoop Common--支持其他Hadoop模块的通用实用程序。

Hadoop生态体系

在学习大数据相关技术的过程中，我们需要熟悉Hadoop生态系统。对于Hadoop，我们需要掌握其安装和部署、系统架构、工作机制、组件功能、IO、管理与维护以及实践应用等。

推荐的学习资源：《Hadoop权威指南（第4版）》、《Hadoop 3.x大数据开发实战》和Hadoop中文网等。

一般可将大数据类项目的技术栈分为传输采集层、存储层、计算层、工具层与服务层。

传输采集层

在大数据的传输采集层，我们需要掌握其采集方法和常用的数据采集工具等，如下图所示。

ETL过程是数据集成的第一步，也是构建数据仓库的重要步骤。当前的大数据项目的数据来源复杂多样，包括业务数据库，日志数据，图片和视屏等。数据采集的形式也随着采集数据的类型与来源变化。为了满足多种业务需求，数据采集工具也更加丰富。常用的数据采集工具包括Sqoop、Flume、Logstash和Filebeat等。

存储层

在数据存储层，我们需要掌握两种存储技术HDFS和HBase，如下图所示。

HDFS是一个高可靠、高吞吐量的分布式文件系统。关于HDFS我们需要掌握其系统架构与工作机制、组件功能、存储原理、数据读写流程、命令行操作与管理命令以及高可用与容错机制等。
HBase是一个构建在HDFS之上的分布式、面向列的存储系统。关于HBase我们需要掌握它的安装与部署、系统架构与工作机制、设计思想、存储格式、常用命令、应用场景及特点以及优化技巧等。

上篇先介绍传输采集层与存储层需要重点掌握的内容，下篇将介绍计算层、工具层、服务层需要重点掌握的内容，未完待续～

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-02-12，如有侵权请联系 cloudcommunity@tencent.com 删除

hadoop