什么是Hadoop?
Apache Hadoop 是一种开源框架,用于高效存储和处理从 GB 级到 PB 级的大型数据集。利用 Hadoop,可以将多台计算机组成集群以便更快地并行分析海量数据集,而不是使用一台大型计算机来存储和处理数据。
Hadoop 由四个主要模块组成:
在学习大数据相关技术的过程中,我们需要熟悉Hadoop生态系统。对于Hadoop,我们需要掌握其安装和部署、系统架构、工作机制、组件功能、IO、管理与维护以及实践应用等。
一般可将大数据类项目的技术栈分为传输采集层、存储层、计算层、工具层与服务层。
在大数据的传输采集层,我们需要掌握其采集方法和常用的数据采集工具等,如下图所示。
ETL过程是数据集成的第一步,也是构建数据仓库的重要步骤。当前的大数据项目的数据来源复杂多样,包括业务数据库,日志数据,图片和视屏等。数据采集的形式也随着采集数据的类型与来源变化。为了满足多种业务需求,数据采集工具也更加丰富。常用的数据采集工具包括Sqoop、Flume、Logstash和Filebeat等。
在数据存储层,我们需要掌握两种存储技术HDFS和HBase,如下图所示。
上篇先介绍传输采集层与存储层需要重点掌握的内容,下篇将介绍计算层、工具层、服务层需要重点掌握的内容,未完待续~
本文分享自 rainbowzhou的成长足迹 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!