前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据测试能力--大数据开发技术(上)

大数据测试能力--大数据开发技术(上)

作者头像
rainbowzhouj
发布2023-03-16 14:51:03
2490
发布2023-03-16 14:51:03
举报
文章被收录于专栏:rainbowzhou的成长足迹

什么是Hadoop?

Apache Hadoop 是一种开源框架,用于高效存储和处理从 GB 级到 PB 级的大型数据集。利用 Hadoop,可以将多台计算机组成集群以便更快地并行分析海量数据集,而不是使用一台大型计算机来存储和处理数据。

Hadoop的组成?

Hadoop 由四个主要模块组成:

  1. HDFS(Hadoop Distributed File System)——一个在标准或低端硬件上运行的分布式文件系统。除了更高容错原生支持大型数据集,HDFS 还提供比传统文件系统更出色的数据吞吐量
  2. YARN(Yet Another Resource Negotiator)--用于作业调度和集群资源管理的框架。
  3. MapReduce--基于YARN的系统,用于并行处理大数据集。
  4. Hadoop Common--支持其他Hadoop模块的通用实用程序。

Hadoop生态体系

在学习大数据相关技术的过程中,我们需要熟悉Hadoop生态系统。对于Hadoop,我们需要掌握其安装和部署、系统架构、工作机制、组件功能、IO、管理与维护以及实践应用等。

  • 推荐的学习资源:《Hadoop权威指南(第4版)》、《Hadoop 3.x大数据开发实战》和Hadoop中文网等。

一般可将大数据类项目的技术栈分为传输采集层、存储层、计算层、工具层与服务层。

传输采集层

在大数据的传输采集层,我们需要掌握其采集方法和常用的数据采集工具等,如下图所示。

ETL过程是数据集成的第一步,也是构建数据仓库的重要步骤。当前的大数据项目的数据来源复杂多样,包括业务数据库,日志数据,图片和视屏等。数据采集的形式也随着采集数据的类型与来源变化。为了满足多种业务需求,数据采集工具也更加丰富。常用的数据采集工具包括Sqoop、Flume、Logstash和Filebeat等。

存储层

在数据存储层,我们需要掌握两种存储技术HDFS和HBase,如下图所示。

  • HDFS是一个高可靠高吞吐量的分布式文件系统。关于HDFS我们需要掌握其系统架构与工作机制、组件功能、存储原理、数据读写流程、命令行操作与管理命令以及高可用与容错机制等。
  • HBase是一个构建在HDFS之上的分布式、面向列的存储系统。关于HBase我们需要掌握它的安装与部署、系统架构与工作机制、设计思想、存储格式、常用命令、应用场景及特点以及优化技巧等。

上篇先介绍传输采集层与存储层需要重点掌握的内容,下篇将介绍计算层、工具层、服务层需要重点掌握的内容,未完待续~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 rainbowzhou的成长足迹 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Hadoop的组成?
  • Hadoop生态体系
    • 传输采集层
      • 存储层
      相关产品与服务
      大数据
      全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档