大数据学院院长

大数据技术

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

如何运用「云、端融合的数智化安全体系」高效护航数据安全

左手AI，右手安全 —— 一汽丰田数字化转型之路

Hadoop HDFS的快照（Snapshot）是一个全部文件系统、或者某个目录在某一时刻的镜像。这里其实可以把HDFS的快照理解成是HDFS提供的一种备份机制。快照应用在以下场景中：

【赵渝强老师】Hadoop HDFS的快照

Sqoop是SQL To Hadoop的简称，它是一款开源的工具，主要用于在Hadoop（Hive）与传统的数据库（Oracle、MySQL等）间进行数据的传递。通过使用Sqoop可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop是基于MapReduce完成数据的交换，因此在使用Sqoop之前需要部署Hadoop环境；另一方面，由于Sqoop交换的是关系型数据库中的数据，因此底层需要JDBC驱动的支持。

【赵渝强老师】大数据交换引擎Sqoop

HBase的逻辑存储结构主要包括：命名空间（NameSpace）、表（Table）和列族（Column Family）。视频讲解如下：

【赵渝强老师】HBase的逻辑存储结构

Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机）之上，并兼容现有的Java程序。因此，要安装Scala环境之前，首先需要安装Java的JDK。学习Scala编程语言，将为后续学习Spark和Flink奠定基础。视频讲解如下:

【赵渝强老师】Scala编程语言

在Hadoop HDFS的体系架构中，包含了三个组成部分。它们分别是：NameNode、DataNode和SecondaryNameNode。下图摘至Hadoop官方的网站，它说明了HDFS的体系架构。

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

Kafka消费者组中的消息消费模型有两种，即：推送模式（push）和拉取模式（pull）。视频讲解如下：

【赵渝强老师】Kafka消息的消费模式

消费者就是从Kafka集群消费数据的客户端，下图展示了一个消费者从主题中消费数据的模型。

【赵渝强老师】Kafka的消费者与消费者组

Kafka生产者有三种方式进行消息的发送，这三种方式区别在于对于消息是否正常到达的处理。视频讲解如下：

【赵渝强老师】Kafka生产者的消息发送方式

Kafka的生产者Producer将消息序列化之后，发送到对应主题的指定分区上。下图为展示了生产者的执行过程。

【赵渝强老师】Kafka生产者的执行过程

Spark RDD通过persist方法或cache方法可以将计算结果的缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD才会被缓存在计算节点的内存中并供后面重用。下面是persist方法或cache方法的函数定义：

【赵渝强老师】Spark RDD的缓存机制

由于Spark的计算是在内存中完成，因此任务执行的生命周期lineage（血统）越长，执行出错的概念就会越大。Spark通过检查点Checkpoint的方式，将RDD的状态写入磁盘进行持久化的保存从而支持容错。如果在检查点之后有节点出现了问题，Spark只需要从检查点的位置开始重新执行lineage就可以了，这样就减少了开销。设置checkpoint的目录，可以是本地的文件夹，也可以是HDFS。

【赵渝强老师】Spark的容错机制：检查点

Spark RDD彼此之间会存在一定的依赖关系。依赖关系有两种不同的类型：窄依赖和宽依赖。

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Hive的分区表跟Oracle、MySQL中分区表的概念是一样的。当表上建立了分区，就会根据分区的条件从物理存储上将表中的数据进行分隔存储。而当执行查询语句时候，也会根据分区的条件扫描特定分区中的数据，从而避免全表扫描以提高查询的效率。Hive分区表中的每个分区将会在HDFS上创建一个目录，分区中的数据则是该目录下的文件。在执行查询语句时，可以通过SQL的执行计划了解到是否在查询的时候扫描的特定的分区。视频讲解如下：

【赵渝强老师】Hive的分区表

Hive是基于HDFS之上的数据仓库，它把所有的数据存储在HDFS中，Hive并没有专门的数据存储格式。当在Hive中创建了表，可以使用load语句将本地或者HDFS上的数据加载到表中，从而使用SQL语句进行分析和处理。

【赵渝强老师】Hive的内部表与外部表

由于在HA架构中包含的节点比较多，在进行实际部署的时候需要做好集群的规划。图14.9一共使用了4个节点来部署HDFS HA，它们分别是：bigdata112、bigdata113、bigdata114和bigdata115。由于Hadoop默认包含了HDFS和Yarn，因此在部署HDFS HA的时候，也可以同时部署Yarn的HA。每个节点上部署的服务如下表所示：

【赵渝强老师】基于ZooKeeper实现Hadoop HA

大数据体系架构中的核心组件都是主从架构，即：存在一个主节点和多个从节点，从而组成一个分布式环境。下图为展示了大数据体系中主从架构的相关组件。

​【赵渝强老师】大数据主从架构的单点故障

大数据体系架构中的组件非常多，每个组件又属于不同的生态圈系统。从最早的Hadoop生态圈体系开始，逐步有了Spark生态圈体系和Flink生态圈体系。因此在学习大数据之前有必要了解一下每一个生态圈体系中具体包含哪些组件，以及它们的作用又是什么。

【赵渝强老师】大数据生态圈中的组件

大数据平台所要解决的问题是数据的存储和数据的计算，其核心思想采用的是分布式集群的思想。另一方面，分布式集群的思想在Google的技术系统中得到了很好的应用。因此Google将其核心技术的思想以论文的形式公开发表出来，这就是"Google的三驾马车"，即：Google的文件系统、MapReduce分布式计算模型和BigTable大表。这三篇论文奠定了大数据生态圈体系中的技术核心，从而有了基于Java的实现框架------Hadoop生态圈体系。进一步发展起来了后续的Spark生态圈体系和Flink生态圈体系。

【赵渝强老师】大数据技术的理论基础

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，它是Spark中最基本、也是最重要的的数据模型。它由分区组成，每个分区被一个Spark的Worker从节点处理，从而支持分布式的并行计算。RDD通过检查点Checkpoint的方式提供自动容错的功能，并且具有位置感知性调度和可伸缩的特性。通过RDD也提供缓存的机制，可以极大地提高数据处理的速度。

【赵渝强老师】Spark中的RDD

在最新的Hadoop版本中又实现了基于Router的联盟架构，并且在这个架构之上还实现了许多增强集群管理能力的特性。Router将挂载表从客户端中抽离了出来，解决了ViewFS存在的问题。

【赵渝强老师】基于RBF的HDFS联邦架构

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

腾讯云开发者社区推出了大数据技术专栏，为你提供了大数据技术的相关文章，致力于帮助开发者快速成长与发展。

大数据技术

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐