文章/答案/技术大牛

发布

首页视频【赵渝强老师】HDFS数据上传的过程

【赵渝强老师】HDFS数据上传的过程原创

2024-08-082024-08-08 09:21:59播放351

点赞0 收藏 0

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
本节课我们来讨论一下HDFS数据上传的过程。HDFS是hadoop的分布式文件系统，全称是hadoop distributed file system. 这里可以把HDFS看成是一个网盘，通过数据的上传和数据的下载，我们可以把海量的数据以文件形式存储在HDFS中。下面具体讨论一下HDFS数据上传的过程。HDFS是客户端、服务器端架构，Name node是HDFS的主节点，负责接收客户端的请求，数据最终会以数据块的形式存储在data notde上。这里为了方便说明，一共有三个data notde客户端执行命令上传一个文件，如A点MP4，假设文件大小为200兆，该文件会被切分成数据块的形式，最终保存在data notde上。在默认的情况下，HDFS的数据块大小是128兆。注意，数据块是一个逻辑大小，它和物理大小不是一一对应的。在H。
01:00
DFS内部会由file system对象负责执行该命令。第一步，File system对象会创建DFS client对象。第二步，由DFS client对象与name node建立RPC连接，并请求name node生成文件的原信息。这里的RPC全称是remote procedure Co, 中文是远程过程调用。第三步，Name notde负责生成文件的原信息。原信息中包含如下内容，如文件名大小、数据块个数以及数据块的存储位置。由于上传的A点MP4文件大小为200兆，因此原信息中包含两个数据块的位置信息。第4步，Name node将生成的源信息返回给file system对象。第5步，由file system对象创建输出流output stream对象。第6步，Output stream对象根据第4步得到的原信息把第一个数据块上传到data node1上。第7步和第8步，当成功上传了第一个数据块后，HDFS.
02:00
自动触发数据块的水平复制，将第一个数据块复制到data notde2和data notde3上，从而满足冗誉度的要求。第9步，Output stream对象通过使用循环把第二个数据块进行上传，上传成功后再循环执行第7步和第8步，直到把所有的数据块上传到HDFS。从这个过程中可以看出，当name node返回文件的源信息后，整个上传的过程是客户端与data node直接进行操作，这个操作过程是不需要通过name node的。理解了这个过程后，对进一步查看HDFS源码是非常有帮助的，因为这个过程中涉及的对象都是源码中的类。现在你已经知道HDFS数据上传的过程了，那你知道HDFS数据下载的过程吗？欢迎评论区留言讨论好了记得点加号关注赵玉强老师。

展开

我来说两句

0 条评论

登录后参与评论

作者

赵渝强老师

【合辑】大数据技术

（30/59）

1分9秒

【赵渝强老师】Hive的单字段动态分区表

1K0

1分9秒

【赵渝强老师】Hive的半自动动态分区表

6640

1分8秒

【赵渝强老师】Hive的多字段全动态分区表

4680

1分14秒

【赵渝强老师】Hive的分区表

3770

1分11秒

【赵渝强老师】Hive的静态分区表

6530

1分24秒

【赵渝强老师】Hive的数据模型

3770

1分34秒

【赵渝强老师】Hive的内部表

3730

1分25秒

【赵渝强老师】Hive的外部表

3690

1分41秒

【赵渝强老师】大数据技术的理论基础

3860

1分33秒

【赵渝强老师】大数据生态圈中的组件

3660

1分24秒

【赵渝强老师】大数据主从架构的单点故障

3420

1分35秒

【赵渝强老师】HDFS的HA

3720

3分53秒

【赵渝强老师】数据仓库与大数据

9770

1分15秒

【赵渝强老师】Spark中的RDD

1.1K0

2分27秒

【赵渝强老师】基于RBF的HDFS联邦架构

2.3K0

1分41秒

【赵渝强老师】Spark中的DStream

1.1K0

1分25秒

【赵渝强老师】Spark中的DataFrame

3540

2分29秒

【赵渝强老师】基于ViewFS的HDFS联邦架构

1.8K0

2分11秒

【赵渝强老师】Kafka分区的副本机制

3930

1分28秒

【赵渝强老师】Kafka的主题与分区

3530

2分39秒

【赵渝强老师】阿里云大数据生态圈体系

3660

2分14秒

【赵渝强老师】MapReduce计算模型

3570

2分33秒

【赵渝强老师】Hive的体系架构

3790

2分22秒

【赵渝强老师】HBase的表结构

3570

2分35秒

【赵渝强老师】HBase的体系架构

1.4K0

2分47秒

【赵渝强老师】Kafka的体系架构

3620

2分0秒

【赵渝强老师】数据集成的大数据流批一体架构

3880

2分18秒

【赵渝强老师】数据仓库的流批一体架构

3950

2分22秒

【赵渝强老师】数据湖的流批一体架构

3640

2分53秒

【赵渝强老师】HDFS数据上传的过程

3510

3分20秒

【赵渝强老师】Hadoop的本地模式

3850

2分43秒

【赵渝强老师】HDFS数据下载的过程

3700

3分20秒

【赵渝强老师】Flink生态圈组件

3570

3分14秒

【赵渝强老师】Yarn的资源调度策略

3430

3分48秒

【赵渝强老师】Spark生态圈组件

3630

3分24秒

【赵渝强老师】Hadoop生态圈组件

3600

3分44秒

【赵渝强老师】大数据平台的Lambda架构

1.3K0

3分4秒

【赵渝强老师】大数据平台的Kappa架构

3740

1分51秒

【赵渝强老师】SparkRDD的窄依赖关系

3730

1分49秒

【赵渝强老师】Spark RDD的宽依赖关系

3830

2分3秒

【赵渝强老师】如何划分Spark任务的执行阶段

1.4K0

1分36秒

【赵渝强老师】Spark的容错机制-检查点

3720

1分31秒

【赵渝强老师】Spark RDD的缓存机制

9210

1分36秒

【赵渝强老师】Kafka生产者的执行过程

8300

1分44秒

【赵渝强老师】Kafka生产者的消息发送方式

8390

1分37秒

【赵渝强老师】Kafka的消费者与消费者组

8270

1分32秒

【赵渝强老师】Kafka消息的消费模式

8130

1分58秒

【赵渝强老师】HDFS的体系架构

1.7K0

1分55秒

【赵渝强老师】大数据的学习路线

1.1K0

1分48秒

【赵渝强老师】为什么Spark中不存在真正的实时计算

3590

4分11秒

【赵渝强老师】大数据平台的Lambda架构

1.4K0

3分41秒

【赵渝强老师】大数据平台的Kappa架构

3460

3分54秒

【赵渝强老师】Hadoop生态圈组件

6850

3分32秒

【赵渝强老师】Spark生态圈组件

3700

3分35秒

【赵渝强老师】Flink生态圈组件

3610

1分4秒

【赵渝强老师】大数据交换引擎Sqoop

3620

1分22秒

【赵渝强老师】Hadoop HDFS的快照

3560

1分31秒

【赵渝强老师】大数据日志采集引擎Flume

3570

1分38秒

【赵渝强老师】大数据的湖仓一体架构

1.1K0

【赵渝强老师】HDFS数据上传的过程原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐