前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据面试题百日更新_Hadoop专题(Day01)

大数据面试题百日更新_Hadoop专题(Day01)

作者头像
Maynor
发布2021-04-09 15:30:52
2940
发布2021-04-09 15:30:52
举报

文章目录

Hadoop

hadoop 中常问的有三块,第一:存储,问到存储,就把 HDFS 相关的知识点拿出 来;第二:计算框架(MapReduce);第三:资源调度框架(yarn)

  1. 请说下 HDFS 读写流程 这个问题虽然见过无数次,面试官问过无数次,但是就是有人不能完整的说下来,所以 请务必记住。并且很多问题都是从 HDFS 读写流程中引申出来的

hdfs 写文件过程

1.客户端发起文件上传请求,通过RPC与NN(NameNode)建立通讯,NN根据检查文件,父目录是否已存在做出反馈 2.客户端请求第一个block该传输到哪些DN(DataNode)上; 3.NN根据配置文件中机架感知原理及备份数量进行文件分配,返回可用的DN地址,如:A、B、C 4.客户端请求3台DN中的一台A上传数据(本质是RPC调用,建立pipeline),A收到后传给B,B传给C,将整个管道建立起来,后逐级返回客户端。 5.客户端开始往A传第一个block(先进行本地缓存,以packet为单位,每个packet64k),A收到后给B,B传给C,A每传一个都会等待应答。 6.数据被切分成一个个packet在pipeline依次传输,收到后反方向逐个发送ack正确应答命令,最终有第一个DN节点A将pipelineack发送给client; 7,关闭写入流; 8.当一个block完成后,client进行第二个block传输;

在这里插入图片描述
在这里插入图片描述

HDFS 读流程

详细步骤: 1)客户端通过Distributed FileSystem向namenode请求下载文件,namenode通过查询元数据, 找到文件块所在的datanode地址。 2)挑选一台datanode(就近原则,然后随机)服务器,请求读取数据。 3)datanode开始传输数据给客户端(从磁盘里面读取数据输入流,以packet为单位来做校验,大 小为64k)。 4)客户端以packet为单位接收,先在本地缓存,然后写入目标文件。

另一版本:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-03-20 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • Hadoop
    • hdfs 写文件过程
      • HDFS 读流程
      相关产品与服务
      大数据
      全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档