前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据常见面试知识点(一)

大数据常见面试知识点(一)

作者头像
加米谷大数据
发布2020-07-10 12:50:57
5790
发布2020-07-10 12:50:57
举报
文章被收录于专栏:加米谷大数据加米谷大数据

不少同学在面试大数据岗位时,都会问到常见的面试知识点有哪些。加米谷就为各位同学整理了大数据常见的面试知识点。

为了保证效率和质量,每篇文章发布6个知识点,由简单及难,今天我们从HDFS开始:

一、如何杀死一个job

代码语言:javascript
复制
hadoop job –list./hadoop job -kill job_201212111628_11166

二、删除hdfs 上的/tmp/xxx目录

代码语言:javascript
复制
  hadoop dfs -rm /user/cl/temp/a.txt    hadoop dfs -rmr /user/cl/temp

三、加入一个新的存储节点和删除一个计算节点,需要刷新集群状态命令,怎么操作

HDFS增加节点

方式1:静态添加datanode,停止namenode方式

1.停止namenode

2.修改slaves文件,并更新到各个节点

3.启动namenode

4.执行Hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)

方式2:动态添加datanode,不停namenode方式

1.修改slaves文件,添加需要增加的节点host或者ip,并将其更新到各个节点

2.在datanode中启动执行启动datanode命令。命令:sh hadoop-daemon.sh start datanode

3.可以通过web界面查看节点添加情况。或使用命令:sh hadoop dfsadmin -report

4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)

针对第4点,start-balancer.sh可以执行-threshold参数。

-threshold参数是指定平衡的阈值。

-threshold的默认是10,即每个datanode节点的实际hdfs存储使用量/集群hdfs存储量

举例:

datanode hdfs使用量1.2G;

集群总hdfs存储量10T即10G;

则t值为1.2/10 = 0.12;

当执行balance的-t参数小于0.12时,集群进行balance;

命令为:start-balancer.sh -threshold 0.1

注:

1. balance命令可以在namenode或者datanode上启动;

可以随时停止balance命令。

balance的默认带宽是1M/s。

2. slave文件是用于重启时使用。集群的start和stop需要读取slave文件。

启用datanode时只要在hdfs-site中配置了namenode位置,就可以将信息push给namenode。

查看namenode的http管理界面,可查看节点添加情况。

HDFS删除节点

方式1:通过dead方式(namenode上):

1. sh hadoop dfsadmin -refreshServiceAcl

说明:dead方式并未修改slave文件和hdfs-site文件。

所以在集群重启时,该节点不会被添加到namenode的管理中。

此次在namenode上进行,其他节点可另行实验。,该命令会将该节点状态置为dead。

-

方式2:通过decommission方式:

a) 修改hdfs-site,添加exclude字段中的排除的节点。

b) 执行sh hadoop dfsadmin -refreshNodes,强制刷新。

c) 查看节点状态,该节点的状态为decommission。

说明:decommission方式修改了hdfs-site文件,未修改slave文件。

所以集群重启时,该节点虽然会被启动为datanode,但是由于添加了exclude,所以namenode会将该节点置为decommission。

此时namenode不会与该节点进行hdfs相关通信。也即exclude起到了一个防火墙的作用。

注:

1. 如果在某个节点单独停止datanode,那么在namenode的统计中仍会出现该节点的datanode信息。

此时可通过dead或者decommission(退役)方式下线机器。

四、简述一下hdfs的数据压缩算法,工作中用的是那种算法,为什么?

1.在HDFS之上将数据压缩好后,再存储到HDFS

2.在HDFS内部支持数据压缩,这里又可以分为几种方法:

2.1 压缩工作在DataNode上完成,这里又分两种方法:

2.1.1 数据接收完后,再压缩

这个方法对HDFS的改动最小,但效果最低,只需要在block文件close后,调用压缩工具,将block文件压缩一下,然后再打开block文件时解压一下即可,几行代码就可以搞定

2.1.2 边接收数据边压缩,使用第三方提供的压缩库

效率和复杂度折中方法,Hook住系统的write和read操作,在数据写入磁盘之前,先压缩一下,但write和read对外的接口行为不变,比如:原始大小为100KB的数据,压缩后大小为10KB,当写入100KB后,仍对调用者返回100KB,而不是10KB

2.2 压缩工作交给DFSClient做,DataNode只接收和存储

这个方法效果最高,压缩分散地推给了HDFS客户端,但DataNode需要知道什么时候一个block块接收完成了。

推荐最终实现采用2.2这个方法,该方法需要修改的HDFS代码量也不大,但效果最高。

五、Datanode在什么情况下不会备份?

hadoop保存的三个副本如果不算备份的话,那就是在正常运行的情况下不会备份,也是就是在设置副本为1的时候不会备份,说白了就是单台机器!!

六、 三个 datanode,当有一个datanode出现错误会怎样?

第一不会给储存带来影响,因为有其他的副本保存着,不过建议尽快修复,第二会影响运算的效率,机器少了,reduce在保存数据时选择就少了,一个数据的块就大了所以就会慢。

Datanode以数据块作为容错单位 通常一个数据块会备份到三个datanode上,如果一个datanode出错,则回去其他备份数据块的datanode上读取,并且会把这个datanode上的数据块再复制一份 以达到备份的效果!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 不少同学在面试大数据岗位时,都会问到常见的面试知识点有哪些。加米谷就为各位同学整理了大数据常见的面试知识点。
  • 为了保证效率和质量,每篇文章发布6个知识点,由简单及难,今天我们从HDFS开始:
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档