前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据开发:Hadoop HDFS安全模式

大数据开发:Hadoop HDFS安全模式

作者头像
成都加米谷大数据
修改2021-07-01 18:16:55
3620
修改2021-07-01 18:16:55
举报
文章被收录于专栏:大数据开发大数据开发

HDFS作为Hadoop框架下的分布式文件系统,其中包括的知识点是非常繁杂的,尤其在理论学习阶段,如果不多花点时间学透彻,在后续的学习当中也会拖累学习进度。今天的大数据开发学习分享,我们就来讲讲Hadoop HDFS安全模式相关的问题。

大数据学习:Hadoop HDFS安全模式
大数据学习:Hadoop HDFS安全模式

安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。当集群启动的时候,会首先进入安全模式,当系统处于安全模式时会检查数据块的完整性。

假设我们设置的副本数(即参数dfs.replication)是5,那么在datanode上就应该有5个副本存在,假设只存在3个副本,那么比例就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的副本的副本率0.999,我们的副本率0.6明显小于0.99,因此系统会自动的复制副本到其他的dataNode,使得副本率不小于0.999。如果系统中有8个副本,超过我们设定的5个副本,那么系统也会删除多余的3个副本。

在安全模式下,系统会处于只读状态,NameNode不会处理任何数据块的复制和删除命令。DataNode会向NameNode上传他们数据块的列表,让NameNode得到数据块的位置信息,并对每个文件对应的数据块副本进行统计:

•当最小副本条件满足时,即:一定比例的数据块都到达最小副本数,系统会在30s后退出安全模式。

•当最小的副本条件未达到要求时,就会对副本数不足的数据块安排DataNode进行复制,直到达到最小的副本数。

注意:在启动一个刚刚格式化的HDFS时由于没有数据块,所以系统不会进入安全模式。

HDFS安全模式操作命令:

hdfs dfsadmin  -safemode  get #查看安全模式状态

hdfs dfsadmin  -safemode enter #进入安全模式

hdfs dfsadmin  -safemode leave #离开安全模式

安全模式相关参数在hdfs-site.xml 文件中配置:

<!-- 指定退出条件,需要达到最小副本数的数据块比例,默认是 0.999 -->

<property>

    <name>dfs.namenode.safemode.threshold-pct</name>

    <value>0.999f</value>

</property>

<!-- 指定系统退出安全模式时需要的延迟时间,单位为毫秒,默认为 30s -->

<property>

    <name>dfs.namenode.safemode.extension</name>

    <value>30000</value>

</property>

如果 NameNode 长时间处于安全模式,可能是因为 hdfs 的数据损坏过多。使用命令hadoop fsck / 检查 hdfs 文件分布的情况。

关于大数据开发学习,Hadoop HDFS安全模式,以上就为大家做了简单的介绍了。HDFS作为分布式文件系统,为了保证数据存储的安全性和可靠性,是做出了非常严密的设计的,这也是安全模式存在的重要原因。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术对外提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、presto、Iceberg、Alluxio 等,以快速构建企业级数据湖、数据仓库。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档