开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >hadoop之为什么不能一直格式化namenode

hadoop之为什么不能一直格式化namenode

作者头像

西西嘛呦

发布于 2020-08-26 02:00:50

发布于 2020-08-26 02:00:50

7680

举报

文章被收录于专栏：数据分析与挖掘数据分析与挖掘

格式化NameNode会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到以往数据，所以，格式化NameNode前，先关闭掉NameNode和DataNode，然后一定要删除data数据和log日志。最后再进行格式化。

在hadoop-2.9.2/data/tmp/dfs/name/current/VERSION中可查到NameNode标识id

在hadoop-2.9.2/data/tmp/dfs/data/current/VERSION中可查到DataNode标识id

可以看出它们的集群Id是要保持一致的。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020-03-01 ，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

鹅厂写码13年，我总结的程序员高效阅读方法论

进程，线程，协程 - 你了解多少？

微服务与分布式系统设计看这篇就够了！

腾讯文档表格卡顿指标探索之路

从Hadoop1.0到Hadoop2.0架构的优化和发展探索详解

微服务架构：由浅入深带你了解底层注册中心

hadoop伪分布式之启动HDFS并运行MR程序（WordCount）

hadoop 大数据 node.js bash bash 指令

在hadoop-2.9.2下etc/hadoop/core-site.xml中配置：

西西嘛呦

2020/08/26

4820

hadoop伪分布式之启动HDFS并运行MR程序（WordCount）

大数据篇---hadoop学习一、搭建hadoop环境(centos7)二、hadoop知识点

unix hadoop yarn mapreduce tcp/ip

大咖揭秘Java人都栽在了哪？点击免费领取《大厂面试清单》，攻克面试难关~>>>

用户2337871

2020/11/13

4970

大数据篇---hadoop学习一、搭建hadoop环境(centos7)二、hadoop知识点

一次误格式化引发的hdfs集群不可用

我们知道hadoop集群搭建之后，并不能马上启动集群进行使用，需要对namenode做格式化。具体执行的命令：hadoop namenode -format。namenode格式化是删除hdfs-site.xml中dfs.namenode.name.dir指定目录下已有的文件信息（包含fsimage和edit文件），然后在该目录下创建VERSION等文件。初次使用集群必须执行，但对已有数据的集群，会导致集群不可用。如若是非HA集群，会导致丢失所有数据的严重后果。

EMR小助手

2020/10/30

1.6K0

Hadoop框架：NameNode工作机制详解

node.js 安全存储大数据

NameNode运行时元数据需要存放在内存中，同时在磁盘中备份元数据的fsImage，当元数据有更新或者添加元数据时，修改内存中的元数据会把操作记录追加到edits日志文件中，这里不包括查询操作。如果NameNode节点发生故障，可以通过FsImage和Edits的合并，重新把元数据加载到内存中，此时SecondaryNameNode专门用于fsImage和edits的合并。

知了一笑

2020/11/02

7550

Hadoop框架：NameNode工作机制详解

Hadoop hdfs配置

主机 hadoop hdfs 配置网络

网络情况：网络为：192.168.80.0，网关为192.168.80.2，掩码为255.255.255.0，域名202.196.32.1。

用户9184480

2024/12/19

1260

Hadoop伪分布式配置

xml http yarn node.js 大数据

http://localhost:50070/dfshealth.html#tab-overview

羊羽shine

2019/08/24

7420

Hadoop伪分布式如何配置Namenode集群？

大数据处理套件 TBDS 大数据 emr

1、配置配置文件(一): vi etc/hadoop/core-site.xml

Kami米雅

2021/11/08

5560

Hadoop伪分布式如何配置Namenode集群？

【九】Hadoop3.3.4HA高可用配置

ubuntu hadoop zookeeper

在 Hadoop 生态系统中，NameNode 是文件系统的中心管理器，负责管理 HDFS 的元数据。为了避免单点故障（Single Point of Failure，SPOF），Hadoop 引入了 NameNode 的高可用性架构。主要组件包括：

火之高兴

2024/08/04

2400

hadoop之完全分布式集群配置（centos7）

hadoop bash bash 指令 ssh

克隆好之后需要做三件事：1、更改主机名称 2、修改ip地址 3、将ip地址和对应的主机号加入到/etc/hosts文件中

西西嘛呦

2020/08/26

4780

hadoop之完全分布式集群配置（centos7）

jdk xml hadoop ssh yarn

mac下安装Hadoop 主要是介绍在Mac系统下安装Hadoop的相关步骤，包含：安装包的下载：JDK和``Hadoop` JDK 的安装和配置 SSH的配置，实现免密登陆 hadoop的安装与配置 hadoop集群搭建基于Hadoop2.9.2使用云服务器搭建hadoop集群安装包下载下载JDK 下载Hadoop 主机名和IP的映射关系实现编辑/etc/hosts文件 >> vim /etc/hosts # 127.0.0.1 # 写入主机IP地址和名称 172.20.18.3

皮大大

2021/03/02

2650

启动hadoop，jps没有datanode

启动./start-dfs.sh后jps发现没有datanode进程。查看日志 2018-02-27 13:54:27,918 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting 2018-02-27 13:54:29,140 INFO org.apache.hadoop.hdfs.server.common.Storage: Lock on /home/hadoop/app/tmp/dfs/data/in_use.lock

sparkle123

2018/04/26

4.5K0

Hadoop框架：单服务下伪分布式集群搭建

网站 mapreduce hadoop 腾讯云测试服务 yarn

以下配置文件所在路径：/opt/hadoop2.7/etc/hadoop，这里是Linux环境，脚本配置sh格式。

知了一笑

2020/09/18

3260

高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南

node.js ssh xml http 大数据

192.168.1.84 hadoop84 #namenode1,resourcemanager

白石

2019/08/23

4910

hadoop安装可能遇到的问题Incompatible namespaceIDs

如果大家在安装的时候遇到问题，或者按步骤安装完后却不能运行Hadoop，那么建议仔细查看日志信息，Hadoop记录了详尽的日志信息，日志文件保存在logs文件夹内。无论是启动，还是以后会经常用到的MapReduce中的每一个job，以及HDFS等相关信息，Hadoop均存有日志文件以供分析。例如： NameNode和DataNode的namespaceID不一致，这个错误是很多人在安装时会遇到的，日志信息为： java.io.IOException:Incompatible namespaceIDs

Albert陈凯

2018/04/08

7930

hadoop集群运行jps命令以后Datanode节点未启动的解决办法

大数据 hadoop

该文讲述了在Hadoop集群运行时，可能会遇到DataNode节点未启动的问题。该问题可能是由于集群ID不一致导致的。文章提供了两个解决方法：1.修改core-site.xml文件，将集群ID设置为相同的值；2.删除hdfs-site.xml和core-site.xml两个文件，重新执行格式化命令，然后启动集群。

别先生

2018/01/02

3.7K0

hadoop运行环境搭建

hadoop hive yarn 分布式 linux

森哥/洋哥hadoop系列，非常适合初学者： Hive 元数据表结构详解 HDFS学习：HDFS机架感知与副本放置策略 Yarn【label-based scheduling】实战总结（二） Yarn

大数据和云计算技术

2018/03/08

1.8K0

Hadoop部署配置及运行调试(上)

hadoop xml 网站大数据文件存储

本地模式是最简单的部署模式，所有模块都运行在一台机器的单个JVM进程中，使用的是本地文件系统，而不是HDFS. 本地模式主要是用于本地开发过程中的运行调。下载Hadoop安装后不用进行任何的配置，默认的就是本地模式。

数人之道

2022/01/07

1.1K0

Hadoop部署配置及运行调试(上)

快速学习-NameNode和SecondaryNameNode

大数据安全

思考：NameNode中的元数据是存储在哪里的？首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件(只进行追加操作，效率很高)。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。但是，如果长时间添加数据到Edits中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行FsImage和Edits的合并，如果这个操作由NameNode节点完成，又会效率过低。因此，引入一个新的节点SecondaryNamenode，专门用于FsImage和Edits的合并。 NN和2NN工作机制，如图3-14所示。

cwl_java

2020/02/19

4980

如何禁止Namenode格式化

众所周知，Namenode存放Hadoop集群的元数据，Datanode存放数据。如果Namenode被格式化，那意味着整个集群的数据将全部丢失。除非元数据有备份，可以通过技术手段恢复，否则丢失的数据将不可恢复，这对于生产环境的集群而言，无疑是致命的。本文主要讲述如何禁止Namenode格式化，为你的集群增加一分安全保障。

Fayson

2018/09/29

1.7K0

执行start-dfs.sh后，datenode没有启动的最全解决办法（全网最全）

配置数据 dfs sh 集群

看到说没有找到datanode,然后我就去检查了一下进程，发现确实没有看到datanode，在使用start-dfs.sh的时候，datanode没有启动

小白的大数据之旅

2024/11/20

2200

执行start-dfs.sh后，datenode没有启动的最全解决办法（全网最全）

相关推荐

hadoop伪分布式之启动HDFS并运行MR程序（WordCount）

更多 >

社区富文本编辑器全新改版！诚邀体验～

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验