强制DataNode向NameNode上报blocks

正常情况下,什么时候上报blocks,是由NameNode通过回复心跳响应的方式触发的。 一次机房搬迁中,原机房hadoop版本为2.7.2,新机房版本为2.8.0,采用先扩容再缩容的方式搬迁。由于新旧机房机型不同和磁盘数不同,操作过程搞混过hdfs-site.xml,因为两种不同的机型,hdfs-site.xml不便做到相同,导致了NameNode报大量“missing block”。 然而依据NameNode所报信息,在DataNode能找到那些被标记为“missing”的blocks。修复配置问题后,“missing block”并没有消失。结合DataNode源代码,估计是因为DataNode没有向NameNode上报blocks。 结合DataNode的源代码,发现了HDFS自带的工具triggerBlockReport,它可以强制指定的DataNode向NameNode上报块,使用方法为: hdfs dfsadmin -triggerBlockReport datanode_host:ipc_port 如:hdfs dfsadmin -triggerBlockReport 192.168.31.35:50020 正常情况下NameNode启动时,会要求DataNode上报一次blocks(通过fullBlockReportLeaseId值来控制),相关源代码如下: DataNode相关代码(BPServiceActor.java): private void offerService() throws Exception {     HeartbeatResponse resp = sendHeartBeat(requestBlockReportLease); // 向NameNode发向心跳     long fullBlockReportLeaseId = resp.getFullBlockReportLeaseId(); // 心跳响应     boolean forceFullBr = scheduler.forceFullBlockReport.getAndSet(false); // triggerBlockReport强制上报仅一次有效     if (forceFullBr) {         LOG.info("Forcing a full block report to " + nnAddr);     }     if ((fullBlockReportLeaseId != 0) || forceFullBr) {         cmds = blockReport(fullBlockReportLeaseId);         fullBlockReportLeaseId = 0;     } } // NameNode相关代码(FSNamesystem.java): /** * The given node has reported in.  This method should: * 1) Record the heartbeat, so the datanode isn't timed out * 2) Adjust usage stats for future block allocation *  * If a substantial amount of time passed since the last datanode  * heartbeat then request an immediate block report.   *  * @return an array of datanode commands  * @throws IOException */ HeartbeatResponse handleHeartbeat(DatanodeRegistration nodeReg,   StorageReport[] reports, long cacheCapacity, long cacheUsed,   int xceiverCount, int xmitsInProgress, int failedVolumes,   VolumeFailureSummary volumeFailureSummary,   boolean requestFullBlockReportLease) throws IOException {     readLock();     try {         //get datanode commands         final int maxTransfer = blockManager.getMaxReplicationStreams() - xmitsInProgress;         DatanodeCommand[] cmds = blockManager.getDatanodeManager().handleHeartbeat(             nodeReg, reports, blockPoolId, cacheCapacity, cacheUsed,             xceiverCount, maxTransfer, failedVolumes, volumeFailureSummary);         long fullBlockReportLeaseId = 0;         if (requestFullBlockReportLease) {             fullBlockReportLeaseId =  blockManager.requestBlockReportLeaseId(nodeReg);         }         //create ha status         final NNHAStatusHeartbeat haState = new NNHAStatusHeartbeat(             haContext.getState().getServiceState(),             getFSImage().getCorrectLastAppliedOrWrittenTxId());         return new HeartbeatResponse(cmds, haState, rollingUpgradeInfo, fullBlockReportLeaseId);     } finally {         readUnlock("handleHeartbeat");     } }

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏行者悟空

Spark RDD的Shuffle

1933
来自专栏猿人谷

分布式计算Hadoop简介

Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量...

27410
来自专栏智能计算时代

「大数据系列」:Apache Hive 分布式数据仓库项目介绍

Apache Hive™数据仓库软件有助于读取,编写和管理驻留在分布式存储中的大型数据集并使用SQL语法进行查询

5752
来自专栏美图数据技术团队

RDD原理与基本操作 | Spark,从入门到精通

欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,...

2.6K2
来自专栏LhWorld哥陪你聊算法

【Spark篇】---Spark初始

Spark是基于内存的计算框架,性能要优于Mapreduce,可以实现hadoop生态圈中的多个组件,是一个非常优秀的大数据框架,是Apache的顶级项目。On...

1563
来自专栏王小雷

Spark学习之基础相关组件(1)

Spark学习之基础相关组件(1) 1. Spark是一个用来实现快速而通用的集群计算的平台。 2. Spark的一个主要特点是能够在内存中进行计算,因而更快。...

2108
来自专栏灯塔大数据

每周学点大数据 | No.73 在 HDFS 上使用 Spark

编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算...

3777
来自专栏数据科学与人工智能

【Spark研究】用Apache Spark进行大数据处理第二部分:Spark SQL

在Apache Spark文章系列的前一篇文章中,我们学习了什么是Apache Spark框架,以及如何用该框架帮助组织处理大数据处理分析的需求。 Spark ...

29910
来自专栏我是攻城师

Spark 1.3更新概述:176个贡献者,1000+ patches

3174
来自专栏懒人开发

hadoop(1):hadoop概述

hadoop是 Doug Cutting 在 Lucene 之后的一个项目 主要用于 计算 是一个 开源,可靠,可扩展 的分布式计算框架 主要有

1073

扫码关注云+社区

领取腾讯云代金券