0925-规划NameNode的heap

Fayson

发布于 2024-05-27 20:19:09

4740

所有 Hadoop 进程都在 Java 虚拟机 (JVM) 上运行，每个守护进程都在集群中主机自己的 JVM 上运行。一般来说，生产集群的HDFS会配置NameNode HA，即有两个NameNode角色，每个NameNode都使用自己的JVM。NameNode JVM的heap预估是个技术活，本文主要介绍相关知识，另外NameNode的heap使用主要来源HDFS中目录，文件和block数量，为了HDFS的稳定和最佳性能，一般建议HDFS中的文件数不要超过3亿。

1 NameNode 堆内存大小的环境变量

我们可以配置 HADOOP_HEAPSIZE 和 HADOOP_NAMENODE_OPTS 的值来调整 NameNode 堆内存的大小。HADOOP_HEAPSIZE 设置所有 Hadoop服务（如HDFS、YARN 和 MapReduce）的 JVM 堆大小。HADOOP_HEAPSIZE将一个整型值的最大内存 (Xmx) 参数传递给 JVM，比如：

HADOOP_HEAPSIZE=1024

HADOOP_NAMENODE_OPTS是NameNode的专有配置，需要设置必须指定的所有 JVM flag，HADOOP_NAMENODE_OPTS会覆盖NameNode的HADOOP_HEAPSIZE Xmx值，例如：

HADOOP_NAMENODE_OPTS=-Xms1024m -Xmx1024m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+CMSParallelRemarkEnabled -XX:+PrintTenuringDistribution -XX:OnOutOfMemoryError={{AGENT_COMMON_DIR}}/killparent.sh

HADOOP_NAMENODE_OPTS 和 HADOOP_HEAPSIZE 都存储在 /etc/hadoop/conf/hadoop-env.sh 中。

2 监控堆内存使用情况

可以使用多种方法来监控堆内存使用情况：Cloudera Manager、NameNode Web UI 或命令行。

• Cloudera Manager：从NameNode图表中找到堆内存使用的图表，或者自己构建：

select jvm_max_memory_mb, jvm_heap_used_mb where roleType="NameNode"

• NameNode Web UI：向下滚动到“Summary ”查找“Heap Memory used”。
• 命令行：生成heap dump

3 文件和目录

HDFS元数据的持久化是通过fsimage文件和edits文件来实现的，不要尝试修改元数据目录或文件，修改可能会导致 HDFS 停机，甚至永久数据丢失。

1.fsimage

包含文件系统在某个时间点的完整状态，每次文件系统修改都会分配一个唯一的、单调递增的事务 ID。 fsimage 文件表示直到特定事务 ID 为止的所有修改后的文件系统状态。

2.edits file

包含一个日志，列出在最新的 fsimage 之后进行的每次文件系统更改（文件创建、删除或修改）。检查点是合并最新 fsimage 内容的过程，它会合并所有的edits，并创建一个新的fsimage，检查点可以由配置策略自动触发或由 HDFS 管理命令手动触发。

4 磁盘空间与命名空间

HDFS 默认的block size(dfs.blocksize) 为 128 MB，NameNode 上的每个命名空间（namespace）对象大约消耗 150 个字节。在 DataNode 上，数据文件占用的空间是文件的真实大小，而不是按照多少个block size来占用空间。比如192MB的文件占用192MB的磁盘空间，而不是块大小的整数倍。使用默认块大小 128 MB，192MB的文件会被分割为两个块文件，一个 128 MB 文件和一个 64 MB 文件。在NameNode中，命名空间对象是通过文件和块的数量来衡量的。还是这个192BM的文件，它由三个命名空间对象（1 个文件 inode + 2 个block）组成，并消耗大约 450 bytes的内存。

大文件一般会被拆成较少数量的block，所以比小文件会消耗更好的内存。一个 128 MB 的数据文件由 NameNode 上的两个命名空间对象表示（1 个文件 inode + 1 个block），大约消耗 300 bytes的内存。相比之下，128 个大小为 1 MB 的文件由 256 个命名空间对象（128 个文件 inode + 128 个块）表示，消耗大约 38,400 bytes内存。因此对于内存管理和data locality优化，最佳split size应该是block size的整数倍。

默认情况下Cloudera Manager 为每百万个block分配最大堆空间 1 GB，实际需要多少内存取决于你的工作负载，尤其是每个命名空间中生成的文件、目录和block的数量。Cloudera建议每百万个block使用1GB的NameNode堆空间，主要考虑到命名空间对象，必要的bookkeeping数据结构和RPC工作负载，实际上真实的heap使用可能会低于这个值。

5 副本

默认的block复制因子（dfs.replication）是3，副本影响磁盘空间，但不影响内存消耗。副本会更改每个block所需的存储量，但不会更改block的数量。如果 DataNode 上的一个block文件被复制三次，则block文件的数量将增加三倍，但表示它们的block的数量不会增加三倍。如果关闭副本，一个 192 MB 的文件会占用 192 MB 的磁盘空间和大约 450 bytes的内存。如果有 100 万个此类文件或 192 TB 数据，则需要 192 TB 磁盘空间，在不考虑 RPC 工作负载的情况下，还需要 450 MB 内存：(100 万个 inode + 200 万个block）* 150 bytes。启用默认3副本后，则需要 576 TB 的磁盘空间：(192 TB * 3)，但内存使用量保持不变，还是 450 MB。如果考虑bookkeeping 和RPC调用，按照之前的建议，更安全的估计是 2 GB 内存。