前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >(四)Hadoop参数调优

(四)Hadoop参数调优

作者头像
wolf
发布2020-09-23 12:43:55
1.1K1
发布2020-09-23 12:43:55
举报
文章被收录于专栏:大数据分享大数据分享

HDFS参数调优hdfs-site.xml

dfs.namenode.handler.count=20 * log2(Cluster Size),比如集群规模为8台时,即20*8的对数,此参数设置为60 The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes. NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说,通常需要增大参数dfs.namenode.handler.count的默认值10。设置该值的一般原则是将其设置为集群大小的自然对数乘以20,即20logN,N为集群大小。

YARN参数调优yarn-site.xml

(1)情景描述:总共7台机器,每天几亿条数据,数据源->Flume->Kafka->HDFS->Hive 面临问题:数据统计主要用HiveSQL,没有数据倾斜,小文件已经做了合并处理,开启的JVM重用,而且IO没有阻塞,内存用了不到50%。但是还是跑的非常慢,而且数据量洪峰过来时,整个集群都会宕掉。基于这种情况有没有优化方案。 (2)解决办法: 内存利用率不够。这个一般是Yarn的2个配置造成的,单个任务可以申请的最大内存大小,和Hadoop单个节点可用内存大小。调节这两个参数能提高系统内存的利用率。 (a)yarn.nodemanager.resource.memory-mb 表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。 (b)yarn.scheduler.maximum-allocation-mb 单个任务可申请的最多物理内存量,默认是8192(MB)。

[HDFS配置文件参数设置的优先级]

hdfs-site.xml是HDFS的配置文件,其中包含了各种对HDFS集群的设置参数,比如集群中存储文件副本的数量,namenode辅助节点的地址等。对于hdfs-site.xml中的属性值,我们可以在不同的地方进行设置,

第一种是通过HDFS客户端代码进行对属性值进行设置,这是优先级最高的方式;   第二种是在当前的项目下创建一个hdfs-site.xml文件,对相关属性的值进行设置;   第三种是在服务器集群中进行自定义hdfs-site.xml的属性值;   第四张是按照集群默认的配置文件的属性值来参与相关的操作,这个默认的配置文件是"hdfs-default.xml"

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • HDFS参数调优hdfs-site.xml
  • YARN参数调优yarn-site.xml
  • [HDFS配置文件参数设置的优先级]
    • hdfs-site.xml是HDFS的配置文件,其中包含了各种对HDFS集群的设置参数,比如集群中存储文件副本的数量,namenode辅助节点的地址等。对于hdfs-site.xml中的属性值,我们可以在不同的地方进行设置,
    相关产品与服务
    大数据
    全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档