前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop集群优化

Hadoop集群优化

作者头像
jiewuyou
发布2022-09-29 15:10:34
6910
发布2022-09-29 15:10:34
举报
文章被收录于专栏:数据人生

Hadoop

namenode vs RM

  1. 小集群:namenode和RM可以部署在一个节点上
  2. 大集群:因为namenode和RM的内存需求量较大,应将他们分开部署。如果分开部署的话,要保证slaves文件的内容一样,这样就可以让NM和DN部署在一个节点上

端口

A port number of 0 instructs the server to start on a free port, but this is generally discouraged because it is incompatible with setting cluster-wide firewall policies.

HDFS

ECC memory

ECC memory is strongly recommended, as several Hadoop users have reported seeing many checksum errors when using non-ECC memory on Hadoop clusters.

dfs.name.dir

配置成多个路径,FSImage和EditLog会同时写入多个路径,方便以后恢复用

RAID

不适合datanode,如果配置成RAID的话,就不需要副本了:

  1. 因为hdfs的冗余已经很好了
  2. 速度比JBOD (Just a Bunch Of Disks)慢,RAID的速度由最慢的那块磁盘决定,而JBOD的各块磁盘相互没有影响
  3. 如果JBOD中一块磁盘损坏的话,HDFS还能正常使用;但如果RAID的一块磁盘坏了的话,上面的整个数据就损坏了

适合namenode:用于保护元数据信息

MapReduce

slowstart

参数mapreduce.job.reduce.slowstart.completedmaps表示map任务完成多少后,reduce任务才能开始执行。将其设置成0.80,以增加集群的吞吐量

mapreduce.job.user.classpath.first

当你实现的java类和Hadoop自带的类相同的时候,怎么处理呢?如果不配置该参数的话,在执行mapreduce作业时,系统会优先选择Hadoop框架中已经存在的java类而不是用户指定包中自己编写的java类

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2015-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Hadoop
    • namenode vs RM
      • 端口
      • HDFS
        • ECC memory
          • dfs.name.dir
            • RAID
            • MapReduce
              • slowstart
                • mapreduce.job.user.classpath.first
                相关产品与服务
                大数据
                全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档