HBase集群搭建与调优(持续更新)

摘 要

hbase集群搭建与调优。

前言

本文持续更新中,主要因为我也是在工作中逐渐探索中,所以在工作中遇到的配置调优,都将第一时间更新到本文中,用作以后标准配置。

版本介绍

本文基于当前最稳定兼容版本如下:

hadoop-2.7.3

hbase-1.2.5

zookeeper-3.4.10

配置文件介绍

Apache HBase使用与Apache Hadoop相同的配置系统,所有配置文件都位于conf/目录中。该目录需要与集群中的每个节点保持同步。

backup-masters

纯文本文件,用于描述备用主机,一行一个主机。

hadoop-metrics2-hbase.properties

用于连接HBase Hadoop的Metrics2框架。

hbase-env.sh & hbase-env.cmd

用于Windows和Linux / Unix环境的脚本,用于设置HBase的工作环境,包括Java,Java选项和其他环境变量的位置。该文件包含许多注释的例子来提供指导。

hbase-policy.xml

RPC服务器使用的默认策略配置文件对客户端请求做出授权决策。仅在启用HBase安全性时使用。

hbase-site.xml

主要的HBase配置文件。该文件指定了覆盖HBase的默认配置的配置选项。

log4j.properties

HBase记录的配置文件log4j

regionservers

一个纯文本文件,其中包含应该在HBase集群中运行RegionServer的主机列表。

集群配置

HDFS DataNode在任何一个时间都会提供的文件数量上限。在进行任何加载之前,请确保已配置Hadoop的conf/hdfs-site.xml,将该dfs.datanode.max.transfer.threads值设置为至少以下值:

<property>
 <name>dfs.datanode.max.transfer.threads</name>
 <value>4096</value>
</property>

进行上述配置后,请务必重新启动HDFS。

编辑 hbase-env.sh

#修改jdk安装位置
 export JAVA_HOME=/usr/java/jdk1.7.0/
#设置hbase堆内存,默认情况下为1G,但最优情况下为8G~16G
 export HBASE_HEAPSIZE=8G
#修改master的jvm参数,master不参与实际计算,酌情修改。默认值:128m
 export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -XX:PermSize=2g -XX:MaxPermSize=2g"
#修改regionserver的jvm参数,由于该参数直接影响数据存储及计算节点。适当调大。默认值为:128m
 export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -XX:PermSize=8g -XX:MaxPermSize=8g"
#hbase pid存储位置,默认存放于系统/tmp目录
 export HBASE_PID_DIR=/var/hadoop/pids
#同时启动zk实例,建议关闭。
 export HBASE_MANAGES_ZK=false

编辑 hbase-site.xml

<configuration>
 <property>
 <name>hbase.rootdir</name>
 <value>hdfs://master:9000/hbase</value>
 </property>
 <property>
 <name>hbase.cluster.distributed</name>
 <value>true</value>
 </property>
 <property>
 <name>hbase.zookeeper.quorum</name>
 <value>zookeeper1,zookeeper2,zookeeper3</value>
 </property>
 <!-- 设置hbase临时目录,默认系统目录/tmp-->
 <property>
 <name>hbase.tmp.dir</name>
 <value>/data/dfs/hbase</value>
 </property>
 <!--在RegionServers上旋转的RPC侦听器实例的计数。主人使用相同的属性来计算主处理程序。 默认30-->
 <property>
 <name>hbase.regionserver.handler.count</name>
 <value>100</value>
 </property>
 <!-- 设置心跳时间,默认三分钟,时间越短,代表故障节点更早的发现。-->
 <property>
 <name>zookeeper.session.timeout</name>
 <value>60000</value>
 </property>

</configuration>

配置 regionserver

worker1 worker2 ……

设置backup-masters

master1 master2 ……

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Hadoop实操

如何通过CM迁移Zookeeper服务

在使用CDH集群过程中由于角色划分不合理或Zookeeper服务所在节点压力大等问题,需要对Zookeeper服务做迁移等操作。本篇文章Fayson主要介绍如何...

1864
来自专栏牛肉圆粉不加葱

Spark - 图解 Broadcast 工作原理

Broadcast 是 Spark 常用的特性,本文不打算介绍什么是 Broadcast 及如何使用它,只希望能以下面这张图对 Broadcast 的基础知识和...

1123
来自专栏闵开慧

ubuntu中配置hadoop

单机模式部署 一、Jdk安装 命令:sudo apt-get install openjdk-6-jdk 目录:/usr/l...

3169
来自专栏别先生

Hadoop数据分析平台项目实战(基于CDH版本集群部署与安装)

1、Hadoop的主要应用场景:   a、数据分析平台。   b、推荐系统。   c、业务系统的底层存储系统。   d、业务监控系统。 2、开发环境:Linux...

4574
来自专栏IT派

看完这篇文章还能不懂Flask这种Web框架吗?

Flask是一个基于Python开发并且依赖jinja2模板和Werkzeug WSGI服务的一个微型框架,对于Werkzeug本质是Socket服务端,其用于...

772
来自专栏程序员叨叨叨

一招搞定Windows无法安装到GPT分区形式磁盘疑难

今天给堂弟的电脑重装系统时,遇到了以往USB安装系统经常出现的问题,“Windows无法安装到这个磁盘。选中的磁盘采用GPT分区形式”。之前在CSDN的博客上有...

532
来自专栏鸿的学习笔记

日志采集技术笔记

使用Linux的rename机制保证文件写入要么成功,要么失败,绝对不能出现写了一半的情况。

1615
来自专栏Brian

Hadoop和Zookeeper安装过程中出现的问题解决

概述 我最近在搭建一套大数据生态系统,安装分布式Hadoop和Zookeeper时出现了一些问题。我的分布式环境是由三个节点构成的,分比为:master,sla...

2594
来自专栏Hadoop实操

CM部署客户端配置失败异常分析

在Cloudera Manager修改了服务的客户端配置后,执行部署客户配置报如下异常:

2153
来自专栏杨建荣的学习笔记

Oracle主备架构下的逻辑备份考虑

今天想到一个问题,如果有一个环境是一主一备架构,根据业务需要做逻辑备份,该怎么规划和考虑。数据库版本为10g,11g ? 这个问题如果在考虑性能的前提下,我...

3505

扫码关注云+社区