启动hbase时问题列表: 1 查看hbase-hadoop-master-ubuntu118.log,发现其中的错误为 2012-09-02 22:59:58,099 INFO org.apache.hadoop.hbase.ipc.HBaseRpcMetrics: Initializing RPC Metrics with hostName=HMaster, port=60000 2012-09-02 22:59:58,217 ERROR org.apache.hadoop.hbase.master.H
安装 HBase 这里简单搭建了一个单机的 HBase 环境: 安装 JDK 环境,如何安装jdk可以自己网上搜。 下载 HBase,https://hbase.apache.org/downloads.html,这里我们选择下载2.0.1版本,文件名为 hbase-2.0.1.tar.gz,解压到任意目录。 修改 conf/hbase-env.sh ,设置 JAVA_HOME,这个是 /bin/java 所在的目录,通过 which java 查看。 export JAVA_HOME=/java/jdk
HBase 是什么?HBase 是在 Hadoop 分布式文件系统(简称:HDFS)之上的分布式面向列的数据库。而且是 2007 最初原型,历史悠久。
如果HBase thrift2报:“TIOError exception: Default TException”, 这个可能是因为操作的表不存在,不一定是网络或磁盘操作异常。 HBase Thrift2偷懒了,所有异常被统一成了TIOError和TIllegalArgument两个异常, 导致调用者无法区分,而且出错信息也没能很好的带过来,增加了定位工作量。 在HBase client中为如下一个继承关系: public class TableNotFoundException extends DoNotRetryIOException public class DoNotRetryIOException extends HBaseIOException public class HBaseIOException extends IOException HBase master相关日志: 2017-05-27 17:20:42,879 ERROR [thrift2-worker-7] client.AsyncProcess: Failed to get region location org.apache.hadoop.hbase.TableNotFoundException: ABCDE at org.apache.hadoop.hbase.client.ConnectionManager$HConnectionImplementation.locateRegionInMeta(ConnectionManager.java:1285) at org.apache.hadoop.hbase.client.ConnectionManager$HConnectionImplementation.locateRegion(ConnectionManager.java:1183) at org.apache.hadoop.hbase.client.AsyncProcess.submit(AsyncProcess.java:422) at org.apache.hadoop.hbase.client.AsyncProcess.submit(AsyncProcess.java:371) at org.apache.hadoop.hbase.client.BufferedMutatorImpl.backgroundFlushCommits(BufferedMutatorImpl.java:245) at org.apache.hadoop.hbase.client.BufferedMutatorImpl.flush(BufferedMutatorImpl.java:197) at org.apache.hadoop.hbase.client.HTable.flushCommits(HTable.java:1461) at org.apache.hadoop.hbase.client.HTable.put(HTable.java:1017) at org.apache.hadoop.hbase.thrift2.ThriftHBaseServiceHandler.put(ThriftHBaseServiceHandler.java:243) at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source)
如果想详细了解hbase的安装:http://abloz.com/hbase/book.html 和官网http://hbase.apache.org/
本文的HBase安装是在Hadoop已经安装好的基础上实现的,所以之前要导出JAVA_HOME、HADOOP_HOME( 单机模式不需要,伪分布式模式和分布式模式需要)等环境变量以及配置好SSH互信等。 0 公共配置 导出HBase的环境变量
在前面的文章Fayson介绍了《如何使用Java连接Kerberos的HBase》,虽然非Kerberos环境下访问HBase比较简单,本篇文章Fayson还是主要介绍使用Java访问非Kerberos环境的HBase。
要在 Spring Boot 项目中实现 HBase 的功能,首先需要理解原理和作用,然后通过实际操作将其集成到 Spring Boot 项目中。以下是从理论到实践的详细步骤:
Hbase是企业比较常用的大数据组件,对于开发来讲,单纯的开发几乎不可能,往往都会搭建集群,甚至负责集群的维护,特别是公司规模较小。我们VIP中很多成员,都是一个成员扛起了整个公司的大数据部门,被称之为“扛把子”。
这是几个月前遇到的一次HBase集群宕机事件,今天重新整理下事故分析报告。概况的说是业务方的一个10节点HBase集群支撑百TB级别的数据量,集群region数量达 23000+,最终集群支持不住业务压力,带来了一次惨痛的宕机事件。
本文介绍了如何使用HBase和Zookeeper实现分布式协调,并总结了HBase和Zookeeper的主要概念和命令。
2012年11月28日 出现故障," Unable to get data of znode /hbase/root-region-server" 问题比较诡异,两个机房,只有一个机房故障,5台服务器相续故障,错误日志相同。使用的HBase客户端版本为0.94.0 1)分析步骤: 1 jstack jmap 查看是否有死锁、block或内存溢出 jmap 看内存回收状况没有什么异常,内存和CPU占用都不多 jstack pid > test.log pid: Unable to open socket f
“ 本文介绍在云端kylin数据迁移的实现方案以及在迁移过程中的遇到哪些问题,并给出了问题解决方案.本次迁移中涉及到的hbase cube表1600+,model数量80+,project 10+”
Phoenix 是 HBase 的开源 SQL 中间层,它允许你使用标准 JDBC 的方式来操作 HBase 上的数据。在 Phoenix 之前,如果你要访问 HBase,只能调用它的 Java API,但相比于使用一行 SQL 就能实现数据查询,HBase 的 API 还是过于复杂。Phoenix 的理念是 we put sql SQL back in NOSQL,即你可以使用标准的 SQL 就能完成对 HBase 上数据的操作。同时这也意味着你可以通过集成 Spring Data JPA 或 Mybatis 等常用的持久层框架来操作 HBase。
本文介绍了如何使用HBase和ZooKeeper实现一个高可用的分布式系统。首先介绍了HBase和ZooKeeper的基本概念和架构,然后详细讲解了如何使用HBase和ZooKeeper实现一个高可用的分布式系统。最后通过一个具体的实例展示了如何使用HBase和ZooKeeper实现分布式系统,并提供了相应的代码示例。
本篇博客将持续更新一些遇到过的Hadoop大数据集群的问题,包括HBASE HDFS的常见问题及相关的解决方案
本文节选自《Netkiller Database 手札》 第 62 章 Apache Hbase 目录 62.1. 安装 Apache Hbase 62.1.1. 单机安装 62.2. Hbase S
ZooKeeper可以独立搭建集群,HBase本身不能独立搭建集群需要和Hadoop和HDFS整合。
转自:http://www.aboutyun.com/thread-14977-1-1.html 最近公司HBase(CDH-4.6.0)遇到了一个麻烦问题,觉得有必要记录下整个解决的过程。
大数据依然是当前较为火热的领域,其背后的核心价值是数据。今天分享一个GitHub上一个系类文章,作者是heibaiying,大数据入门指南(2019)地址:https://github.com/heibaiying/BigData-Notes(本文末点击阅读原文进入),内容涉及下图的相关技术。
在正式进行讲述实现之前,我觉得有必要说一下出发点。团队期初数据都是基于 HBase+Phoenix 这样架构进行持久化。随着业务的复杂性增加,对部分表的查询效率和查询条件多样性,提出了更高的要求。HBase+Phoenix 就会出现索引滥用。变更索引变的特别的频繁,同时一些数据客观的表,变更索引的代价是非常大的。
在上一篇文章 HBase 基础入门 中,我们已经介绍了 HBase 的一些基本概念,以及如何安装使用的方法。那么,作为一名 Javaer,自然是希望用 Java 的方式来与 HBase 进行对话了。所幸的是,HBase 本身就是用 Java 编写的,天生自带了 Java 原生API。我们可以通过 hbase-client 来实现 HBase 数据库的操作。所以,这次主要介绍该组件的基本用法。
HBase 主要用ZooKeeper来实现 HA 选举与主备集群主节点的切换、系统容错、meta-region 管理、Region 状态管理和分布式 SplitWAL 任务管理等。
import java.io.IOException; import java.io.ByteArrayOutputStream; import java.io.DataOutputStream; import java.io.ByteArrayInputStream; import java.io.DataInputStream; import java.util.Map; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.io.Writable; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HTableDescriptor; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.hadoop.hbase.client.HBaseAdmin; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Put; import org.apache.hadoop.hbase.client.Get; import org.apache.hadoop.hbase.client.Delete; import org.apache.hadoop.hbase.util.*; import org.apache.hadoop.hbase.KeyValue; import org.apache.hadoop.hbase.util.Writables; import org.apache.hadoop.hbase.client.Result; import org.apache.hadoop.hbase.client.ResultScanner; import org.apache.hadoop.hbase.client.Scan; import org.apache.hadoop.hbase.MasterNotRunningException; //import org.apache.hadoop.hbase.ZooKeeperConnectionException; public class HBaseHandler { private static HBaseConfiguration conf = null; /** * 初始化配置 */ static { //conf = HBaseConfiguration.create(); conf = new HBaseConfiguration(); conf.addResource("hbase-site.xml"); } /** * @param args * @throws IOException */ public static void main(String[] args) throws IOException { // TODO Auto-generated method stub System.out.println("Helloworld"); String[] cfs; cfs = new String[1]; cfs[0] = "Hello"; createTable("Test",cfs); } /** * 创建表操作 * @throws IOException */ public static void createTable(String tablename, String[] cfs) throws IOException { HBaseAdmin admin = new HBaseAdmin(conf); if (admin.tableExists(tablename)) {
安装 HBase 之前默认我们已经完成了 Hadoop、ZooKeeper 安装,如果还没有安装可以参考如下博文:
在本期中,我们将讨论如何执行“获取/扫描”操作以及如何使用PySpark SQL。之后,我们将讨论批量操作,然后再讨论一些故障排除错误。在这里阅读第一个博客。
伪分布模式安装即在一台计算机上部署HBase的各个角色,HMaster、HRegionServer以及ZooKeeper都在一台计算机上来模拟。
无论是 NoSQL,还是大数据领域,HBase 都是非常"炙热"的一门数据库。本文将对 HBase 做一些基础性的介绍,旨在入门。
在 4.4-4.14 和5.0 releases 中 query server 及其 JDBC client 是内置的.
http://www.aboutyun.com/thread-11873-1-1.html
之前的系列文章当中,已经为大家介绍了大数据存储当中的MongoDB、Redis等数据库,今天接着来讲Hbase。Hbase在大数据存储当中,与Hadoop生态紧密相关,也是Hadoop生态当中必学的重要组件。下面我们从基础入门开始,来讲讲Hbase。
因为缴费明细的数据记录非常庞大,该公司的信息部门决定使用HBase来存储这些数据。并且,他们希望能够通过Java程序来访问这些数据。
HBase每张表在底层存储上是由至少一个Region组成,Region实际上就是HBase表的分区。HBase新建一张表时默认Region即分区的数量为1,随着数据增长一个分区在达到一定大小时会自动Split,一分为二。
在大数据时代,数据量的爆炸式增长对数据存储和处理能力提出了巨大的挑战。Hadoop作为一个分布式计算框架,在解决这些挑战中发挥了重要作用。然而,传统的关系型数据库无法很好地处理海量的非结构化或半结构化数据,因此NoSQL数据库变得越来越受到关注和应用。在Hadoop生态系统中,HBase是一种高度可扩展的分布式NoSQL数据库,提供了快速、随机、实时读写大数据集的能力。本文将介绍HBase的基本概念和原理,并提供一些示例代码。
本文承接上一篇:hadoop_学习_02_Hadoop环境搭建(单机) ,主要是搭建HBase的单机环境
1、将项目软件工具包导入 2、项目思路: 2.1、读取 HDFS 数据进行 ETL 清洗操作,并将最终结果写入到 HBase 中。 2.2、从 HBase 中读取数据,进行新增用户统计分析操作,并将结果写入到 Mysql。 3、细节实现 数据清洗: 3.1、LoggerUtil.java 3.1.1、主要作用:将字符串数据解析成 HashMap 键值对集合。 3.1.2、重要细节: 字符串的截取 不合法数据的过滤 字符串的解码(就是将%相关的字符串编码转换成可读类型的数据) 错误数据的 Logger
所谓Standalone模式HBase,就是只启动一个JVM进程,在这个进程中同时启动了多个后台角色,如:HMaster,单个HRegionServer,以及ZooKeeper服务。
Hadoop离线数据分析平台实战——380MapReduce程序优化 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 调优的目的 充分的利用机器的性能,更快的完成mr程序的计算任务。 甚至是在有限的机器条件下,能够支持运行足够多的mr程序。 说的直接一点就是:调优
本篇文章描述的是在1.2.1版本的基础上安装Hadoop加上0.94.16版本的hbase,呵呵!现在看来这些版本都有些过时了,写这篇稿子的时候hadoop刚出2.3.0版。如果你是新手或是刚踏入hadoop不妨看看我这篇文档,一步一步脚踏实地的来学习这些基础的东西。
HBase集群安装操作 一、上传解压HBase安装包 tar -xvzf hbase-2.1.0.tar.gz -C ../server/ 二、修改HBase配置文件 1、hbase-env.sh cd /export/server/hbase-2.1.0/conf vim hbase-env.sh # 第28行 export JAVA_HOME=/export/server/jdk1.8.0_241/ export HBASE_MANAGES_ZK=false 2、hbase-site.xml
一、调优的目的 充分的利用机器的性能,更快的完成mr程序的计算任务。甚至是在有限的机器条件下,能够支持运行足够多的mr程序。 二、调优的总体概述 从mr程序的内部运行机制,我们可以了解到一个mr程序由mapper和reducer两个阶段组成,其中mapper阶段包括数据的读取、map处理以及写出操作(排序和合并/sort&merge),而reducer阶段包含mapper输出数据的获取、数据合并(sort&merge)、reduce处理以及写出操作。那么在这七个子阶段中,能够进行较大力度的进行调优的就
离线数据分析平台实战——090HBase shell客户端和Java Api介绍 HBase 命令介绍 HBase命令主要分为两大类, 第一类是指操作hbase表的相关的shell命令; 第二类是
详情参考 http://hbase.apache.org/book.html#quickstart
从 1970 年开始,大多数的公司数据存储和维护使用的是关系型数据库,大数据技术出现后,很多拥有海量数据的公司开始选择像Hadoop的方式来存储海量数据。
我们在系统学习大数据的之前,要先了解大数据开发是在什么系统平台下进行的。所以我们在学之前要先学习Linux的知识,这部分显得格外的重要。
因为测试需求,需要将各个开源平台整合到一个大的平台中,所以引入了hue,具体操作步骤如下: 此次引入了有postgre,hive,phoenix,hbase,yarn,hdfs
上一篇博客说了怎样搭建HBase环境,今天说说怎样使用 HBase 的客户端 API 来操作 HBase 中的数据。 创建工程 首先创建一个 Maven 工程,然后添加hbase客户端api的依赖项,如下: <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>2.0.0-alpha4</version> </dependency> 添加配置文件
1.垃圾回收器调优 当我们往hbase写入数据,它首先写入memstore当中,当menstore的值大于hbase.hregion.memstore.flush.size参数中设置的值后,就会写入硬盘。 在hbase-env.sh文件中,我们可以设置HBASE_OPTS或者HBASE_REGIONSERVER_OPTS,后者只影响region server进程。 export HBASE_REGIONSERVER_OPTS="-Xmx8g -Xms8g -Xmn128m -XX:+UseParNe
领取专属 10元无门槛券
手把手带您无忧上云