链接:https://pan.baidu.com/s/1vi3TNtnauqd-x0FQkpaZig 提取码:ffo9 复制这段内容后打开百度网盘手机App,操作更方便哦
ip:16010/master-status,记得安全组开放端口,比如我的: http://wzlodq.cn:16010/master-status
之前的文章也提到过,最近工作中需要对HBase进行二次开发(参照HBase的AES加密方法,为HBase增加SMS4数据加密类型)。研究了两天,终于将开发流程想清楚并搭建好了debug环境,所以就迫不及待地想写篇文章分享给大家。
docker run -d --name hbase001 -p 16010:16010 docker.io/dajobe/hbase与docker run -d --name hbase001 -P docker.io/dajobe/hbase的区别:
我们在系统学习大数据的之前,要先了解大数据开发是在什么系统平台下进行的。所以我们在学之前要先学习Linux的知识,这部分显得格外的重要。
由于 HBase 是以 HDFS 作为底层存储文件系统的,因此部署好 Hadoop 并启动服务是 HBase 部署的先决条件。我们将在《第三篇:Hadoop部署配置及运行调试(下) - HA完全分布式》中部署的 Hadoop 上,以完全分布式模式来安装部署并运行 HBase.
pinpoint是开源在github上的一款APM监控工具,它是用Java编写的,用于大规模分布式系统监控。它对性能的影响最小(只增加约3%资源利用率),安装agent是无侵入式的。
Hbase是企业比较常用的大数据组件,对于开发来讲,单纯的开发几乎不可能,往往都会搭建集群,甚至负责集群的维护,特别是公司规模较小。我们VIP中很多成员,都是一个成员扛起了整个公司的大数据部门,被称之为“扛把子”。
前言 由于工作需要,前段时间抽口研究了一下APM(Application Performance Management)相关技术,无论是收费的还是免费的。由于技术栈的原因,最终还是选择Pinpoint,本文是为了记录Pinpoint详细的搭建过程。 架构图 优点 代码零侵入,运用JavaAgent字节码增强技术,只需要加启动参数即可。 搭建环境 机器 安装 功能 192.168.1.180(8080,9994,9995,9996) pinpoint+hbase pinpointweb面板、控制器以及hbas
HBase 需要依赖 JDK 环境,同时 HBase 2.0+ 以上版本不再支持 JDK 1.7 ,需要安装 JDK 1.8+ 。JDK 安装方式见本仓库:
opentsdb是基于Hbase的时序数据库[时间序列数据库]。不具备通用性,主要针对具有时间特性和需求的数据,如监控数据、温度变化数据等。opentsdb说是数据库,但并不能称作为数据库,他是在Hbase(HBase才是具有存储功能的)的基础上,进行数据结构的优化和处理,从而适合存储具有时间特性的数据,同时提供特定的工具进行查询等操作。
本文承接上一篇:hive_学习_01_hive环境搭建(单机) ,主要是记录 hive 整合hbase的流程
博主无意间接触到了这款工具!而且使用的时候觉得特别爽!比其他的检测工具强的不是一丁半点(个人认为)! 所以在这里分享给大家使用!
由于工作需要,前段时间抽口研究了一下APM相关技术。 大的互联网公司都有自己的分布式跟踪系统,比如Google的Dapper,Twitter的zipkin,淘宝的鹰眼,新浪的Watchman,京东的Hydra等,当然还有一些收费的工具。由于技术栈、项目规模以及方便且容易上手的原因,最终还是选择Pinpoint,本文是为了记录Pinpoint详细的搭建过程。
pinpoint收集来的数据,主要是存在Hbase数据库的。所以它可以收集大量的数据,可以进行更加详细的分析。
一、 准备环境 Java-- jdk-8u121-linux-x64.tar.gz Hadoop--hadoop-2.7.4.tar.gz (jdk1.7会报错) Hbase-- hbase-1.2.0-bin.tar.gz Zookeeper-- zookeeper-3.4.5.tar.gz 本系列教程所有jar包,请关注微信公众号 :Spark高级玩法,输入software获取。 Centos 6.5是本文采用的操作系统 二, 安装Zookeeper Zookeeper的单机版安装很简单。主要是配置数据
此篇博客主要记录集群安装Hadoop环境的流程及配置讲解。这里的IP已换成192.168.0.*
本文承接上一篇:hadoop_学习_02_Hadoop环境搭建(单机) ,主要是搭建HBase的单机环境
这里搭建一个 3 节点的 HBase 集群,其中三台主机上均为 Region Server。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 上部署备用的 Master 服务。Master 服务由 Zookeeper 集群进行协调管理,如果主 Master 不可用,则备用 Master 会成为新的主 Master。
最近因为某些原因学习接触到了开源的大数据框架:Hadoop,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储,详细概念知识背景我这就不介绍了,各位自行学习。
如果想详细了解hbase的安装:http://abloz.com/hbase/book.html 和官网http://hbase.apache.org/
关于HugeGraph,官方资料是这样介绍的,它是一款易用、高效、通用的开源图数据库系统(Graph Database), 实现了 Apache TinkerPop3 框架及完全兼容 Gremlin 查询语言, 具备完善的工具链组件,助力用户轻松构建基于图数据库之上的应用和产品。HugeGraph 支持百亿以上的顶点和边快速导入,并提供毫秒级的关联关系查询能力(OLTP), 并可与 Hadoop、Spark 等大数据平台集成以进行离线分析(OLAP)。
从 1970 年开始,大多数的公司数据存储和维护使用的是关系型数据库,大数据技术出现后,很多拥有海量数据的公司开始选择像Hadoop的方式来存储海量数据。
https://www.cnblogs.com/hongten/p/hongten_hadoop_hbase.html
Flink可以运行在所有类unix环境中,例如:Linux,Mac OS 和Windows,一般企业中使用Flink基于的都是Linux环境,后期我们进行Flink搭建和其他框架整合也是基于linux环境,使用的是Centos7.6版本,JDK使用JDK8版本(Hive版本不支持JDK11,所以这里选择JDK8),本小节主要针对Flink集群使用到的基础环境进行配置,不再从零搭建Centos系统,另外对后续整合使用到的技术框架也一并进行搭建,如果你目前已经有对应的基础环境,可以忽略本小节,Linux及各个搭建组件使用版本如下表所示。
详情参考 http://hbase.apache.org/book.html#quickstart
本文来自作者在GitChat(ID:GitChat_Club)上的精彩分享,CSDN独家合作发布。 申明:本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学。 前言 一、背景介绍 本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师。 二、大数据介绍 大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多样化(结构化数据、非
因为spark的群起命令会和hdfs的命令冲突,所以spark执行命令时使用绝对路径。
Kylin介绍: 关于Kylin的简介网上资料有很多,就不做过多的赘述了,这里给一个中文链接: http://kylin.apache.org/cn/ 搭建步骤:
ZooKeeper可以独立搭建集群,HBase本身不能独立搭建集群需要和Hadoop和HDFS整合。
所谓Standalone模式HBase,就是只启动一个JVM进程,在这个进程中同时启动了多个后台角色,如:HMaster,单个HRegionServer,以及ZooKeeper服务。
azkaban airflow dolphinscheduler oozie 自研
相对应hadoop的高可用,HBase配置简单很多 HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行。 配置HBase高可用,只需要启动两个HMaster,让Zookeeper自己去选择一个Master Acitve即可。
本文的HBase安装是在Hadoop已经安装好的基础上实现的,所以之前要导出JAVA_HOME、HADOOP_HOME( 单机模式不需要,伪分布式模式和分布式模式需要)等环境变量以及配置好SSH互信等。 0 公共配置 导出HBase的环境变量
本节从0开始一步步搭建伪分布式及Hbase等。同时学习使用Intellij Maven构建Map-Reduce项目进行单词统计。
happybase是一个针对与Apache HBase数据库进行交互的python接口库。
hadoop、hbase、zookeeper是大数据里面三个重要的产品,关于这三个产品的介绍,各种书籍和网站介绍得很多,在这里不再赘述,仅介绍在ubunt下如何安装和配置这三种产品。
172.18.4.126 node1 172.18.4.188 node2 172.18.4.71 node3 172.18.4.86 node4
http://192.168.7.101:50070/explorer.html#/
将 bin 目录和 和 conf 目录备份一份,再修改配置文件,预防配置不成功可重置
HBase 主要用ZooKeeper来实现 HA 选举与主备集群主节点的切换、系统容错、meta-region 管理、Region 状态管理和分布式 SplitWAL 任务管理等。
Atlas官网没有提供Atlas的安装包,需要下载Atlas的源码后编译安装,下载Atlas源码需要登录Atlas官网下载Atlas:https://atlas.apache.org/#/Downloads,选择2.1.0版本:
HBase ACL 可以实现不同的用户、Group与Namespace、Table、ColumnFamily层级的数据权限控制
Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现,通信原理如下图所示。
本文讲述如何安装,部署,启停HBase集群,如何通过命令行对Hbase进行基本操作。
最近为了方便开发,在自己的虚拟机上搭建了三节点的Hadoop集群与Hbase集群,hadoop集群的搭建与zookeeper集群这里就不再详细说明,原来的笔记中记录过。这里将hbase配置参数进行相应整理,方便日后使用。
操作过程中主要出现以下几个错误: Unsupported major.minor version 51.0 处理办法: eclipse下的项目的jdk环境和liux下的jdk环境不一致,将windows下的eclipse中的jdk环境与linux的环境更改一致 切换linux的jdk版本为1.7: 上传jdk7压缩包并解压 配置jdk变量 vi /etc/profile 在终端里面输入: alternatives --install /usr/bin/java java /usr/local/jvm/jdk1.7.0_79/bin/java 300 alternatives --install /usr/bin/java java /usr/lib/jvm/jdk1.8.0_101/bin/java 300 jdk1.8.0_101为之前安装的jdk 如想切换至1.8 还需更改环境变量/etc/profile 红色部分自行修改目录(安装JDK的目录) 接着执行alternatives --config java 输入想要切换的jdk序号 Java -version 在myeclipse里添加1.7的jdk,创建java项目时选择jdk版本为1.7 重启hadoop集群报错: java.net.BindException: Port in use: 0.0.0.0:50070 Caused by: java.net.BindException: Address already in use 处理办法: 1)sudo lsof -i:端口 -P 2)sudo kill -9 PID 以50070端口为例: sudo lsof -i:50070 -P 控制台输出内容: COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME java 6501 root 189u IPv4 0x782e003217773193 0t0 TCP *:50070 (LISTEN) 然后kill掉: sudo kill -9 6501 hadoop主节点缺少NameNode log信息: java.io.FileNotFoundException:/home/hadoop/app/dfs/name/in_use.lock (Permission denied) 处理办法: 有两种场景出现 1):在原来正常的时候,有一次突然使用了原来不同的用户启动了一次hadoop。这种场景会产生一个in_use.lock 文件夹在你设置的目录中,这时候可以删除这个文件夹直接,然后重新启动 2):在格式化hadoop的时候和当期启动的用户不是同一个,也会导致该问题。这个时候可以使用格式化hadoop的那个用户重新启动hadoop。也可以解决此错误。 hadoop主节点缺少SecondaryNameNode log信息: Cannot lock storage /home/hadoop/app/tmp/dfs/namesecondary. The directory is already locked 处理办法:删除该目录 java项目运行不报错 处理办法: 新建一个文件,命名为“log4j.properties”,放到src目录下。向里填入一下信息: log4j.rootLogger=INFO, stdout log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n log4j.appender.logfile=org.apache.log4j.FileAppender log4j.appender.logfile.File=target/spring.log log4j.appender.logfile.layout=org.apache.log4j.PatternLayout log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n 保存后重新运行 通过java接口向hbase插入一张表时报错: [org.apache.hadoop.util.NativeCodeLoader] - Unable to load native-h
1.从http://www.apache.org/dyn/closer.cgi/hbase/下载稳定版安装包,我下的是hbase-1.2.6-bin.tar.gz
由于我们Sinesafe的客户要求网站的服务器要装Centos7版本所以给大家分享下安装的过程与经验,如果需要深入的服务器运维服务也可以找我们。
领取专属 10元无门槛券
手把手带您无忧上云