hbase表数据备份策略

Hbase的数据备份策略有:

(1)Distcp

(2)CopyTable

(3)Export/Import

(4)Replication

(5)Snapshot

下面介绍这几种方式:

(一)Distcp(离线备份)

直接备份HDFS数据,备份前需要disable表,在备份完成之前 服务不可用对在线服务类业务不友好

(二)CopyTable(热备)

执行命令前,需要创建表,支持时间区间、row区间,改变表名称,改变列簇名称,指定是否copy删除数据等功能,例如:

三、Export/Import(热备+离线)

通过Export导出数据到目标集群的hdfs,再在目标集群执行import导入数据,Export支持指定开始时间和结束时间,因此可以做增量备份。

四,Replication(实时)

通过Hbase的replication机制实现Hbase集群的主从模式实时同步

五,Snapshot(备份实时,恢复需要disable)

个人觉得这里备份里面最经济划算的一个,可以每天在固定时间点对hbase表数据进行快照备份,然后如果出现问题了,可以直接恢复到某个时间点上的数据,适合修复指标计算错误的场景,然后从某个时间点上重新修复。

下面详细说下使用方式:

(1)先建立一个测试表

 create 'test','cf'

(2)添加数据

> put 'test','a','cf:c1',1

> put 'test','a','cf:c2',2

> put 'test','b','cf:c1',3

> put 'test','b','cf:c2',4

> put 'test','c','cf:c1',5

> put 'test','c','cf:c2',6

(3)创建快照

  hbase snapshot  create -n test_snapshot -t test

(4)查看快照

 list_snapshots

(5)导出到HDFS

 hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot test_snapshot -copy-to  hdfs://user/back/xxx

(6)从快照恢复数据到原表中

restore _snapshot 'test_snapshot'

(7)从快照中恢复到一个新表中

clone_snapshot 'test_snapshot','test_2'

以上几种策略就是所有的备份策略了,实际应用中需要具体情况选择其中的一种或几种,总体来说快照备份是一个性价比比较高的一种策略。时间短,体积小,恢复快,最终还可以恢复数据到一张新表中,不影响原来的表。

原文发布于微信公众号 - 我是攻城师(woshigcs)

原文发表时间:2017-03-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏pythonlove

I/O模型

目前我们网络所面临的依然是高并发的问题,就像某cat双11时的情况,瞬间的并发量是惊人的,当然我们会有很多种方法去解决这个问题,本文我们谈论的是单台服务器,如何...

1212
来自专栏信安之路

安全开发之 token 那些事

在开发网络应用时,不管是移动端的 APP 也好,还是 web 端 APP 也好,只要有用户群体存在,都绕不开身份认证这个话题,选择一种好的身份认证方法常常在应用...

1290
来自专栏Java后端技术

解决Maven项目pom.xml文件报xxx\target\classes\META-INF\MANIFEST.MF (系统找不到指定的路径。)问题

最近自己在公司项目修改一些代码以后,出现如题的错误,后来各种Google等,最终找到了解决办法。

991
来自专栏Vamei实验室

被解放的姜戈07 马不停蹄

前面的文章研究了Django最主要的几个方面:数据库,模板,动态生成页面等。但都是使用python manage.py runserver来运行服务器。这是一个...

20010
来自专栏FreeBuf

图解Meterpreter实现网络穿透的方法

纵向防御也被被称为为“多层防御”,这样的概念被运用于“信息安全”上。以多层电脑安全技术去减轻其风险,在其中有些电脑被入侵或是泄密时,风险可大大降低。 举例说明,...

2286
来自专栏along的开发之旅

文加图, 理解Http请求与响应

在讲解OkHttp之前, 我们首先来个高清大图, 看下http请求的整个步骤, 有个整体概念.

1082
来自专栏Golang语言社区

selec/poll中的读写事件和epoll中的读写事件

在Linux网络编程中,常常使用select和poll来做事件触发,监听socket的读写状态,然后进行读写操作。现在新的linux内核中,增加了epoll事件...

3434
来自专栏无题

Redis高可用要点

1.持久化方式(全量持久化与增量持久化) 2.水平拆分(数据分布) 3.主从复制(主从分工) 4.故障转移(sentinel相互感知,master故障发现,fa...

37911
来自专栏郭耀华‘s Blog

危化品速查APP--Android Project

开发环境 Android studio 2.3.1 功能描述 集成多种查询方式,查看本地数据库中危险化学品的信息; 按照中文拼音和英文首字母,对化学品进行查询;...

3197
来自专栏软件开发 -- 分享 互助 成长

代理模式

一、相关介绍 1、代理模式为其他对象提供一种代理以控制对这个对象的访问 2、UML图 ? 3、所属类别:结构型 3、C++程序 1 // 代理模式.cpp :...

2179

扫码关注云+社区

领取腾讯云代金券