误删HBase数据如何抢救?

数据保护

当误删数据发生时候,不管三七二十一,第一要务是进入hbase shell,执行如下命令:

如果误删一张表的有多个family里的数据,需要都执行一下:

alter 'tt', { NAME => 'f1', KEEP_DELETED_CELLS => TRUE }, { NAME => 'f2', KEEP_DELETED_CELLS => TRUE }

设置 KEEP_DELETED_CELLS 为 True 的目的在于防止数据被物理删除。这里有必要解释一下HBase清理数据的原理:

  • 首先HBase是一个LSM架构,不断发生着数据文件的写入和合并
  • 当删除操作发生时,不会去清理数据文件中的数据,而是写入一个删除标记到新文件中。
  • 当某一刻major compaction发生时,在合并文件的同时会根据删除标记清理数据,新合并出来的数据文件不会再有旧数据。

KEEP_DELETED_CELLS 的作用就是在major compaction发生的时候,决定要不要清理旧数据。这里需要注意一点,即便 KEEP_DELETED_CELLS 设置为True,数据仍然会因为过期而被清理(HBsae表中的TTL属性)。这个设定无可厚非,既然过期了,误删不误删也无所谓了。

数据恢复

数据恢复的前提数据没有被物理删除,也就是上文提及的。你只需要在查询(Scan)的时候,指定raw模式来搜索数据,就能看到被删除的数据,之后你要做就是把数据再写入一次。我们来看一个简单的例子,还是以hbase shell为例子:

1.首先我们准备几行数据

2.然后我们删掉y开头掉数据

3.查一下,现在只有3行了

4.现在我们带上raw再次查找数据,不仅能看到被删除数据,还能看到删除标记。

这里我设置了TIMERANGE, 指定的是数据写入的时间。对于我这个case其实并没有什么用,我只是想说明几点:

  • 即便不设置RAW,也可以通过时间搜索到被删数据。比如数据写入时间是T,delete时间是T+2,那么查找[0, T+1]的话就能看见数据。前提是设置了 KEEP_DELETED_CELLS=TRUE
  • 如果你后续写入重复的Key,那你必须指定好TIMERANGE,不然你可能看到的不是原先删除的keyVlaue。
  • delete操作默认的时间不是当前server的时间,也不是构造Delete对象的时间,而是被删除的这个keyValue的写入时间。当然这个得看版本,测试时候发现1.x和2.x还是不一样的,有点坑,还以为高版本不能仅通过TIMERAGE搜素被删数据了。
  • 如果你的Delete mark的时间和数据的时间一样,那只能通过RAW看到。

数据恢复完,建议关闭KEEP_DELETED_CELLS,节省空间,提高查询效率。

其他

上文使用的是hbase shell演示,你可以使用任何语言的API完成上面的操作。

如果你使用的是云HBase,即便因为major compaction物理删除了数据,只要你开启了备份功能,依然可以恢复。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2018-06-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

CoffeeMiner:劫持WiFi网络接入设备进行“挖矿”的框架

几个星期以前,我看到了网上关于黑客劫持星巴克WiFi网络中的笔记本电脑进行“挖矿”的报道,非常有意思,结合分析,我认为,还能用中间人MITM测试方式来实现类似目...

2466
来自专栏七夜安全博客

无线安全专题_攻击篇--MAC泛洪攻击

1674
来自专栏开发与安全

浅谈网络数据包传递过程中涉及的话题

概括来说:首先我们在浏览器地址栏敲下域名地址,浏览器发出get请求,接下来进行dns域名解析(后面再详谈),此时浏览器已经得知目标IP,此时还得知道默认网关的m...

2275
来自专栏运维小白

18.7 LVS介绍

LVS介绍 LVS是由国人章文嵩开发 流行度不亚于apache的httpd,基于TCP/IP做的路由和转发,稳定性和效率很高 LVS最新版本基于Linux内核2...

2208
来自专栏Laoqi's Linux运维专列

LVS工作总结之原理篇–DR模式

38211
来自专栏散尽浮华

分布式监控系统Zabbix-3.0.3-完整安装记录-新报微信报警(企业微信)

一般来说,Zabbix可以通过多种方式把告警信息发送到指定人,常用的有邮件,短信报警方式,但是现在越来越多的企业开始使用zabbix结合微信作为主要的告警方式,...

26210
来自专栏CSDN技术头条

开源搜索和分析引擎Elasticsearche在Bay的性能优化实践,单集群日搜索请求超4亿

摘要:Elasticsearch是基于Apache Lucene的开源搜索和分析引擎,允许用户以近乎实时的方式存储,搜索和分析数据。虽然Elasticsearc...

2588
来自专栏腾讯玄武实验室的专栏

IE 浏览器 DOM 树结构概览(上)

DOM 作为现代浏览器的基础,其设计和实现方式影响着整个浏览器的表现。对安全研究者而言,了解DOM 的结构更是有着特殊的意义。在对 DOM 结构有了了解之后进行...

4760
来自专栏Albert陈凯

ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台

ELK平台介绍 在搜索ELK资料的时候,发现这篇文章比较好,于是摘抄一小段: 以下内容来自:http://baidu.blog.51cto.com/7193...

3177
来自专栏Java架构沉思录

一文读懂负载均衡之LVS

根据官方文档LVS支持三种负载工作方式:NAT方式、TUN方式和DR方式。为了说明这三种方式的工作原理,我们首先需要了解一下基础的IP/TCP报文(注意,IP报...

1863

扫码关注云+社区

领取腾讯云代金券