埋头三天才把冷热分离二期实现思路：冷数据存放到HBase给搞懂

IT大咖说

发布于 2022-07-26 19:41:04

7830

发布于 2022-07-26 19:41:04

文章被收录于专栏：IT大咖说

◆ 冷热分离二期实现思路：冷数据存放到HBase

◆ 冷热分离一期解决方案的不足

不得不说，冷热分离一期的解决方案确实能解决写操作慢和热数据慢的问题，但仍然存在诸多不足。

1）用户查询冷数据的速度依旧很慢，虽然查询冷数据的用户比例很低。

2）冷数据库偶尔会告警。

这两点不足体现在用户侧是什么样呢？那就是一旦客服在工单查询表中勾选“查询归档”checkBox，页面就会一直转圈，而后台冷数据库的IO就会飙升。

如果客服发现页面没反应，可能会多点几次“查询”按钮，那么有可能把后台服务器的请求线程占满，导致整个系统响应都很慢。

归档的数据库里面，工单表仍然有3000多万的工单数据，工单处理记录表仍然有数亿的数据。这个查询不可能不慢。一期要做冷热分离的时候，项目组只有1周的时间（实际用了10天），但是之后有空闲，就可以好好考虑一下归档数据库的设计了。

先说一下归档工单的查询场景。

◆ 归档工单的使用场景

对于归档的工单，与客服沟通后发现，基本只有以下几个查询动作。

1）根据客户的邮箱查询归档工单。

2）根据工单ID查出该工单所有的处理记录。而且这些操作一年做不了几次，慢一些完全没有问题。

这些操作转化成技术需求就是：需要找到一个数据库，它可以满足下面的要求。

1）可以存放上亿甚至数亿的数据。因为按照一年3000多万的工单来看，3年以后工单表的数据就上亿了，工单处理记录表的数据也会多出几亿。

2）支持简单的组合关键字查询，查询慢一些可以接受。

3）存放的数据不再需要变更。基于这个特性，就可以将历史工单的详情数据封装在一个文档中，类似于Key-Value，Key就是工单ID，Value就是工单详情数据。

最后，项目组决定使用HBase来保存归档工单。

为什么HBase适合这个场景？下面先简单介绍一下HBase的原理。

◆ HBase原理介绍

1.HBase的基本数据结构是什么样子的？

假设有这样一位大侠的数据（两个JSON对象）

这样的数据在HBase中应该怎么存储？

这就要说说HBase的数据结构“列簇存储”了。

HBase 里面有这些概念：Table 、 Row 、 Column 、 ColumnFamily 、ColumnQualifier、Cell、TimeStamp。

其中，Table、Row与关系型数据库中的表、行含义是一样的，较易理解。

假设对于上面的大侠数据已有一个Table，就是大侠的表。其中，郭靖是这个表中的一行数据（Row），黄蓉也是一行数据。

那么Column、ColumnFamily、ColumnQualifier、Cell、TimeStamp又分别是什么意思？

可以发现，大侠有3个一级属性：姓名、武功、关系。从上面的数据可以看到，武功这个一级属性，下面又有很多二级属性，比如掌法、内功、指法；关系这个一级属性，下面也有多种二级属性，比如丈夫、妻子。

那么，可以根据这些一级属性创建3个ColumnFamily：姓名、武功、关系。ColumnFamily一开始就要定义好，类似于关系型数据库里面的列，属于schema（纲要）的范畴。

每个ColumnFamily可以灵活增加ColumnQualifier，ColumnQualifier不需要在创建表的时候定义。比如武功的ColumnQualifier有掌法、内功、指法等，以后也可以添加。

接下来回到HBase的列簇存储。为什么叫列簇存储？因为它们存到HBase中的其实是表1-3和表1-4那样的数据。

表1-3 姓名列簇

表1-4 武功列簇

每一个RowKey、TimeStamp以及Key-Value值就是一个Cell。

Tips 虽然姓名和武功这两个ColumnFamily属于同一个表，但是它们物理上是分开存储的。这也是HBase的一张表可以存放上百亿数据的原因：HBase同一行的数据没有存放在一起。但也是因为这个特性，HBase基本实现不了复杂的查询，效率也不高。

2.HBase的物理存储模型

HBase一个表中的数据会根据RowKey的范围划分成多个Region。

每个 RegionServer 是一个服务器节点，会包含多个 Region 。一个RegionServer大概包含1000个Region，这个RegionServer会处理它下面所有Region的读写操作。

这里再讲一下它们各自的关系。

1）一个表会被水平切割成多个Region。

2）一个Region会包含多个Row，包含startkey和endkey之间所有连续的行。每个Region的大小默认会控制在1GB内。

3）一个Region会包含多个MemStore。

4）一个MemStore会存储一个ColumnFamily。

5）一个MemStore会把数据写入多个HFile。

6）一个RegionServer会服务多个Region。

接下来讨论一下它对于读和写请求的处理流程。

3.HBase的写操作

这一部分直接讲解HBase的写操作流程。

1）客户端访问ZooKeeper，读取元数据。

2）根据namespace、表名、RowKey找到数据对应的Region。

3）访问Region对应的RegionServer。

4）写入WAL（WriteAheadLog，也叫HLog）。每一个RegionServer都会维护一个WAL文件（也是基于Hadoop分布式文件系统HDFS）。所有的写操作都会先把变动加到WAL文件的末尾。WAL会保存所有未持久化的新数据。它可以用来做数据恢复。

5）写入MemStore。MemStore相当于一个写缓存。每个Region的每个列簇都有一个MemStore。数据在写入磁盘或持久化之前，会先保存在MemStore。

6）通知客户端写入完成。

Tips MemStore的数据到达阈值时，数据会被持久化到HFile中。

4.HBase的读操作

HBase一次读操作的流程如下。

1）客户端访问ZooKeeper，读取元数据。

2）根据namespace、表名、RowKey找到数据对应的Region。

3）访问Region对应的RegionServer。

4）查找对应的Region。

5）查询MemStore。

6）找到BlockCache。每个RegionServer都有BlockCache，相当于一个读缓存。扫描器会先查询BlockCache。

7）如果没有找到所有的Cell（单元数据），则会到多个HFile中去查找。

◆ HBase的表结构设计

项目组当时初次使用 HBase ，认真阅读了 HBase 的说明文档： http://HBase.apache.org/book.html。

文档内容比较丰富，也有很多有趣的地方，比如有一处内容是关于ColumnFamily的数量的：HBase不推荐具有两个以上ColumnFamily的设计。以下是官方文档中的相关说明。

HBase currently does not do well with anything above two or three column families so keep the number of column families in your schema low.Currently, flushing is done on a per Region basis so if one column family is carrying the bulk of the data bringing on flushes, the adjacent families will also be flushed even though the amount of data they carry is small.When many column families exist the flushing interaction can make for a bunch of needless I/O（To be addressed by changing flushing to work on a per column family basis）.In addition, compactions triggered at table/region level will happen per store too. Try to make do with one column family if you can in your schemas.Only introduce a second and third column family in the case where data access is usually column scoped; i.e.you query one column family or the other but usually not both at the one time.

这里简单解释一下。前面提过，每个Region有多个MemStore，每个MemStore 有一个 ColumnFamily 的数据，也就是说一个 Region 有多个ColumnFamily的数据。MemStore的数据量到达一定的阈值以后，就会保存到HFile。MemStore->HFile这个动作被称为flushing。目前的flushing动作是Region级别的。也就是说，假设MemStore A保存ColumnFamily A的数据，里面的ColumnFamily A数据满了，那么就会触发一次flushing操作，这个MemStore所在的Region下面的所有MemStore都会flushing。但是MemStore B、MemStoreC的数据可能还很空，这种情况下就增加了很多不必要的I/O操作。

当然，HBase里面还有很多注意事项，仅表结构设计就有很多内容，而且用到线上的业务系统比较难。不过，它还有关于实例的部分（45.SchemaDesign Case Studies）可以参考，能帮助用户快速上手。这部分文档包括以下几个方面。

• Log Data / Timeseries Data。

• Log Data / Timeseries on Steroids。

• Customer/Order。

• Tall/Wide/Middle Schema Design。

• List Data。

项目组从Hbase的说明文档中得出了以下设计要点。

1）HBase的查询有两种，一种是根据RowKey直接获取记录，一种是以Scan方式扫描所有的Row。前面说过，系统有根据客户邮箱获取工单记录的需求，所以可以将邮箱名放到RowKey中，这样以后查询特定邮箱的工单时只需要扫描RowKey ，而不需要扫描列的值，速度将大大加快。所以 RowKey 设计为［customeremail］［ticketID］。

但是customeremail是不可控的，也可能很长，导致RowKey很长。前面也提过，HBase是KeyValue存储，每个ColumnKey见表1-5。