Hbase 的 WAL 在 RegionServer 基本调用过程

作者介绍:熊训德

Hbase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。本文档用于说明 hbase 的 wal 简单原理以及从源码的角度分析一个“写”请求是如何到达 wal ,wal 又会做哪些请求。

特别说明 Hbase 不同版本的wal的源码差异比较大,但是原理几乎类似,本文档是采用当前线上使用版本( Hbase1.1.3 )来分析的。

简单原理

有关 hbase 的 wal 基本原理在《Hbase权威指南》以及网络教程中叙述的算比较清晰详尽,在此只做简单的叙述。

hbase 是基于 LSM 树的存储系统,它使用日志文件和内存存储来的存储架构将随机写转换成顺序写,以此保证稳定的数据插入速率。而这里说的日志文件即是wal文件,用于在服务器崩溃后回滚还没持久化的数据。

WAL(Write-Ahead-Log) 是 HBase 的 RegionServer 在处理数据插入和删除的过程中用来记录操作内容的一种日志。大致过程如下图所示,首先客户端启动一个操作来修改数据,每一个修改都封装到 KeyValue 对象实例中,并通过RPC调用发送到含有匹配 Region 的 HRegionServer 。一旦 KeyValue 到达,它们就会被发送管理相应行的 HRegion 实例。数据被写到 WAL,然后被放入到实际拥有记录的存储文件的 MemStore 中。同时还会检查 MemStore 是否满了,如果满了就会被刷写到磁盘中去。

wal调用链源码分析

本节将从源码角度如上所简述分析hbase的一个“写”过程。

其中基本调用过程如下:

从时序图中可以大体看到

  1. 首先 client 端先把 put/delete 等 api 操作封装成List<MutationProto>,然后使用 protobuf 协议使用 rpc 服务发送到对应的 HRegionServer ,HRegionServe r调用 execRegionServerService() 方法解析发送过来的 protobuf 协议二进制包,通过 serviceName 找到相应的 service 并调用 callMethod 方法执行:
  1. put/delet 等“写”操作会使用 MultiRowMutationService 这个 service 来作用,在 service 中将会调用 mutateRows( )方法去处理List<MutationProto>,真正调用 mutateRows() 的是 MultiRowMutationService 的一个实现类MultiRowMutationEndpoint ,MultiRowMutationEndpoint 类实现了 hbase 的行事务。从 MultiRowMutationEndpoint类文档可以看出其主要作用:

mutateRows() 方法会 row 所找到对应的 Region,并调用其对应实例 HRegion 的 mutateRowsWithLocks 方法具体实现写入过程。

  1. 在HRegion 类中 mutateRowsWithLocks 方法查看有没执行器 (RowProcessor) ,如果没有则创建一个再调用processRowsWithLocks() 方法。processRowsWithLocks 方法是整个“写”操作最核心的方法:把写wal,刷wal以及写memstore流程都在这里流转。在这里包括异常处理一共有14步之多。 它的原型如下:

其中processor的实现类是MultiRowMutationProcessor。 虽然processRowsWithLocks方法步骤很多,但是最关键的是如下几步:

在这里,HRegion将会对Region加锁,加锁的方式是把所有写row相关的行锁都拿到的二阶段锁方式。

在这里将会把List放入,但是这里并不是真正的放到了memstore,真正的执行会等sync()方法把日志或者说WALEdite真正刷入磁盘后,通过mvcc版本号异步通知再把数据写到memstore。

在这里HRegion会把封装好的WALEdit使用FSHLog的append方法追加到日志文件,但是由于文件本身在内存中有缓存的原因,还需要调用sync刷入磁盘。这里只是把WALEdit数据放到一个LMAX Disrutpor RingBuffer中。这个RingBuffer是一个线程安全的消息队列,在wal中主要用于有效且安全的协调多个生产者一个消费者模型。其中多个生产者就是这个append方法,将会有很多client产生数据都放到这个消息队列中,但是只有一个消费者从这个队列中取数据并调用sync方法把数据从缓存刷到磁盘,这样能保证WAL日志并发写入时日志的全局唯一顺序。 (其中有关LMAX Disrutpor RingBuffer可以参看文章,介绍的非常详尽:https://github.com/LMAX-Exchange/disruptor/wiki/Introduction)

在这步中会会调用syncOrDefer方法,除了metaRegion,syncOrDefer将根据client设置的持久化等级选择是否调用wal(FSHLog)的sync方法

HBase中可以通过设置WAL的持久化等级决定是否开启WAL机制、以及HLog的落盘方式。

client可以通过设置WAL持久化等级,如代码:put.setDurability(Durability. SYNC_WAL );

1.1.3版本的WAL的持久化等级分为如下四个等级:

USER_DEFAULT:默认如果用户没有指定持久化等级,HBase使用SYNC_WAL等级持久化数据。

SKIP_WAL:只写缓存,不写HLog日志。这种方式因为只写内存(memstore),因此可以提升写入性能,但是数据有丢失的风险。

ASYNC_WAL:异步将数据写入HLog日志中。

SYNC_WAL:同步将数据写入日志文件中,有可能只是被写入文件系统中,并没有真正落盘。

FSYNC_WAL:同步将数据写入日志文件并强制落盘。最严格的日志写入等级,可以保证数据不会丢失,但是性能相对比较差。

如代码中所示当前sync_wal和fsync_wal采用的是同一策略都是:调用HFLog的sync()方法。sync()是一个阻塞方法,需要等到数据真正的刷到磁盘后,便会唤醒它,然后工作线程返回写入memstore,完成一次“写”操作。

小结

Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。本文档在介绍hbase基本“写”原理后着重从源码角度,比较浅显地分析了一个“写”操作后在RegionServer的调用过程,为以后继续更深入学习研究hbase“写”过程梳理了脉络。

相关推荐

Hbase写入hdfs源码分析

Hbase WAL线程模型源码分析

HBase跨版本数据迁移总结

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏码洞

深入Python多进程编程基础——图文版

多进程编程知识是Python程序员进阶高级的必备知识点,我们平时习惯了使用multiprocessing库来操纵多进程,但是并不知道它的具体实现原理。下面我对多...

601
来自专栏架构师之旅

Azkaban集群内部调度原理分析

Azkaban是一个非常简单实用,而且开源的作业调度系统。在2.x版本中不支持集群模式部署,在3.x版本中支持集群模式部署,适用于作业量比较大一些的应用场景。有...

1073
来自专栏Python研发

程序中的异步和同步

同步:   主机A发送数据的时候,主机B必须等待接收,处于阻塞状态,这就好比别人给你打电话,你必须当场听话,否则则【错失良机】。

662
来自专栏散尽浮华

Python-操作Memcache、Redis、RabbitMQ、

Memcache 简述:      Memcache是一套分布式的高速缓存系统,由LiveJournal的Brad Fitzpatrick开发,但目前被许多网站...

2317
来自专栏逸鹏说道

C#线程篇---让你知道什么是线程(1)

线程线程,进程进程,到底什么是线程,什么是熟练多线程编程? 今天来和大家一起讨论讨论线程基础,让大家知道线程的基本构造。 说线程之前,先要了解下进程,这个可不能...

3489
来自专栏王亚昌的专栏

路由查找算法优化心得

    项目代码中有一个基础类库,用于解析client到server的路由配置文件,同时管理长连接。路由配置文件格式大致如下所示:

672
来自专栏北京马哥教育

MongoDB多纬度监控方法详解

一、mongostat工具方法 mongostat是mongdb自带的状态检测工具,在命令行下使用。它会间隔固定时间获取mongodb的当前运行状态,并输出。如...

3925
来自专栏小白鼠

ZookeeperZNode基本命令四字命令SessionWatcherACLZookeeper集群Paxos算法ZAB协议Curator分布式锁

在Zookeeper中,ZNode可以分为持久节点和临时节点两类。所谓持久节点是指一旦这个ZNode被创建了,除非主动进行ZNode的移除操作,否则这个ZNod...

363
来自专栏Golang语言社区

【Golang语言社区投稿】golang高并发基于协程,通道的任务池

要点: 封装了协程模型基于select模型的通道传递; 支持同步和异步添加任务;由于golang无函数指针,任务函数利用了go 反射机制支持可变参的入参 开发者...

49111
来自专栏犀利豆的技术空间

Redis 命令的执行过程

之前写了一系列文章,已经很深入的探讨了 Redis 的数据结构,数据库的实现,key的过期策略以及 Redis 是怎么处理事件的。所以距离 Redis 的单机实...

561

扫码关注云+社区