岑玉海-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

岑玉海

专栏成员

105

文章

138750

阅读量

56

订阅数

hbase源码系列（十二）Get、Scan在服务端是如何处理？

继上一篇讲了Put和Delete之后，这一篇我们讲Get和Scan, 因为我发现这两个操作几乎是一样的过程，就像之前的Put和Delete一样，上一篇我本来只打算写Put的，结果发现Delete也可以走这个过程，所以就一起写了。 Get 我们打开HRegionServer找到get方法。Get的方法处理分两种，设置了ClosestRowBefore和没有设置的，一般来讲，我们都是知道了明确的rowkey，不太会设置这个参数，它默认是false的。 if (get.hasClosestRowBefore()

2018-03-01

2K0

hbase源码系列（十一）Put、Delete在服务端是如何处理？

在讲完之后HFile和HLog之后，今天我想分享是Put在Region Server经历些了什么？相信前面看了《HTable探秘》的朋友都会有印象，没看过的建议回去先看看，Put是通过MultiServerCallable来提交的多个Put，好，我们就先去这个类吧，在call方法里面，我们找到了这句。 responseProto = getStub().multi(controller, requestProto); 它调用了Region Server的multi方法。好，我们立即杀到HRegionServ

2018-03-01

1.9K0

hbase源码系列（五）Trie单词查找树

　　在上一章中提到了编码压缩，讲了一个简单的DataBlockEncoding.PREFIX算法，它用的是前序编码压缩的算法，它搜索到时候，是全扫描的方式搜索的，如此一来，搜索效率实在是不敢恭维，所以

2018-03-01

1.1K0

hbase源码系列（三）Client如何找到正确的Region Server

　　客户端在进行put、delete、get等操作的时候，它都需要数据到底存在哪个Region Server上面，这个定位的操作是通过HConnection.locateRegion方法来完成的。 loc = hConnection.locateRegion(this.tableName, row.getRow()); 　　这里我们首先要讲hbase的两张元数据表-ROOT-和.META.表，它们一个保存着region的分部信息，一个保存着region的详细信息。在《hbase实战》这本书里面详细写了查找过

2018-03-01

1.8K0

hbase源码系列（二）HTable 探秘

　　hbase的源码终于搞一个段落了，在接下来的一个月，着重于把看过的源码提炼一下，对一些有意思的主题进行分享一下。继上一篇讲了负载均衡之后，这一篇我们从client开始讲吧，从client到master再到region server，按照这个顺序来开展，网友也可以对自己感兴趣的部分给我留言或者直接联系我的QQ。　　现在我们讲一下HTable吧，为什么讲HTable，因为这是我们最常见的一个类，这是我们对hbase中数据的操作的入口。 1.Put操作　　下面是一个很简单往hbase插入一条记录的例子。

2018-03-01

2.1K0

hbase 学习（十四）Facebook针对hbase的优化方案分析

使用hbase的目的是为了海量数据的随机读写，但是在实际使用中却发现针对随机读的优化和gc是一个很大的问题，而且hbase的数据是存储在Hdfs，而Hdfs是面向流失数据访问进行设计的，就难免带来效率的下降。下面介绍一下Facebook Message系统在HBase online storage场景下的一个案例（《Apache Hadoop Goes Realtime at Facebook》, SIGMOD 2011），最近他们在存储领域顶级会议FAST2014上发表了一篇论文《Analysis of

2018-03-01

1.2K0

hbase源码系列（四）数据模型-表定义和列族定义的具体含义

hbase 数据库缓存

　hbase是一个KeyValue型的数据库，在《hbase实战》描述它的逻辑模型【行键，列族，列限定符，时间版本】，物理模型是基于列族的。但实际情况是啥？还是上点代码吧。　　　　 HTableDescriptor tableDesc = new HTableDescriptor("test"); //日志flush的时候是同步写，还是异步写 tableDesc.setDurability(Durability.SYNC_WAL); //MemStore大

2018-03-01

1.1K0

hbase源码系列（十四）Compact和Split

先上一张图讲一下Compaction和Split的关系，这样会比较直观一些。 Compaction把多个MemStore flush出来的StoreFile合并成一个文件，而Split则是把过大的文件

2018-03-01

1.4K0

hbase 学习（十五）缓存机制以及可以利用SSD作为存储的BucketCache

hbase 缓存存储

　　下面介绍Hbase的缓存机制：　　a.HBase在读取时，会以Block为单位进行cache，用来提升读的性能　　b.Block可以分类为DataBlock(默认大小64K,存储KV)、BloomBlock(默认大小128K,存储BloomFilter数据)、IndexBlock(默认大小128K,索引数据，用来加快Rowkey所在DataBlock的定位) 　　c.对于一次随机读，Block的访问顺序为BloomBlock、IndexBlock、DataBlock，如果Region下面的Stor

2018-03-01

2.3K0

hbase源码系列（七）Snapshot的过程

　　在看这一章之前，建议大家先去看一下snapshot的使用。可能有人会有疑问为什么要做Snapshot，hdfs不是自带了3个备份吗，这是个很大的误区，要知道hdfs的3个备份是用于防止网络传输中的失败或者别的异常情况导致数据块丢失或者不正确，它不能避免人为的删除数据导致的后果。它就想是给数据库做备份，尤其是做删除动作之前，不管是hbase还是hdfs，请经常做Snapshot，否则哪天手贱了。。。　　直接进入主题吧，上代码。 public void takeSnapshot(SnapshotDescr

2018-03-01

1.6K0

hbase源码系列（六）HMaster启动过程

hbase 编程算法分布式

　　这一章是server端开始的第一章，有兴趣的朋友先去看一下hbase的架构图，我专门从网上弄下来的。　　按照HMaster的run方法的注释，我们可以了解到它的启动过程会去做以下的动作。 * <li>阻塞直到变成ActiveMaster * <li>结束初始化操作 * <li>循环 * <li>停止服务并执行清理操作* </ol> 　　HMaster是没有单点问题是，因为它可以同时启动多个HMaster，然后通过zk的选举算法选出一个HMaster来。　　我们首先来看看这个阻塞直到变成Act

2018-03-01

2.2K0

hbase源码系列（十）HLog与日志恢复

HLog概述 hbase在写入数据之前会先写入MemStore，成功了再写入HLog，当MemStore的数据丢失的时候，还可以用HLog的数据来进行恢复，下面先看看HLog的图。旧版的HLog是实

2018-03-01

1.2K0

hbase源码系列（十五）终结篇&Scan续集-->如何查询出来下一个KeyValue

这是这个系列的最后一篇了，实在没精力写了，本来还想写一下hbck的，这个东西很常用，当hbase的Meta表出现错误的时候，它能够帮助我们进行修复，无奈看到3000多行的代码时，退却了，原谅我这点自私的想法吧。在讲《Get、Scan在服务端是如何处理？》当中的nextInternal流程，它的第一步从storeHeap当中取出当前kv，这块其实有点儿小复杂的，因为它存在异构的Scanner（一个MemStoreScanner和多个StoreFileScanner），那怎么保证从storeHeap里面拿出来

2018-03-01

1.1K0

hbase 学习（十二）非mapreduce生成Hfile，然后导入hbase当中

hbase mapreduce zookeeper

　　最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile的方式，实现了之后，发现单线程入库速度才达到1w4左右，和之前的多线程的全速差不多了，百思不得其解之时，调整

2018-03-01

1.3K0

hbase 学习（十三）集群间备份原理

　　集群建备份，它是master/slaves结构式的备份，由master推送，这样更容易跟踪现在备份到哪里了，况且region server是都有自己的WAL 和HLog日志，它就像mysql的主从备份结构一样，只有一个日志来跟踪。一个master集群可以向多个slave集群推送，收到推送的集群会覆盖它本地的edits日志。　　这个备份操作是异步的，这意味着，有时候他们的连接可能是断开的，master的变化不会马上反应到slave当中。备份个格式在设计上是和mysql的statement-based r

2018-03-01

1.2K0

Hbase 学习（十一）使用hive往hbase当中导入数据

　　我们可以有很多方式可以把数据导入到hbase当中，比如说用map-reduce，使用TableOutputFormat这个类，但是这种方式不是最优的方式。　　Bulk的方式直接生成HFiles，写入到文件系统当中，这种方式的效率很高。　　一般的步骤有两步　　（1）使用ImportTsv或者import工具或者自己写程序用hive/pig生成HFiles 　　（2）用completebulkload把HFiles加载到hdfs上　　ImportTsv能把用Tab分隔的数据很方便的导入到hbase当

2018-03-01

2K0

Hbase 学习（十） HBase Snapshots

HBase Snapshots允许你对一个表进行快照（即可用副本），它不会对Region Servers产生很大的影响，它进行复制和恢复操作的时候不包括数据拷贝。导出快照到另外的集群也不会对Region Servers产生影响。下面告诉你如何使用Snapshots功能 1.开启快照支持功能，在0.95+之后的版本都是默认开启的，在0.94.6+是默认关闭 <property> <name>hbase.snapshot.enabled</name> <value>true</value

2018-03-01

4.5K0

Hbase 学习（三）Coprocessors

Coprocessors 之前我们的filter都是在客户端定义，然后传到服务端去执行的，这个Coprocessors是在服务端定义，在客户端调用，然后在服务端执行，他有点儿想我们熟悉的存储过程，传一些参数进去，然后进行我们事先定义好的操作，我们常常用它来做一些比如二次索引啊，统计函数什么的，它也和自定义filter一样，需要事先定好，然后在hbase-env.sh中的HBASE_CLASSPATH中指明，就像我的上一篇中的写的那样。 Coprocessors分两种，observer和endpoint

2018-03-01

9690

Hbase 学习（四） hbase客户端设置缓存优化查询

我们在用hbase的api对hbase进行scan操作的时候，可以设置caching和batch来提交查询效率，那它们之间的关系是啥样的呢，我们又应该如何去设置? 首先是我们的客户端代码。当c

2018-03-01

3.1K0

Hbase 学习（五）调优

1.垃圾回收器调优当我们往hbase写入数据，它首先写入memstore当中，当menstore的值大于hbase.hregion.memstore.flush.size参数中设置的值后，就会写入硬盘。在hbase-env.sh文件中，我们可以设置HBASE_OPTS或者HBASE_REGIONSERVER_OPTS，后者只影响region server进程。 export HBASE_REGIONSERVER_OPTS="-Xmx8g -Xms8g -Xmn128m -XX:+UseParNe

2018-03-01

1K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态