首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >hbase的rowkey设计原则和实现方式

hbase的rowkey设计原则和实现方式

作者头像
凹谷
发布2020-04-11 10:36:03
1.2K0
发布2020-04-11 10:36:03
举报

不做“差不多”先生,要做“精益求精”的“完美”先生。

一:hbase的存储形式

hbase的内部使用KeyValue的形式存在,其key是有rowkey:family:column:logTime,value是其存储的内容。

其在region的是大多以升序的形式排列,唯一的是logtime是以降序的形式进行排列。

所以,按照越靠近左边的信息越容易被检索到。其设计时,要考虑把重要的信息放左边,不重要的信息放到右边。这样可以提高查询数据的速度。这样,最重要的提高索引速度的就是设计合适的rowkey。

二:rowkey的设计原则

1、长度原则

最短越好,最大不能超过64K。太长的影响有两点,一是极大影响了HFile的存储效率。二是缓存memstore不能得到有效利用,缓存不能存放太多的信息,造成检索效率的降低。

2、唯一原则

保证rowkey的唯一性,这条没有什么要讲的。

3、自己一条原则

尽量保证经常一起用的rowkey存储在同一个region上,有助于提升检索效率。但要避免热点问题。

4、对于常用的检索的rowkey,尽量使用纵表(行多列少),不要选择宽表(列多行少)。

三:rowkey引起热点问题的集中解决方法

1、加盐:在rowkey前面加一个冗余信息,这样可以把数据分散到不同的region中。

优点:可以有效的防止rowkey集中分配到一个或多个region中。有效避免了热点问题;

缺点:无形中增加了rowkey的长度;范围检索得不到有效使用。

2、字段交换,提升权重:如果rowkey中含有几个信息字段,可以调整信息字段的顺序。

缺点:对于单个信息字段,或者无论怎么调整都会遇到region热点的rowkey是解决不了的。

3、随机键:把rowkey进行hash化,在分配到不同的服务器上。和加盐的方式相似;

以下是顺序读的性能排行(由高到低,写性能与读性能相反):顺序键 -> 使用加盐键 -> 提升字段键 -> 随机键

强加几个知识点:

1、尽量使用范围查询代替前缀查询;

2、数据多时,用分页查询;

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-02-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据与微服务架构 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档