首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Hive 整合 HBase

作者 | 广   责编 | 张文

头图 | CSDN 下载自视觉中国

HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说不太友好,它只提供了简单的基于 Key 值的快速查询能力,没法进行大量的条件查询。

现有 HBase 的查询工具有很多如:Hive、Tez、Impala、Shark/Spark、Phoenix 等。今天主要说 Hive。

Hive 方便地提供了 Hive QL 的接口来简化 MapReduce 的使用, 而 HBase 提供了低延迟的数据库访问。如果两者结合,可以利用 MapReduce 的优势针对 HBase 存储的大量内容进行离线的计算和分析。

Hive 和 HBase 通信原理

Hive 与 HBase 整合的实现是利用两者本身对外的 API 接口互相通信来完成的。这种相互通信是通过 $HIVE_HOME/lib/hive-hbase-handler-.jar 工具类实现的。

通过 HBaseStorageHandler,Hive 可以获取到 Hive 表所对应的 HBase 表名、列簇和列、InputFormat、OutputFormat 类、创建和删除 HBase 表等。

Hive 访问 HBase 中表数据,实质上是通过 MapReduce 读取 HBase 表数据,其实现是在 MR 中,使用 HiveHBaseTableInputFormat 完成对 HBase 表的切分,获取 RecordReader 对象来读取数据。

对 HBase 表的切分原则是一个 Region 切分成一个 Split,即表中有多少个 Regions,MR 中就有多少个 Map;读取 HBase 表数据都是通过构建 Scanner,对表进行全表扫描,如果有过滤条件,则转化为 Filter。当过滤条件为 rowkey 时,则转化为对 rowkey 的过滤;Scanner 通过 RPC 调用 RegionServer 的 next()来获取数据;

基本通信原理如下:

Hive-HBase

具体步骤

新建 HBase 表:

插入数据:

这里 HBase 有个列簇 f1,有两个列 c1 和 c2,新建 Hive 表关联 HBase 的这两列:

这里使用外部表映射到 HBase 中的表,Hive 对应的 hdfs 目录是空的,数据仍然在 HBase 中,这样在 Hive 中删除表,并不会删除 HBase 中的表,否则,就会删除。

另外,除了 rowkey,其他三个字段使用 Map 结构来保存 HBase 中的每一个列族。

其中,参数解释如下:

指定 HBase 使用的 zookeeper 集群,默认端口是 2181,可以不指定;如果指定,格式为 zkNode1:2222,zkNode2:2222,zkNode3:2222

指定 HBase 在 zookeeper 中使用的根目录

hbase.columns.mapping

Hive 表和 HBase 表的字段一一映射,分别为:Hive 表中第一个字段映射:key(rowkey),第二个字段映射列族 f1:c1,第三个字段映射列族 f1:c2。

HBase 中表的名字

也可以直接在 Hive 中创建表的同时,完成在 HBase 中创建表。

在 Hive 中查询 HBase 表:

也可以插入数据:

查看 HBase 的数据:

Spark 读取提升速度

Hive 关联 HBase 实际是底层是 MR,速度较慢,此时可以使用 spark sql 读取 Hive 表,进行查询操作,从而访问 HBase 数据。

程序员如何避免陷入“内卷”、选择什么技术最有前景,中国开发者现状与技术趋势究竟是什么样?快来参与「2020 中国开发者大调查」,更有丰富奖品送不停!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210127A01VLA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券