大数据入门基础系列之浅谈Hive的桶表

企鹅号小编

发布于 2018-03-02 15:23:14

9070

发布于 2018-03-02 15:23:14

文章被收录于专栏：企鹅号快讯

在前面的博文里，我已经介绍了

前言

Hive 中 table 可以继续拆分成Partition table（分区表）和桶（BUCKET）表，桶操作是通过 Partition 的 CLUSTERED BY 实现的，BUCKET 中的数据可以通过 SORT BY 排序。

　　BUCKET 主要作用如下：

1) 数据 sampling；

2) 提升某些查询操作效率，例如 Map Side Join。

需要特别主要的是，CLUSTERED BY 和 SORT BY 不会影响数据的导入，这意味着，用户必须自己负责数据的导入，包括数据额分桶和排序。

Hive还可以把表（外部表和内部表）或分区表，组织成桶表。将表或分区组织成桶有以下几个目的：

第一个目的是为看取样更高效，因为在处理大规模的数据集时，在开发、测试阶段将所有的数据全部处理一遍可能不太现实，这时取样就必不可少。

第二个目的是为了获得更好的查询处理效率。

桶为了表提供了额外的结构，Hive在处理某些查询时利用这个结构，能给有效地提高查询效率。

桶是通过对指定列进行哈希计算来实现的，通过哈希值将一个列名下的数据切分为一组桶，并使每个桶对应于该列名下的一个存储文件。

以下为创建带有桶的表的语句：

CREATE TABLE bucketed_user(id INT,name String)CLUSTERED BY (id) INTO4 BUCKETS;

向桶中插入数据，这里按照用户id分成了4个桶，在插入数据时对应4个reduce操作，输出4个文件。

分区中的数据可以被进一步拆分成桶，bucket，不同于分区对列直接进行拆分，桶往往使用列的哈希值进行数据采样。

在分区数量过于庞大以至于可能导致文件系统崩溃时，建议使用桶。

桶的数量是固定的。

Hive使用基于列的哈希函数对数据打散，并分发到各个不同的桶中从而完成数据的分桶过程。

注意，hive使用对分桶所用的值进行hash，并用hash结果除以桶的个数做取余运算的方式来分桶，保证了每个桶中都有数据，但每个桶中的数据条数不一定相等。

哈希函数的选择依赖于桶操作所针对的列的数据类型。除了数据采样，桶操作也可以用来实现高效的Map端连接操作。

记住，分桶比分区，更高的查询效率。

如何进行Hive桶表的操作？

例子1

1、创建临时表 student_tmp，并导入数据。

hive>desc student_tmp;hive>select*fromstudent_tmp;

2、创建 student 表。经过分区操作过后的表已经被拆分成2个桶。

create table student(idint,ageint,namestring)partitioned by (stat_datestring)clustered by (id) sorted by(age) into 2bucketrow format delimited fields terminated by',';

分区中的数据可以被进一步拆分成桶！！！正确理解

　　所有，桶，先partitioned by (stat_date string)

　　　　　　，再，clustered by (id) sorted by(age) into 2 bucket

3、设置环境变量。（这个别忘了）

4、插入数据

hive>fromstudent_tmpinsert overwrite table student partition(stat_date='2017-08-20')selectid,age,namewherestat_date='2017-08-20'sort by age;

这都是固定的格式，一环扣一环的。

5、查看文件目录

$ hadoop fs -ls /usr/hive/warehouse/student/stat_date=2017-08-20/

6、查看 sampling 数据。

Hive>select*fromstudent tablesample(bucket1outof2on id);

tablesample 是抽样语句，语法如下：

tablesample(bucket x out of y)

y 必须是 table 中 BUCKET 总数的倍数或者因子。

例子2

在下面的例子中，经过分区操作过后的表已经被拆分成100个桶。

CREATE EXTERNAL TABLE videos_b(prodicerstring,titlestring,categorystring)PARTITIONED BY(yearint)CLUSTERED BY(title)INTO 100 BUCKETS;

现在，我们开始填充这张带桶操作的表：

此外，还需要在SELECT语句后面加上CLUSTERBY来实现INSERT查询。

下面是不使用桶设置的例子：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

看完本文有收获？请转发分享给更多人

关注「大数据躺过的坑」，提升大神技能

觉得不错，请点赞和留言

本文来自企鹅号 - 好记性不如烂笔头干货媒体

如有侵权，请联系 cloudcommunity@tencent.com 删除。

其他

本文来自企鹅号 - 好记性不如烂笔头干货媒体

如有侵权，请联系 cloudcommunity@tencent.com 删除。

其他

登录后参与评论

0 条评论

热度

大数据入门基础系列之浅谈Hive的桶表

大数据入门基础系列之浅谈Hive的桶表

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐