Hive的数据类型

本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。

hive的数据类型

Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。

原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示:

由上表我们看到hive不支持日期类型,在hive里日期都是用字符串来表示的,而常用的日期格式转化操作则是通过自定义函数进行操作。

hive是用java开发的,hive里的基本数据类型和java的基本数据类型也是一一对应的,除了string类型。有符号的整数类型:TINYINT、SMALLINT、INT和BIGINT分别等价于java的byte、short、int和long原子类型,它们分别为1字节、2字节、4字节和8字节有符号整数。Hive的浮点数据类型FLOAT和DOUBLE,对应于java的基本类型float和double类型。而hive的BOOLEAN类型相当于java的基本数据类型boolean。

对于hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。

Hive支持基本类型的转换,低字节的基本类型可以转化为高字节的类型,例如TINYINT、SMALLINT、INT可以转化为FLOAT,而所有的整数类型、FLOAT以及STRING类型可以转化为DOUBLE类型,这些转化可以从java语言的类型转化考虑,因为hive就是用java编写的。当然也支持高字节类型转化为低字节类型,这就需要使用hive的自定义函数CAST了。

复杂数据类型包括数组(ARRAY)、映射(MAP)和结构体(STRUCT),具体如下表所示:

下面我们看看hive使用复杂数据类型的实例,建表:

Create table complex(col1 ARRAY<INT>,Col2 MAP<STRING,INT>,Col3 STRUCT<a:STRING,b :INT,c:DOUBLE>)

查询语句:

Select col1[0],col2[‘b’],col3.c from complex;

接下来我们来看看hive的数据模型,hive的数据模型包括:database、table、partition和bucket。下面我将一一论述这四种数据模型。

Database

相当于关系数据库里的命名空间(namespace),它的作用是将用户和数据库的应用隔离到不同的数据库或模式中,该模型在hive 0.6.0之后的版本支持,hive提供了create database dbname、use dbname以及drop database dbname这样的语句。

表(table)

hive的表逻辑上由存储的数据和描述表格中的数据形式的相关元数据组成。表存储的数据存放在分布式文件系统里,例如HDFS,元数据存储在关系数据库里,当我们创建一张hive的表,还没有为表加载数据的时候,该表在分布式文件系统,例如hdfs上就是一个文件夹(文件目录)。Hive里的表友两种类型一种叫托管表,这种表的数据文件存储在hive的数据仓库里,一种叫外部表,这种表的数据文件可以存放在hive数据仓库外部的分布式文件系统上,也可以放到hive数据仓库里(注意:hive的数据仓库也就是hdfs上的一个目录,这个目录是hive数据文件存储的默认路径,它可以在hive的配置文件里进行配置,最终也会存放到元数据库里)。

下面是创建托管表的实例语句:

Create table tuoguan_tbl (flied string);Load data local inpath ‘home/hadoop/test.txt’ into table tuoguan_tbl;

外部表创建的实例:

Create external table external_tbl (flied string) Location ‘/home/hadoop/external_table’;Load data local inpath ‘home/hadoop/test.txt’ into table external_tbl;

分区(partition)

hive里分区的概念是根据“分区列”的值对表的数据进行粗略划分的机制,在hive存储上就体现在表的主目录(hive的表实际显示就是一个文件夹)下的一个子目录,这个文件夹的名字就是我们定义的分区列的名字,没有实际操作经验的人可能会认为分区列是表的某个字段,其实不是这样,分区列不是表里的某个字段,而是独立的列,我们根据这个列存储表的里的数据文件。使用分区是为了加快数据分区的查询速度而设计的,我们在查询某个具体分区列里的数据时候没必要进行全表扫描。下面我就举一个分区使用的实例:

创建分区:

Create table logs(ts bigint,line string)Partitioned by (dt string,country string);

加载数据:

Local data local inpath ‘/home/hadoop/par/file01.txt’ into table logs partition (dt=’2012-06-02’,country=’cn’);

在hive数据仓库里实际存储的路径如下所示:

/user/hive/warehouse/logs/dt=2013-06-02/country=cn/file1.txt/user/hive/warehouse/logs/dt=2013-06-02/country=cn/file2.txt/user/hive/warehouse/logs/dt=2013-06-02/country=us/file3.txt/user/hive/warehouse/logs/dt=2013-06-02/country=us/file4.txt

我们看到在表logs的目录下有了两层子目录dt=2013-06-02和country=cn

查询操作:

Select ts,dt,line from logs where country=’cn’,

这个时候我们的查询操作只会扫描file1.txt和file2.txt文件。

桶(bucket)

上面的table和partition都是目录级别的拆分数据,bucket则是对数据源数据文件本身来拆分数据。使用桶的表会将源数据文件按一定规律拆分成多个文件,要使用bucket,我们首先要打开hive对桶的控制,命令如下:

set hive.enforce.bucketing = true

示例:

建临时表student_tmp,并导入数据:

hive> desc student_tmp;

OK

id int

age int

name string

stat_date string

Time taken: 0.106 seconds

hive> select * from student_tmp;

OK

1 20 zxm 20120801

2 21 ljz 20120801

3 19 cds 20120801

4 18 mac 20120801

5 22 android 20120801

6 23 symbian 20120801

7 25 wp 20120801

Time taken: 0.123 seconds

建student表:

hive>create table student(id INT, age INT, name STRING)

>partitioned by(stat_date STRING)

>clustered by(id) sorted by(age) into 2 bucket

>row format delimited fields terminated by ',';

设置环境变量:

>set hive.enforce.bucketing = true;

插入数据:

>from student_tmp

>insert overwrite table student partition(stat_date="20120802")

>select id,age,name where stat_date="20120801" sort by age;

看文件目录:

$ hadoop fs -ls /user/hive/warehouse/studentstat_date=20120802/

Found 2 items

-rw-r--r-- 1 work supergroup 31 2012-07-31 19:52 /user/hive/warehouse/student/stat_date=20120802/000000_0

-rw-r--r-- 1 work supergroup 39 2012-07-31 19:52 /user/hive/warehouse/student/stat_date=20120802/000001_0

物理上,每个桶就是表(或分区)目录里的一个文件,桶文件是按指定字段值进行hash,然后除以桶的个数例如上面例子2,最后去结果余数,因为整数的hash值就是整数本身,上面例子里,字段hash后的值还是字段本身,所以2的余数只有两个0和1,所以我们看到产生文件的后缀是*0_0和*1_0,文件里存储对应计算出来的元数据。下面这段文字是我引用博客园里风生水起的博文:

Hive的桶,我个人认为没有特别的场景或者是特别的查询,我们可以没有必要使用,也就是不用开启hive的桶的配置。因为桶运用的场景有限,一个是做map连接的运算,我在后面的文章里会讲到,一个就是取样操作了,例子:

查看sampling数据:

hive> select * from student tablesample(bucket 1 out of 2 on id);

Total MapReduce jobs = 1

Launching Job 1 out of 1

.......

OK

4 18 mac 20120802

2 21 ljz 20120802

6 23 symbian 20120802

Time taken: 20.608 seconds

tablesample是抽样语句,语法:TABLESAMPLE(BUCKET x OUT OF y),y必须是table总bucket数的倍数或者因子。hive根据y的大小,决定抽样的比例。例如,table总共分了64份,当y=32时,抽取 (64/32=)2个bucket的数据,当y=128时,抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例 如,table总bucket数为32,tablesample(bucket 3 out of 16),表示总共抽取(32/16=)2个bucket的数据,分别为第3个bucket和第(3+16=)19个bucket的数据。

原文发布于微信公众号 - 加米谷大数据(DtinoneBD)

原文发表时间:2018-04-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏yukong的小专栏

【ssm个人博客项目实战04】mybatis实现博客类别的增删改查分页

在前面一节我们已经完成后台管理界面的一个实现,在这一节我完成其中的博客类别管理中如果分页显示博客类别信息。

1555
来自专栏崔庆才的专栏

Python操作MySQL存储,这些你都会了吗?

3745
来自专栏Java后端技术栈

MySQL必知必会知识点总结一二

1、DDL(Data Definition Languages)语句:数据定义语言,这些语句定义了不同的数据段、 数据库、表、列、索引等数据库对象的定义。常用的...

1266
来自专栏JAVA同学会

solr的基本概念

  大家可以把solr搜索引擎看成一个数据库,不过是基于内存的。它可以存储信息,并且根据你的查询条件返回你想要的信息。

1472
来自专栏运维技术迷

连仕彤博客[Python笔记] Python 一次性替换多个字符

在一个字符串中,一次性替换多个字符串,可以使用字符串的replace函数来处理(目前我想到的是这个方法,大神请指教!) 要求 把INSERT语句中的riqi、b...

3565
来自专栏Java帮帮-微信公众号-技术文章全总结

Oracle应用实战八(完结)——存储过程、函数+对象曹组

游标 在写java程序中有结果集的概念,那么在pl/sql中也会用到多条记录,这时候我们就要用到游标,游标可以存储查询返回的多条数据。 游标可以理解为是PL/S...

3526
来自专栏西安-晁州

mysql随笔

Mysql学习笔记 1、操作数据库 use dataBaseName  //使用数据库 show databases   //显示所有数据库 show tabl...

2010
来自专栏程序员的SOD蜜

PDF.NET数据开发框架 之SQL-MAP使用存储过程

有关SQL-MAP的规范性介绍,请看下面的文章: PDF.NET(PWMIS数据开发框架)之SQL-MAP目标和规范 在SQL-MAP中使用存储过程 1...

26110
来自专栏开源优测

AutoLine源码分析之数据库模型

AutoLine开源平台是一个开源自动化测试解决方案,基于RobotFramework进行二次开发,支持RobotFramework几乎所有的库。

921
来自专栏影子

oracle行转列、列转行、连续日期数字实现方式及mybatis下实现方式

-- 行转列 SELECT * from ( SELECT tt1.SAP_ID,TT1.dt,TT1.EFF from ( SELECT t1.SAP...

3752

扫码关注云+社区

领取腾讯云代金券