初衷:以前看过Hadoop方面的材料,但是一直以来都是与实际应用脱轨,现在有机会接触到真正的Hadoop集群,还是被他的性能所震撼,利用这个机会认真重新学习下Hadoop平台的使用,所以想整理下学习中的一些心得,以笔记的形式与大家分享一下。——2015.07.28
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据表,并提供类似于SQL(HiveSQL)的操作功能。在Hive中,本质上是将SQL转换成为MapReduce程序。
Hive的基本操作与传统的数据库的操作类似,所不同的是Hive的SQL语句会转换成MapReduce程序执行,对于特定的查询等操作,具有更高的性能。这部分的笔记是假设已经搭建好Hive以及Hadoop集群,主要精力放在对Hive以及Hadoop的基本操作上。
Hive
当出现hive>就表示已经进入Hive环境,此时可以进行Hive的基本操作。
格式:
在建表语句的格式中与基本的SQL语句很相似,有几个字段说明一下:
例子:
create table if not exists studentno
(
stuno string comment 'student number',
stuname string comment 'student name'
)
comment 'student information'
row format delimited fileds terminated by '\t' lines terminated by '\n'
stored as textfile
location '/ex_tmp/student';
describe
show partitions table_name
drop table table_name
注意点:每一个Hive语句以“;”结束。