前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hive基本操作(持续更新ing)

Hive基本操作(持续更新ing)

作者头像
大数据梦想家
发布2021-01-22 16:54:56
4750
发布2021-01-22 16:54:56
举报
文章被收录于专栏:大数据成长之路

本篇博客,小菌分享的是关于Hive的基本操作!

数据库的基本操作

创建数据库

代码语言:javascript
复制
 create database [ if not exists ] myhive ;

说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的 <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value>

创建数据库并指定hdfs的存储位置:

代码语言:javascript
复制
create database myhive2 location '/myhive2';

删除数据库

代码语言:javascript
复制
drop  database  myhive2;

使用该命令删除只能删除空数据库,如果数据库下面有数据表,那么就会报错!

强制删除数据库

代码语言:javascript
复制
drop  database  myhive  cascade;

包含数据库下面的表一起删除; 不要执行,危险动作

查看数据库

代码语言:javascript
复制
show databases;

查看详细信息

代码语言:javascript
复制
# 查看数据库基本信息
desc database myhive2;
# 查看数据库更多详细信息
desc database extended myhive2;

数据库切换

代码语言:javascript
复制
use myhive(数据库名);

修改数据库

数据库的元数据信息是不可更改的,包括数据库的名称以及数据库所在的位置,但我们可以使用alter database 命令来修改数据库的一些属性。

代码语言:javascript
复制
# 修改数据库的创建日期
alter  database  myhive2  set  dbproperties('createtime'='20880611');

Hive建表时候的字段类型

在这里插入图片描述
在这里插入图片描述

数据表的基本操作

创建基本数据表(内部表):

create table tableName(字段名称 字段类型,字段名称 字段类型) ROW FORMAT DELIMITED IELDS TERMINATED BY char(char分隔符) 指定数据中字段与字段的分隔符 ‘\t’ 或 ‘,’ 或 ‘|’ 或其他

创建外部数据表:

create EXTERNAL table tableName(字段名称 字段类型,字段名称 字段类型) 建外部表需要指定数据的存储路径。通过LOCATION进行指定。

从本地文件系统向表中加载数据 load data local inpath ‘文件路径’ into table 表名;

加载数据并覆盖已有数据 load data local inpath ‘文件路径’ overwrite into table 表名;

从HDFS文件系统向表中加载数据 load data inpath ‘/hivedatas/techer.csv’ into table techer;

内部表与外部表的区别: 在删除内部表时:内部表删除将表的元数据和数据同时删除。 在删除外部表时:外部表的元数据被删除,数据本身不删除。

创建分区表:

企业常见的分区规则:按天进行分区(一天一个分区)

创建分区表语法 create table score(s_id string,c_id string, s_score int) partitioned by (month string) row format delimited fields terminated by ‘\t’;

创建一个表带多个分区 create table score2 (s_id string,c_id string, s_score int) partitioned by (year string,month string,day string) row format delimited fields terminated by ‘\t’;

加载数据到分区表中 load data local inpath ‘/export/servers/hivedatas/score.csv’ into table score partition (month=‘201806’);

加载数据到一个多分区的表中去 load data local inpath ‘/export/servers/hivedatas/score.csv’ into table score2 partition(year=‘2018’,month=‘06’,day=‘01’);

查看分区 show partitions score;

添加一个分区 alter table score add partition(month=‘201805’);

同时添加多个分区 alter table score add partition(month=‘201804’) partition(month = ‘201803’); 注意:添加分区之后就可以在hdfs文件系统当中看到表下面多了一个文件夹

删除分区 alter table score drop partition(month = ‘201806’); 特别强调: 分区字段绝对不能出现在数据库表已有的字段中!

作用: 将数据按区域划分开,查询时不用扫描无关的数据,加快查询速度。

创建分桶表:

是在已有的表结构之上新添加了特殊的结构。

将数据按照指定的字段进行分成多个桶中去,说白了就是将数据按照字段进行划分,可以将数据按照字段划分到多个文件当中去

开启hive的桶表功能 set hive.enforce.bucketing=true;

设置桶(reduce)的个数 set mapreduce.job.reduces=3;

创建桶表 create table course (c_id string,c_name string,t_id string) clustered by(c_id) into 3 buckets row format delimited fields terminated by ‘\t’;

注意事项: 桶表的数据加载,只能通过insert overwrite。hdfs dfs -put文件或者通过load data无法加载。 所以只能先创建普通表,并通过insert overwrite的方式将普通表的数据通过查询的方式加载到桶表当中去

创建普通表 create table course_common (c_id string,c_name string,t_id string) row format delimited fields terminated by ‘\t’;

普通表中加载数据 load data local inpath ‘/export/servers/hivedatas/course.csv’ into table course_common;

通过insert overwrite给桶表中加载数据 insert overwrite table course select * from course_common cluster by(c_id);

特别强调: 分桶字段必须是表中的字段。

分桶逻辑: 对分桶字段求哈希值,用哈希值与分桶的数量取余,余几,这个数据就放在哪个桶内。 本次关于Hive的基本操作就到这里了,后续小菌会在这为大家补全更多的内容,敬请期待!ε≡٩(๑>₃<)۶

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/11/20 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据库的基本操作
  • Hive建表时候的字段类型
  • 数据表的基本操作
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档