前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hive的基本知识(一)

Hive的基本知识(一)

作者头像
Maynor
发布2022-05-08 13:47:45
3620
发布2022-05-08 13:47:45
举报

💃 Hive架构

在这里插入图片描述
在这里插入图片描述

💃Hive 组件 用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行; Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议。WebGUI是 通过浏览器访问Hive。 元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 Driver驱动程序,包括语法解析器、计划编译器、优化器、执行器 : 完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有执行引擎调用执行。 执行引擎:Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、 Tez、Spark3种执行引擎。 💃 Hive基本使用 链接方式: 1.使用hive本地连接 2.开启hiveserver2远程服务,使用beeline连接 3.使用hive参数执行任务 hive -e ‘执行语句’ hive -f ‘执行脚本文件’

💃 数据存储格式

Hive中提供了多种文件存储格式:TextFile、SequenceFile、RCFile、ORC、Parquet等。不同的文件存

储格式具有不同的存储特点,有的可以降低存储空间,有的可以提高查询性能等,可以用来实现不同场景下的数据存储,以提高对于数据文件的读写效率。

TextFile:

TextFIle是Hive中默认的文件格式,存储形式为按行存储。

代码语言:javascript
复制
insert into table t_all_hero_part_dynamic partition(role) select 

tmp.*,tmp.role_main from t_all_hero tmp; 

–分桶表建表语句

代码语言:javascript
复制
CREATE [EXTERNAL] TABLE [db_name.]table_name 

[(col_name data_type, ...)] 

CLUSTERED BY (col_name) 

INTO N BUCKETS; 

set hive.enforce.bucketing=true;

SequenceFile:

SequenceFile是Hadoop里用来存储序列化的键值对即二进制的一种文件格式。

Parquet:

Parquet是一种支持嵌套结构的列式存储文件格式。

ORC:

ORC文件格式也是一种Hadoop生态圈中的列式存储格式。

💃 Hive中压缩配置

Hive中的压缩就是使用了Hadoop中的压缩实现的,所以Hadoop中支持的压缩在Hive中都可以直接使用。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-09-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档