前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布

Hive

作者头像
可爱见见
发布2019-09-09 16:25:32
6620
发布2019-09-09 16:25:32
举报
文章被收录于专栏:卡尼慕

Hive是什么?

由facebook开源的用于解决海量结构化日志的数据统计,后称Apache Hive 的开源项目。

Hive是基于Hadoop文件系统上的数据仓库架构。存储用HDFS,计算用MR。它为数据仓库管理提供大量功能,如数据ETL(详细看前文)工具,数据存储管理与大型数据查询和分析能力。

同时Hive还定义了类SQL语言--Hive QL,允许用户进行和SQL相似的操作。他可以将结构化数据的数据文件转化为一张数据表,并提供简单的查询功

能。可以将SQL转化为MapReduce语句。

Hive可以理解成为一个工具,不存在主从结构,不用安装到每台机器上,只需要安装几台就行了。

默认数据库:derby,后期转换成关系型数据库mysql。

看看下图hive在Hadoop生态系统中的位置。

接着看下Hive体系结构。

Meta store引进元数据。

HDFS和MapReduce。最原始的数据其实还是在HDFS上,并且在跑一些SQL语句的时候,内部实际上是跑MapReduce。

Client客户端。可通过JDBC或者CLI提交任务到Driver上面运行,SQL Parser将数据变化成抽象语法树,然后解析成Physical Plan放到Execution上执行(其实也是在MR中执行)。

这边注意,meta store并不是数据库,而是数据!存放元数据的具体信息。

下面就是对Driver的详细拆解。

这里可以结合上面的图进行理解。

下面的话是整体流程。

这里再客户端提交了任务,先读取meta data找到元数据信息,包括存放位置,大小等,然后再放到Driver进行解析,然后放到map reduce上跑。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 卡尼慕 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档