前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hive简介

Hive简介

作者头像
字母哥博客
发布2020-09-23 11:29:48
3910
发布2020-09-23 11:29:48
举报
文章被收录于专栏:写字母的代码哥

设计目的:让有SQL技能,但无hadoop知识的人来查询分析大数据。 1. 基于hadoop的数据仓库工具, 2. Hive中的一张表对应的是HDFS的一个目录。 3. 支持一种与SQL几乎完全相同的语言HiveQL,除了不支持更新,索引和事务控制。 4. SQL到MapReduce的映射器。 5. 提供shell,JDBC/ODBC,Thrift,web接口

hive的数据存储概念

  • hive没有专门的数据存储格式,也没有索引,只有按文件目录方式组织的表,目录文件只需要确定列分隔符和行分隔符,Hive就可以解析数据为一个“表”。

Hive中数据按目录结构依次分为:

Table(External Table也就是非hive目录下的Table),Partition,Bucket。

  • Table:对应一个相应的目录存储数据。例如,一个表 t1,它在HDFS中的路径就为:/warehouse/t1.而External Table不在/warehouse目录下面。
  • Partition: 一个 Partition(分区)对应于表下的一个目录,例如:t1表中的c1,c2分区,则对应于 c1=1,c2=2的目录为:/warehouse/t1/c1=1/c2=2;对应于 ds = 20090801, ctry = CA 的 HDFS 子目录为;/wh/pvs/ds=20090801/ctry=CA。
  • Buckets:对应一个文件。如:t1表中的c3列,将t3列分散至多个bucket,首先对t3列的值计算hash,对应hash值为0的文件为:/warehouse/t1/c1=1/c2=2/part-0000

喜欢 (0)or分享 (0)

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2016-03-16),如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Hive中数据按目录结构依次分为:
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档