前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hive基础(1)

Hive基础(1)

作者头像
王小雷
发布2018-01-05 18:09:26
8550
发布2018-01-05 18:09:26
举报
文章被收录于专栏:王小雷

Hive基础(1)

Hive的HQL(2)

1. Hive并不是分布式的,它独立于机器之外,类似于Hadoop的客户端。

2. 元数据和数据的区别,前者如表名、列名、字段名等。

3. Hive的三种安装方式

  • 内嵌模式,元数据服务和Hive服务运行在同一个JVM中,同时使用内嵌的Derby数据库作为元数据存储,该模式只能支持同时最多一个用户打开Hive会话。
  • 本地模式,元数据服务和Hive服务运行在同一个JVM中,采用了外置的MySQL作为元数据存储,该种方式支持多个用户同时访问Hive。
  • 远程模式,元数据服务和Hive服务运行在不同的进程内,这样做的好处是,数据库层可以完全地置于防火墙之后,客户端则不需要数据库验证。
  • 推荐,生产环境中,使用本地模式、远程模式。

4. Hive不支持行级别的更新、插入或者删除操作,并且不支持事物。Hive不能做OLTP的“联机”部分,所以对Hive更适合离线计算,对于实时性要求很高的可以选择HBase或者Impala。

5. Hive和关系型数据库的区别

compare

Hive

RMDBS

查询语言

HQL

SQL

数据存储位置

HDFS

Raw Device或者Local FS

数据格式

用户定义

系统决定

数据更新

不支持

支持

索引

执行

MapReduce

Executor

执行延迟

可扩展性

数据规模

6. Hive的数据类型与存储格式

  • 数据类型
    • 基本数据类型:整型、浮点型、布尔型等
    • 复杂数据类型(集合):STRUCT、MAP、ARRAY
  • 存储格式
    • TEXTFILE(default)
    • 不压缩、磁盘开销大、数据解析开销大
    • SEQUENCEFILE
    • 使用方便、可分割、可压缩、按行切分
    • RCFILE
    • 行列存储相结合,首先,将数据按行分块,保证同一条记录在一个块上,避免读一条记录需要读取多个块。其次,块上的数据按照列式存储,有利于数据压缩和快速地进行行列存取,也就是“先按水平划分再按垂直划分”
    • 自定义
    • 用户可通过实现InputFormat和OutputFormat来自定义输入输出格式。
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2016年04月17日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Hive基础(1)
  • Hive的HQL(2)
    • 1. Hive并不是分布式的,它独立于机器之外,类似于Hadoop的客户端。
      • 2. 元数据和数据的区别,前者如表名、列名、字段名等。
        • 3. Hive的三种安装方式
          • 4. Hive不支持行级别的更新、插入或者删除操作,并且不支持事物。Hive不能做OLTP的“联机”部分,所以对Hive更适合离线计算,对于实时性要求很高的可以选择HBase或者Impala。
            • 5. Hive和关系型数据库的区别
              • 6. Hive的数据类型与存储格式
              相关产品与服务
              对象存储
              对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档