前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >(一)Hive简介

(一)Hive简介

作者头像
wolf
发布2020-09-20 19:46:57
6860
发布2020-09-20 19:46:57
举报
文章被收录于专栏:大数据分享大数据分享

一,简介

数据仓库的工具,存储在hdfs上,使用mr来处理数据。

1,数仓

英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。它出于分析性报告和决策支持目的的创建。

主要特征

a.集成性

b.不可更新性

c.面向主题性

d.时变性

数据库和数据仓库的区别(olap和oltp的区别)

a.数据库是面向事务的,数仓是面向主题的

b.数据库存储的是当前和历史数据,数仓存储的是历史数据

c.数据库是面向操作人员,数仓面向的是管理层

d.数据库是事务驱动,数仓是分析驱动

数仓分层

源数据层,通用层,缓冲层,聚合层,应用层

a.源数据层:每个系统的数据库,页面数据,日志

b.通用层:/data/ftp/ ==》hdfs /bdp/data/RAW/01/tablename/date/XXXXXXX.tar.gz

c.缓冲层(ODS|MID):刚一落地到数据仓库的位置

d.聚合层(tmp|prc):将缓冲层的数据,做聚合操作

e.应用层(fct):业务要求的表格

数仓元数据

技术元数据

业务元数据

2,Hive

概念

Hive是基于 Hadoop 的一个【数据仓库工具】,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能

为什么要用Hive?

a.使用sql

b.成本低

c.扩展方便

特点

a.可扩展性

Hive可以自由的扩展集群的规模,一般情况下不需要重启服务

b.延伸性

Hive支持自定义函数,用户可以根据自己的需要来实现自己的函数

c.容错

即使节点出现错误,SQL仍然可以完成执行

优缺点

优点:可扩展性。延伸性。容错。使用方便。成本低

缺点:延时太高,sql局限性比较大

3,Hive架构

a.client

b.解析器

c.解释

d.优化

e.执行

f.元数据库

4,Hive和传统数据库对比

a.hive可以存储海量数据

b.hive存储在hdfs上

c.hive主要是面向分析的

d.hive存储的都是历史数据

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一,简介
    • 1,数仓
      • 2,Hive
      相关产品与服务
      对象存储
      对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档