首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用Hive搭建数据仓库(五)

Hive简介

Hive是一个在Hadoop中用来处理结构化数据数据仓库基础工具。它是建立在Hadoop之上的数据仓库基础架构,总归为大数据,并使得查询和分析方便。

Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。

Hive的特点

它存储架构在一个数据库中并处理数据到HDFS。

它是专为OLAP设计。

它提供SQL类型语言查询叫HiveQL或HQL。

它是熟知,快速,可扩展和可扩展的。

Hive架构

Hive利用HDFS存储数据,利用MapReduce查询数据。

Hive安装部署

Hive版本:

MySQL地址:

安装条件:

Hive安装在Hadoop集群上,并Hadoop集群已启动

MySQL已安装并已启动

下载并安装Hive:

从Hive官网 下载Hive

通过 命令将Hive安装包 上传到/home/fwj/目录

解压安装

配置Hive环境变量

配置MySQL:

下载MySQL驱动:

上传 的驱动到HIVE_HOME/lib目录下

登录MySQL,创建数据库hive:

配置Hive的hive-site.xml

hive-site.xml文件:

初始化Hive:

从 Hive 2.1 版本开始, 我们需要先运行 schematool 命令来执行初始化操作:

输入 命令进入, 可退出

初始化Hive后,在MySQL可以看到生成的表:

使用Hive搭建数据仓库

1、创建数据仓库

2、创建表

external:创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)

创建表成功后,可以在HDFS看到school目录:

3、测试文件

将students.txt上传到HDFS的school目录下:

students.txt:

4、查询所有数据

4、统计同名

这时会启动一个作业,执行MapReduce过程。

参考

Hive官方地址

hive2.1.1 部署安装

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180913G01B8S00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券