前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >实操用Hive分析大数据事半功倍

实操用Hive分析大数据事半功倍

作者头像
希望的田野
发布2019-09-24 16:56:15
6110
发布2019-09-24 16:56:15
举报
文章被收录于专栏:信息化漫谈信息化漫谈

一般我们分析大数据,也许会想到Spark、Storm,但前提得会JAVA等编程语言,不然拿到数据也无法做分析。而Hive而解决了这个问题,只需要会Sql语言即可做mapreduce的大数据分析任务。今天我们创建测试数据用Hive进行mapreduce的实际分析。

一、先安装好Hive、Mysql环境

1、在昨天hdfs的基础上,安装Hive、Mysql。

2、因Hive依赖于Mysql存储元数据、依赖于Hdfs存储cell数据,在Hive中配置好Mysql的帐号、密码。

3、在Mysql中创建Hive数据库,新建Mysql的数据库帐号、密码。

二、创建测试数据

1、创建file测试数据

cd /usr/local/hadoop

mkdir input

echo "hello world" >file1.txt

echo "hello hadoop" >file2.txt

2、进入hive,将file导入到hive数据表中

hive> create table docs(line string); //创建仅有一个列元素的表

hive> load data local input '/usr/local/hadoop/input' overwrite into table docs; //将input目录下的file1、file2倒入hive docs表格中。

用select * from docs证实数据倒入成功。

三、创建测试分析任务

1、用sql语句进行word count的分析处理。

create table word_count as select word,count(1) as count from (select explode(split(line,' ')) as word from docs) w group by word order by word;

2、检查mapreduce任务

检查mapreduce进程,上面的语句启动了mapreduce任务。

3、检查结果

用select * from word_count,发现word count的任务成功完成。

四、小结

1、hive依赖于mysql存元数据,依赖于hdfs存储数据库文件,是一个廉价的数据仓库。

2、hive用sql语句创建mapreduce任务,适用于非实时的数据分析处理。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 信息化漫谈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 SQL Server
腾讯云数据库 SQL Server (TencentDB for SQL Server)是业界最常用的商用数据库之一,对基于 Windows 架构的应用程序具有完美的支持。TencentDB for SQL Server 拥有微软正版授权,可持续为用户提供最新的功能,避免未授权使用软件的风险。具有即开即用、稳定可靠、安全运行、弹性扩缩等特点。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档