前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >对网页数据的大数据分析实操案例

对网页数据的大数据分析实操案例

作者头像
希望的田野
发布2019-12-24 17:09:50
1.1K0
发布2019-12-24 17:09:50
举报
文章被收录于专栏:信息化漫谈信息化漫谈
在上篇文件,我们讲到对网页的访问日志数据放到了HDFS中,那我们的个人标签(例如,喜欢汽车、喜欢衣服等)是如何被分析出来的?我们今天讲一个简单的大数据分析案例,为大家揭开神秘的面纱。

一、购物的日志长什么样?

日志中包括很多数据,我们今天只用到IP、帐号、访问的网址作为示例。在真实的项目中(如某宝),通过javascript的事件,可以将你在某个商品链接上停留的时间都采集记录一下来。这些日志通过flume脚本采集到HDFS中长期存储起来。

对于数据的进一步分析,如果大型的互联网厂商,会用mapreduce进行数据的定期分析。今天我们讲到,用hive数据仓库进行进行的快速分析呈现,您也可以。

二、如何实现快速分析

1、将HDFS中的数据导入至HIVE表中

我们手动创造待分析的log数据,如alissa喜欢服装,jeery喜欢汽车和游戏......

创造HIVE仓库表

将HDFS中的数据导入到HIVE中

2、HIVE的大数据分析能力体现在简单、易用

A、我们希望查到所有访客的访问网址次数。一条简单的SQL命令下发后,HIVE生成了mapreduce进行大数据的分析,在三台Yarn的节点上大约30秒钟后返回了结果。select name,count(*) from manlogdetail group by name;

alissa访问了2次,jerry访问了2次,john访问了1次。

B、我们希望查到所有访问对衣服品类的访问次数

一条简单的SQL命令下发后,HIVE生成了mapreduce进行大数据的分析,在三台Yarn的节点上大约30秒钟后返回了结果。select name,count(name) from manlogdetail where url like "%clothes";

alissa访问了2次。

3、通过以上的分析,我们是否可以得出以下结果:

alissa 喜欢购物(上网次数频繁)

alissa 喜欢服装(访问时装最多)

三、HIVE的优势总结

1、适合大数据量的保存,作为数据仓库使用。

HIVE底层也基于HDFS,因此基于便宜的x86服务器可以进行数据的长期保存;也因为HDFS的默认三副本存储,数据的可靠性也得到有效保障。

2、适用于大数据量的分析。

传统分析大数据,基本需要写复杂的mapreduce框架代码,如果没有很好的java基础,是一个很大的挑战。而HIVE通过简单的SQL语句,经过解析器,即可自动生成jar包,启动数据分析。

HIVE不适于用于实时的数据查询,因为每次查询都需要经过一次mapreduce操作,很费时间。我们将HIVE的数据分析结果一般放到HBase中进行保存,便用DataV等大数据显示控件进行数据的实时查询、展示。下一篇文件我们讲HBase如何对本文的HIVE输出数据进行保存。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 信息化漫谈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档