专栏首页信息化漫谈对网页数据的大数据分析实操案例

对网页数据的大数据分析实操案例

在上篇文件,我们讲到对网页的访问日志数据放到了HDFS中,那我们的个人标签(例如,喜欢汽车、喜欢衣服等)是如何被分析出来的?我们今天讲一个简单的大数据分析案例,为大家揭开神秘的面纱。

一、购物的日志长什么样?

日志中包括很多数据,我们今天只用到IP、帐号、访问的网址作为示例。在真实的项目中(如某宝),通过javascript的事件,可以将你在某个商品链接上停留的时间都采集记录一下来。这些日志通过flume脚本采集到HDFS中长期存储起来。

对于数据的进一步分析,如果大型的互联网厂商,会用mapreduce进行数据的定期分析。今天我们讲到,用hive数据仓库进行进行的快速分析呈现,您也可以。

二、如何实现快速分析

1、将HDFS中的数据导入至HIVE表中

我们手动创造待分析的log数据,如alissa喜欢服装,jeery喜欢汽车和游戏......

创造HIVE仓库表

将HDFS中的数据导入到HIVE中

2、HIVE的大数据分析能力体现在简单、易用

A、我们希望查到所有访客的访问网址次数。一条简单的SQL命令下发后,HIVE生成了mapreduce进行大数据的分析,在三台Yarn的节点上大约30秒钟后返回了结果。select name,count(*) from manlogdetail group by name;

alissa访问了2次,jerry访问了2次,john访问了1次。

B、我们希望查到所有访问对衣服品类的访问次数

一条简单的SQL命令下发后,HIVE生成了mapreduce进行大数据的分析,在三台Yarn的节点上大约30秒钟后返回了结果。select name,count(name) from manlogdetail where url like "%clothes";

alissa访问了2次。

3、通过以上的分析,我们是否可以得出以下结果:

alissa 喜欢购物(上网次数频繁)

alissa 喜欢服装(访问时装最多)

三、HIVE的优势总结

1、适合大数据量的保存,作为数据仓库使用。

HIVE底层也基于HDFS,因此基于便宜的x86服务器可以进行数据的长期保存;也因为HDFS的默认三副本存储,数据的可靠性也得到有效保障。

2、适用于大数据量的分析。

传统分析大数据,基本需要写复杂的mapreduce框架代码,如果没有很好的java基础,是一个很大的挑战。而HIVE通过简单的SQL语句,经过解析器,即可自动生成jar包,启动数据分析。

HIVE不适于用于实时的数据查询,因为每次查询都需要经过一次mapreduce操作,很费时间。我们将HIVE的数据分析结果一般放到HBase中进行保存,便用DataV等大数据显示控件进行数据的实时查询、展示。下一篇文件我们讲HBase如何对本文的HIVE输出数据进行保存。

本文分享自微信公众号 - 信息化漫谈(informationwalk),作者:新梦飞

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-12-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 迁移上公有云的简单五种方法

    购买了云服务商的云计算资源,就像拿到了结婚证一样高兴,到手的云资源如何使用呢?将原有业务的数据迁移上云,成为麻烦事,就像”结婚后的第一天",生活总得回归平淡。而...

    希望的田野
  • 原来我不懂热迁移、冷迁移

    今天我们的集团客户数据迁移遇到了大问题,因SLB不支持源IP的透传必须进行平台的大升级。接下来,客户提出了解我方的云主机对故障迁移进行了解,以便保障...

    希望的田野
  • 图文案例简述云迁移(一)

    现在云计算的服务,不仅仅是产品的竞争,对于政府企业等大型客户更关注服务,而云迁移则是服务中的关键环节。以后将简述云迁移的一些门道。

    希望的田野
  • Node.js生态要靠区块链拯救? 以太坊团队这位小哥给出了开源协作的新方案

    2006年秋天,Google 认为要运行现代 Web 应用,浏览器必须有一个性能非常强劲的 Java 引擎,于是开发了一个高性能的开源 Java 引擎,名为 V...

    区块链大本营
  • JavaScript 解构的5个有趣用法

    在本文中,除了基本用法之外,我还将会介绍在 JavaScript 中 5 种有趣的解构用法。

    疯狂的技术宅
  • 新版Begin主题侧边栏和两栏标题美化

    这个美化教程原先是在朱曙明博客看到的,他文章里提到6.27之后的begin主题无法使用这个教程,我就自己琢磨琢磨,看了下css,对比对比,就让我琢磨出了新版本的...

    a老胡
  • 跟我一起数据挖掘(19)——什么是数据挖掘(2)

    什么是数据仓库? 数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反...

    cloudskyme
  • Actor模型和CSP模型的区别

      Akka/Erlang的actor模型与Go语言的协程Goroutine与通道Channel代表的CSP(Communicating Sequential ...

    物流IT圈
  • python文档

    #['BPF', 'LOG4', 'NV_MAGICCONST', 'RECIP_BPF', 'Random', 'SG_MAGICCONST', #'Syst...

    用户2398817
  • 关于大数据技术主要具有以下四个方面的特点

    大数据可以实时地为企业撷取、管理、处理、整理数据,生成企业所需要的数据资料,因此大数据也蕴含着很高的商业价值,被称为“数字生产力”。所以越来越多的企业开始重视大...

    加米谷大数据

扫码关注云+社区

领取腾讯云代金券