Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Hadoop离线数据分析平台实战——410事件分析Hadoop离线数据分析平台实战——410事件分析

Hadoop离线数据分析平台实战——410事件分析Hadoop离线数据分析平台实战——410事件分析

作者头像
Albert陈凯
发布于 2018-04-08 03:53:27
发布于 2018-04-08 03:53:27
8930
举报
文章被收录于专栏:Albert陈凯Albert陈凯

Hadoop离线数据分析平台实战——410事件分析

项目进度

模块名称

完成情况

用户基本信息分析(MR)�

完成

浏览器信息分析(MR)

完成

地域信息分析(MR)

完成

外链信息分析(MR)

完成

用户浏览深度分析(Hive)

完成

订单分析(Hive)

未完成

事件分析(Hive)

未完成

模块介绍

事件分析我们主要只是分析事件的触发次数, 通过查看事件的触发次数我们可以得到事件转换率或者用户会此类事件的兴趣所在之处以及不喜之处。

计算规则

计算event事件中,计算category和action分组后的记录个数,不涉及到任何的去重操作。 最终数据保存:stats_event。涉及到所有列。 涉及到其他表有dimension_platform、dimension_date、dimension_event。

代码步骤

  1. hive自定义函数定义
  2. hive中创建hbase对应的外部表
  3. hive脚步编写
  4. sqoop脚步编写
  5. 测试

参考:..\代码\transformer\hive\en\statsEvent.hql

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017.09.03 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Hadoop离线数据分析平台实战——360地域信息分析Hadoop离线数据分析平台实战——360地域信息分析
Hadoop离线数据分析平台实战——360地域信息分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 地域信息分析规则 在地域信息分析模块中, 我们只统计活跃用户、总会话数以及跳出会话个数这三个指标的信息, 那么我看将代码写出之前的模式,一个分析指标写一个m
Albert陈凯
2018/04/08
7390
Hadoop数据分析平台实战——280新增用户和总用户分析Hadoop离线数据分析平台实战——280新增用户和总用户分析
Hadoop离线数据分析平台实战——280新增用户和总用户分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 业务总述 在本次项目中只有两个地方需要新用户数据和总用户数据, 分别为用户基本信息分析模块和浏览器分析模块, 它们的区别主要就是统计分析的维度不
Albert陈凯
2018/04/08
1.2K0
Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署
Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署 参考:oozie\package-info.java 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 完成 订单分析(Hive) 完成 事件分析(Hive) 完成 MR程序Oozie workflow部署 MR程序有两种方式进行oozie部署, 第一种就是使
Albert陈凯
2018/04/08
1.1K0
Hadoop离线数据分析平台实战——480外链数据展示Hadoop离线数据分析平台实战——480外链数据展示
Hadoop离线数据分析平台实战——480外链数据展示 项目进度 模块名称 完成情况 1. 程序后台框架搭建 完成 2. 用户基本信息展示 完成 3. 浏览器信息展示 完成 4. 地域信息展示 完成 5. 外链信息展示 未完成 6. 用户浏览深度展示 未完成 7. 事件数据展示 未完成 8. 订单数据展示 未完成 模块介绍 外链数据展示主要包括两个页面, 分别为用户外链偏好结果展示(活跃用户数)以及跳出率分析图表。 采用js获取后台json数据的方式进行数
Albert陈凯
2018/04/08
1.1K0
Hadoop离线数据分析平台实战——400用户浏览深度分析Hadoop离线数据分析平台实战——400用户浏览深度分析
Hadoop离线数据分析平台实战——400用户浏览深度分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 用户浏览深度分析中,通过pv值来表示用户的浏览深度, 分别从两个不同的角度来展示浏览深度,分别为会话和用户。 会话是指,每个pv阶段对应的会话个数
Albert陈凯
2018/04/08
6570
Hadoop离线数据分析平台实战——300活跃会员分析Hadoop离线数据分析平台实战——300活跃会员分析
Hadoop离线数据分析平台实战——300活跃会员分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 活跃会员的统计和活跃用户统计类似, 区别只是在于从不同的角度来进行分析访问网站的用户数量。 活跃用户统计是根据我们在cookie中保存的uui
Albert陈凯
2018/04/08
8470
# Hadoop离线数据分析平台实战——230项目数据存储结构设计Hadoop离线数据分析平台实战——230项目数据存储结构设计
Hadoop离线数据分析平台实战——230项目数据存储结构设计 数据存储设计 在本次项目中设计到数据存储的有三个地方: 第一个就是将原始的日志数据按天保存到hdfs文件系统中; 第二个就是将etl解析后的数据保存到hbase中; 第三个就是将分析结果保存到mysql数据库中。 其中存储到hbase和mysql的这两个过程需要设计具体的存储结构。 HBase表结构设计 由于我们需要按天进行数据分析, 所以我们的hbase的rowkey中必须包含时间戳或者我们一天的数据就建立一个表。 这里我们采用在
Albert陈凯
2018/04/08
1.1K0
Hadoop离线数据分析平台实战——340浏览器PV分析Hadoop离线数据分析平台实战——340浏览器PV分析
Hadoop离线数据分析平台实战——340浏览器PV分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 在浏览器信息分析模块中除了用户、会员和会话的分析外, 还有pv的分析,pv的计算可以代表网站的流量值, 也能够表示网站对用户的吸引程度,如果用
Albert陈凯
2018/04/08
7040
Hadoop离线数据分析平台实战——290活跃用户分析Hadoop离线数据分析平台实战——290活跃用户分析
Hadoop离线数据分析平台实战——290活跃用户分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 和分析新增用户一样,活跃用户也需要在用户基本信息分析模块和浏览器分析模块中展示,因此也可以将其写成一个mapreduce任务。 计算规则 acti
Albert陈凯
2018/04/08
7940
Hadoop离线数据分析平台实战——370外链信息分析Hadoop离线数据分析平台实战——370外链信息分析
Hadoop离线数据分析平台实战——370外链信息分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 外链信息分析规则 和地域信息分析一样,在外链分析系统中, 我们也只是统计活跃用户、总会话以及跳出会话这三个指标的数据。 其中活跃用户和总会话个数和地域分析一样
Albert陈凯
2018/04/08
7700
Hadoop离线数据分析平台实战——320会话分析Hadoop离线数据分析平台实战——320会话分析
Hadoop离线数据分析平台实战——320会话分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 会话分析主要同时计算会话个数和会话长度, 主要应用在用户基本信息分析模块和浏览器信息分析模块这两部分。 会话个数就是计算u_sd的唯一个数,长度就
Albert陈凯
2018/04/08
8240
Hadoop离线数据分析平台实战——420订单分析Hadoop离线数据分析平台实战——420订单分析
Hadoop离线数据分析平台实战——420订单分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 完成 订单分析(Hive) 未完成 事件分析(Hive) 完成 模块介绍 订单分析分别分析订单的数量和订单的金额, 以及将订单分为总订单、 支付成功订单以及退款订单三种类型的数据, 通过这六个分析指标的数据我们可以指定网站的订单情
Albert陈凯
2018/04/08
9710
Hadoop离线数据分析平台实战——310新增会员和总会员分析Hadoop离线数据分析平台实战——310新增会员和总会员分析
Hadoop离线数据分析平台实战——310新增会员和总会员分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 新增会员统计类似新增用户统计,也是统计新增u_mid的个数, 在新增用户统计中,我们是统计launch事件中,uuid的唯一个数, 那
Albert陈凯
2018/04/08
9210
Hadoop离线数据分析平台实战——330会话分析Hourly分析Hadoop离线数据分析平台实战——330会话分析Hourly分析
Hadoop离线数据分析平台实战——330会话分析Hourly分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 Hourly分析指的是按照小时分析数据, 在本次项目中,只分析活跃用户、会话个数以及会话长度这三个指标的数据。 我们通过修改现有的
Albert陈凯
2018/04/08
8840
Hadoop离线数据分析平台实战——350公用代码重构Hadoop离线数据分析平台实战——350公用代码重构
Hadoop离线数据分析平台实战——350公用代码重构 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 MR程序公用代码重构 公用代码主要包括: Runner类中的参数处理代码,以及hbase的scan对象创建相关代码公用。 Mapper类中获取hbase的val
Albert陈凯
2018/04/08
8430
Hadoop离线数据分析平台实战——380MapReduce程序优化Hadoop离线数据分析平台实战——380MapReduce程序优化
Hadoop离线数据分析平台实战——380MapReduce程序优化 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 调优的目的 充分的利用机器的性能,更快的完成mr程序的计算任务。 甚至是在有限的机器条件下,能够支持运行足够多的mr程序。 说的直接一点就是:调优
Albert陈凯
2018/04/08
7420
Hadoop离线数据分析平台实战——520项目总结Hadoop离线数据分析平台实战——520项目总结
Hadoop离线数据分析平台实战——520项目总结 到这里本次项目也就介绍完了,不过在项目最后简单的介绍一些数字以及项目优化、扩展等情况 通过本次课程的学习,希望同学们对离线数据分析这一块有一个初步的了解, 希望同学们在学习完本课程后,对如何在工作中使用离线数据分析有一个初步的了解。 在本次课程中,我主要目标是放到了如何产生用户浏览数据以及如何解析数据, 对应解析后的数据结果展示,讲解的不是特别的详细, 所以希望同学们在学习之余,自己想想如何能够更好的显示解析后的数据, 最后祝同学们能够有一个好
Albert陈凯
2018/04/08
9130
Hadoop离线数据分析平台实战——510订单数据展示Hadoop离线数据分析平台实战——510订单数据展示
Hadoop离线数据分析平台实战——510订单数据展示 项目进度 模块名称 完成情况 1. 程序后台框架搭建 完成 2. 用户基本信息展示 完成 3. 浏览器信息展示 完成 4. 地域信息展示 完成 5. 外链信息展示 完成 6. 用户浏览深度展示 完成 7. 事件数据展示 完成 8. 订单数据展示 未完成 模块介绍 订单数据展示主要包括一个页面, 通过选择不同的currency type和payment type来展示不同的数据, 主要包括展示订单数量、
Albert陈凯
2018/04/08
1K0
Hadoop离线数据分析平台实战——490用户浏览深度数据展示Hadoop离线数据分析平台实战——490用户浏览深度数据展示
Hadoop离线数据分析平台实战——490用户浏览深度数据展示 项目进度 模块名称 完成情况 1. 程序后台框架搭建 完成 2. 用户基本信息展示 完成 3. 浏览器信息展示 完成 4. 地域信息展示 完成 5. 外链信息展示 完成 6. 用户浏览深度展示 未完成 7. 事件数据展示 未完成 8. 订单数据展示 未完成 模块介绍 用户浏览深度数据展示主要包含一个页面, 在这个页面中通过分别显示用户角度的浏览深度和会话角度的浏览深度来进行数据展示。 采用js
Albert陈凯
2018/04/08
7870
Hadoop离线数据分析平台实战——440DataApi后台架构搭建Hadoop离线数据分析平台实战——440DataApi后台架构搭建
Hadoop离线数据分析平台实战——440DataApi后台架构搭建 项目进度 模块名称 完成情况 1. 程序后台框架搭建 未完成 2. 用户基本信息展示 未完成 3. 浏览器信息展示 未完成 4. 地域信息展示 未完成 5. 外链信息展示 未完成 6. 用户浏览深度展示 未完成 7. 事件数据展示 未完成 8. 订单数据展示 未完成 后台程序结构总体介绍 我们采用提供两个相关的rest api来提供所有的数据的访问, rest api返回的结果为json数
Albert陈凯
2018/04/08
8330
推荐阅读
Hadoop离线数据分析平台实战——360地域信息分析Hadoop离线数据分析平台实战——360地域信息分析
7390
Hadoop数据分析平台实战——280新增用户和总用户分析Hadoop离线数据分析平台实战——280新增用户和总用户分析
1.2K0
Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署
1.1K0
Hadoop离线数据分析平台实战——480外链数据展示Hadoop离线数据分析平台实战——480外链数据展示
1.1K0
Hadoop离线数据分析平台实战——400用户浏览深度分析Hadoop离线数据分析平台实战——400用户浏览深度分析
6570
Hadoop离线数据分析平台实战——300活跃会员分析Hadoop离线数据分析平台实战——300活跃会员分析
8470
# Hadoop离线数据分析平台实战——230项目数据存储结构设计Hadoop离线数据分析平台实战——230项目数据存储结构设计
1.1K0
Hadoop离线数据分析平台实战——340浏览器PV分析Hadoop离线数据分析平台实战——340浏览器PV分析
7040
Hadoop离线数据分析平台实战——290活跃用户分析Hadoop离线数据分析平台实战——290活跃用户分析
7940
Hadoop离线数据分析平台实战——370外链信息分析Hadoop离线数据分析平台实战——370外链信息分析
7700
Hadoop离线数据分析平台实战——320会话分析Hadoop离线数据分析平台实战——320会话分析
8240
Hadoop离线数据分析平台实战——420订单分析Hadoop离线数据分析平台实战——420订单分析
9710
Hadoop离线数据分析平台实战——310新增会员和总会员分析Hadoop离线数据分析平台实战——310新增会员和总会员分析
9210
Hadoop离线数据分析平台实战——330会话分析Hourly分析Hadoop离线数据分析平台实战——330会话分析Hourly分析
8840
Hadoop离线数据分析平台实战——350公用代码重构Hadoop离线数据分析平台实战——350公用代码重构
8430
Hadoop离线数据分析平台实战——380MapReduce程序优化Hadoop离线数据分析平台实战——380MapReduce程序优化
7420
Hadoop离线数据分析平台实战——520项目总结Hadoop离线数据分析平台实战——520项目总结
9130
Hadoop离线数据分析平台实战——510订单数据展示Hadoop离线数据分析平台实战——510订单数据展示
1K0
Hadoop离线数据分析平台实战——490用户浏览深度数据展示Hadoop离线数据分析平台实战——490用户浏览深度数据展示
7870
Hadoop离线数据分析平台实战——440DataApi后台架构搭建Hadoop离线数据分析平台实战——440DataApi后台架构搭建
8330
相关推荐
Hadoop离线数据分析平台实战——360地域信息分析Hadoop离线数据分析平台实战——360地域信息分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文