Hadoop离线数据分析平台实战——360地域信息分析Hadoop离线数据分析平台实战——360地域信息分析

Hadoop离线数据分析平台实战——360地域信息分析

项目进度

模块名称

完成情况

用户基本信息分析(MR)�

完成

浏览器信息分析(MR)

完成

地域信息分析(MR)

未完成

外链信息分析(MR)

未完成

用户浏览深度分析(Hive)

未完成

订单分析(Hive)

未完成

事件分析(Hive)

未完成

地域信息分析规则

在地域信息分析模块中, 我们只统计活跃用户、总会话数以及跳出会话个数这三个指标的信息, 那么我看将代码写出之前的模式,一个分析指标写一个mapreduce; 也可以将这三个指标的统计都放到一个mapreduce程序中去操作; 还可以将活跃用户统计和总会话数统计放到以前的active_user和sessions这两个job中, 单独写一个计算跳出会话个数的job来统计最后一个指标。 在这里我们采用介绍第二种方式,也就是讲所有的指标写到一个mapreduce程序中,方便安装模块进行后期维护。


地域维度信息(不考虑平台platform和日期date), 我们需要统计三个层面的数据, 即:国家级别、省份级别、城市级别。也就是说需要分别统计这三个维度的活跃用户、总会话以及跳出会话个数。 日期维度只按天计算数据,不进行按月和按周计算。 平台维度计算一个all维度和一个具体的平台维度。 需要原始数据:国家、省份、城市、uuid、serverTime、platform这六个维度的字段信息(或者加一个ip地址), 所以在当前只有pc端数据和后台服务端数据的情况下, 只需要对pageview事件的数据进行统计计算就可以了。


在维度确定的情况下,活跃用户统计就是统计uuid(用户唯一标识符)的去重个数; 总会话个数就是统计u_sd(会话id)的去重个数; 跳出会话个数就是统计只访问一个pv的会话总个数,而且pv的计算是统计访问次数来进行判断的,也就是说pv不去重。 也就是说最终只需要uuid和u_sd就可以进行判断操作了。 统计的最终数据保存到表:stats_device_location表的active_users、sessions以及bounce_sessions三列上。 涉及到其他表有:dimension_platform、dimension_date以及dimension_location。

编码步骤

  1. 编写操作dimension_location表相关操作的类和方法。
  2. 编写mapper类
  3. 编写reducer类
  4. 编写runner类
  5. 测试

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏性能与架构

1号店架构演进读后感

前几天看了一篇介绍1号店架构演进的文章,其中给我印象最深的是他们的日志系统,非常完善,我之前所在的大公司,和现在创业中的小公司都没有做到,日志是一种重要思维方式...

386140
来自专栏CSDN技术头条

时序列数据库武斗大会之什么是 TSDB ?

由于工作上的关系,笔者最近看了一些关于时序列数据库的东西,当然所看的也都是以开源方案为主。趁着这股热劲还没退,希望能整理一些资料出来。如果正好你也有这方面的需求...

90950
来自专栏资深Tester

软件测试人员眼中的项目上线流程

38370
来自专栏微信公众号:Java团长

公司分层思想的演化历程

来源:www.cnblogs.com/wangsen/p/5052068.html

9230

云原生应用的成熟度模型探讨

原文地址:https://dzone.com/articles/cloud-native-application

535100
来自专栏CSDN技术头条

【问底】徐汉彬:大规模网站架构的缓存机制和几何分形学

【导读】徐汉彬曾在阿里巴巴和腾讯从事4年多的技术研发工作,负责过日请求量过亿的Web系统升级与重构,目前在小满科技创业,从事SaaS服务技术建设。 在过去的工...

216100
来自专栏鹅厂网事

大型互联网公司海量监控系统设计

"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网...

58480
来自专栏一个会写诗的程序员的博客

基于NodeJS的全栈式开发(基于NodeJS的前后端分离)【转】

随着不同终端(Pad/Mobile/PC)的兴起,对开发人员的要求越来越高,纯浏览器端的响应式已经不能满足用户体验的高要求,我们往往需要针对不同的终端开发定制的...

1.5K20
来自专栏派森公园

监控数据的采集

监控数据有多种形式--有些系统会持续地输出数据,而其他系统只会在发生罕见事件时生成数据。有些数据能够直接定位问题,有些数据能帮助调查问题。更宽泛的说,拥有监控数...

18350
来自专栏智能大石头

物联网智能硬件设备身份验证机制

设备身份验证有以下目标: 1,别人的设备不能接入我们的云平台 2,我们的设备,不能接入别人的云平台 3,考虑到设备要批量生产,云平台先生成设备编码再写入每个设备...

13000

扫码关注云+社区

领取腾讯云代金券