前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop离线数据分析平台实战——360地域信息分析Hadoop离线数据分析平台实战——360地域信息分析

Hadoop离线数据分析平台实战——360地域信息分析Hadoop离线数据分析平台实战——360地域信息分析

作者头像
Albert陈凯
发布2018-04-08 11:48:24
7150
发布2018-04-08 11:48:24
举报
文章被收录于专栏:Albert陈凯

Hadoop离线数据分析平台实战——360地域信息分析

项目进度

模块名称

完成情况

用户基本信息分析(MR)�

完成

浏览器信息分析(MR)

完成

地域信息分析(MR)

未完成

外链信息分析(MR)

未完成

用户浏览深度分析(Hive)

未完成

订单分析(Hive)

未完成

事件分析(Hive)

未完成

地域信息分析规则

在地域信息分析模块中, 我们只统计活跃用户、总会话数以及跳出会话个数这三个指标的信息, 那么我看将代码写出之前的模式,一个分析指标写一个mapreduce; 也可以将这三个指标的统计都放到一个mapreduce程序中去操作; 还可以将活跃用户统计和总会话数统计放到以前的active_user和sessions这两个job中, 单独写一个计算跳出会话个数的job来统计最后一个指标。 在这里我们采用介绍第二种方式,也就是讲所有的指标写到一个mapreduce程序中,方便安装模块进行后期维护。


地域维度信息(不考虑平台platform和日期date), 我们需要统计三个层面的数据, 即:国家级别、省份级别、城市级别。也就是说需要分别统计这三个维度的活跃用户、总会话以及跳出会话个数。 日期维度只按天计算数据,不进行按月和按周计算。 平台维度计算一个all维度和一个具体的平台维度。 需要原始数据:国家、省份、城市、uuid、serverTime、platform这六个维度的字段信息(或者加一个ip地址), 所以在当前只有pc端数据和后台服务端数据的情况下, 只需要对pageview事件的数据进行统计计算就可以了。


在维度确定的情况下,活跃用户统计就是统计uuid(用户唯一标识符)的去重个数; 总会话个数就是统计u_sd(会话id)的去重个数; 跳出会话个数就是统计只访问一个pv的会话总个数,而且pv的计算是统计访问次数来进行判断的,也就是说pv不去重。 也就是说最终只需要uuid和u_sd就可以进行判断操作了。 统计的最终数据保存到表:stats_device_location表的active_users、sessions以及bounce_sessions三列上。 涉及到其他表有:dimension_platform、dimension_date以及dimension_location。

编码步骤

  1. 编写操作dimension_location表相关操作的类和方法。
  2. 编写mapper类
  3. 编写reducer类
  4. 编写runner类
  5. 测试
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017.09.03 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Hadoop离线数据分析平台实战——360地域信息分析
    • 项目进度
      • 地域信息分析规则
        • 编码步骤
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档