首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop数据分析平台实战——280新增用户和总用户分析Hadoop离线数据分析平台实战——280新增用户和总用户分析

Hadoop数据分析平台实战——280新增用户和总用户分析Hadoop离线数据分析平台实战——280新增用户和总用户分析

作者头像
Albert陈凯
发布2018-04-08 11:31:38
1.1K0
发布2018-04-08 11:31:38
举报
文章被收录于专栏:Albert陈凯Albert陈凯

Hadoop离线数据分析平台实战——280新增用户和总用户分析

项目进度

模块名称

完成情况

用户基本信息分析(MR)�

未完成

浏览器信息分析(MR)

未完成

地域信息分析(MR)

未完成

外链信息分析(MR)

未完成

用户浏览深度分析(Hive)

未完成

订单分析(Hive)

未完成

事件分析(Hive)

未完成

业务总述

在本次项目中只有两个地方需要新用户数据和总用户数据, 分别为用户基本信息分析模块和浏览器分析模块, 它们的区别主要就是统计分析的维度不一样, 故我们可以将其放到一个mapreduce任务中计算。 最终的统计数据我们需要保持到mysql关系型数据库中, 我们直接通过自定义OutputFormat和OutputCollector类来实现写出到mysql的操作。 通过定义维度信息类和统计数据类来分别区分维度表和统计表, 定义一个DimensionConverter类来获取/填充维度表信息(有则获取id,无则插入,再获取id)。

计算规则

new_install_user计算规则:计算launch时间中,uuid的唯一个数。 total_user计算规则:同一个维度,前一天的总用户+当天新增用户。(只按照天来统计数据,但是提供按照其他时间维度统计的方式) 最终数据保存:stats_user和stats_device_browser。 涉及到的列(除了维度列和created列外):new_install_users和total_install_users。 涉及到其他表有dimension_platform、dimension_date、dimension_browser。

编码步骤

  1. 定义维度信息表对应的顶级父类。 ⁃ 2. 指定数据库连接信息指定,搭建DimensionConverter获取维度id的类框架,根据具体的分析到时候再添加内容。�
  2. 搭建自定义OutputFormat和OutputCollector类框架。
  3. 实现统计new_install_user的用户数 a. 自定义platform、date、browser维度类,以及操作这些类的工具类。 b. 实现MR
  4. 实现统计total_user的用户数。
  5. 测试
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.09.03 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Hadoop离线数据分析平台实战——280新增用户和总用户分析
    • 项目进度
      • 业务总述
        • 计算规则
          • 编码步骤
          相关产品与服务
          云数据库 SQL Server
          腾讯云数据库 SQL Server (TencentDB for SQL Server)是业界最常用的商用数据库之一,对基于 Windows 架构的应用程序具有完美的支持。TencentDB for SQL Server 拥有微软正版授权,可持续为用户提供最新的功能,避免未授权使用软件的风险。具有即开即用、稳定可靠、安全运行、弹性扩缩等特点。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档