Hadoop离线数据分析平台实战——300活跃会员分析Hadoop离线数据分析平台实战——300活跃会员分析

Hadoop离线数据分析平台实战——300活跃会员分析

项目进度

模块名称

完成情况

用户基本信息分析(MR)�

未完成

浏览器信息分析(MR)

未完成

地域信息分析(MR)

未完成

外链信息分析(MR)

未完成

用户浏览深度分析(Hive)

未完成

订单分析(Hive)

未完成

事件分析(Hive)

未完成

模块介绍

活跃会员的统计和活跃用户统计类似, 区别只是在于从不同的角度来进行分析访问网站的用户数量。 活跃用户统计是根据我们在cookie中保存的uuid来进行访问网站用户数量的一个统计, 而活跃会员统计是通过统计登录网站的用户数量(去重)。 一般而言,如果活跃用户的数量远远超过活跃会员数量,那么表示本网站对会员的吸引能力不够。

计算规则

活跃会员(active_member)计算规则: 计算当天(确定时间维度信息)的pageview事件的数据中memberid的去重个数。 (这里只所以选择pageview事件,是可能会存在一种可能: 某个会员在当天没有进行任何操作,但是他订单支付成功的操作在今天在被触发, 这样在所有数据中就会出现一个java_server平台产生的订单支付成功事件, 包含会员id)。 最终数据保存: stats_user和stats_device_browser。 涉及到的列(除了维度列和created列外):active_members。 涉及到其他表有dimension_platform、dimension_date、dimension_browser。

编码步骤

  1. Copy ActiveUser计算的相关代码
  2. 修改对应信息(获取列、过滤信息、collector类、xml配置等)
  3. 测试

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏友弟技术工作室

hadoop介绍

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。

3363
来自专栏北京马哥教育

从零起步做到Linux运维经理,你必须管好的23个细节

不想成为将军的士兵,不是好士兵-拿破仑 如何成为运维经理?成为运维经理需要什么样的能力?我想很多运维工程师都会有这样的思考和问题。 如何成为运维经理。一般来说,...

7035
来自专栏大数据技术学习

大数据认知阶段——如何学习大数据相关技术

已经看了大数据相关知识一阵时间了,自己也是从新手开始的,所以看了大量的大数据如何入门的技术博客、帖子等,下面记录总结下自己学习的内容。

1755
来自专栏EAWorld

独家系列:让我们遇见未来——为什么选择SEDA作为云平台的基础消息处理架构(PPT)

? 我们身处在一个数字化商业的时代,作为一名IT工作者,如何保证我们所设计的系统、开发的服务在面对复杂不确定的网络环境中,还要去交付准确可靠稳定的服务? 我...

3674
来自专栏CSDN技术头条

揭秘Sponge:统一Hadoop、Spark、SDS、Swift的大数据操作系统

Sponge是一个简单多层,兼容完全POSIX兼容的分布式NFS、Hadoop,支持对象存储、云存储、SDS、容器机制,集成Spark为计算引擎,基于内存计算技...

3559
来自专栏DevOps时代的专栏

神聊《DevOps HandBook》:DevOps 集成安全的技术实践

作者简介: ? 韩方 欢聚时代(YY直播) 安全中心总监 公司T4技术专家,10年以上安全领域的攻防研究和设计开发工作,对于平台安全、应用安全、业务安全等安...

2629
来自专栏Python小白进阶之旅

什么时候Python也成了黑客必备的语言?大牛的告诉我竟是这样

3003
来自专栏智能计算时代

[微服务架构 ] 微服务- 生存还是毁灭!

上周,我谈到了作为一系列微服务开发的产品技术架构。谈话几分钟后,很明显团队已经支付了微服务高级版,但没有明显的投资回报。这组微服务是由一个由10名工程师组成的团...

1293
来自专栏云上大文件传输

镭速FTP:一个易用、快速的文件传输软件

镭速FTP由我所在的开发团队研发,经过13个月的努力打磨,2018年1月20日正式发布第一个版本。

56910
来自专栏IT大咖说

从选型到实现——企业级云端大数据平台最佳实践

2283

扫码关注云+社区