Hadoop离线数据分析平台实战——420订单分析Hadoop离线数据分析平台实战——420订单分析

Hadoop离线数据分析平台实战——420订单分析

项目进度

模块名称

完成情况

用户基本信息分析(MR)�

完成

浏览器信息分析(MR)

完成

地域信息分析(MR)

完成

外链信息分析(MR)

完成

用户浏览深度分析(Hive)

完成

订单分析(Hive)

未完成

事件分析(Hive)

完成

模块介绍

订单分析分别分析订单的数量和订单的金额, 以及将订单分为总订单、 支付成功订单以及退款订单三种类型的数据, 通过这六个分析指标的数据我们可以指定网站的订单情况。

计算规则

和统计stats_event&stats_view_depth表的数据不太一样, 我们采用每个统计指标写一个hql语句+sqoop语句的方法进行数据的插入操作。 也就是说分别统计订单数量和订单金额,而不是使用一张hive表同时保存多个指标的数据, 而是采用多个表分别保存不同指标的数据或者采用一张表非同时的保存多个指标的数据。 分别统计oid的去重数量作为订单数量,使用去重后的订单的支付金额作为订单金额。 最终数据保存:stats_order。涉及到所有列。 涉及到其他表有dimension_platform、dimension_date、dimension_currency_type、dimension_payment_type.

代码步骤

  1. hive中创建hbase对应的外部表
  2. 订单数量&订单金额的hive&sqoop分析 a. 实现自定义udf&自定义函数创建 b. hive+sqoop脚本
  3. 成功支付订单数量&金额&总金额的hive&sqoop分析 a. 订单数据保存mysql b. 实现自定义udf&自定义函数创建 c. hive+sqoop脚本
  4. 退款订单数量&金额&总金额的hive&sqoop分析
  5. shell脚本编写以及测试(作业)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏维恩的派VNPIE

vn.py的底层实现机制——回测及参数优化

前几天介绍了vn.py实盘部分的底层实现机制,这一篇将为大家介绍数据以及回测部分的底层实现机制。

36120
来自专栏网站设计制作、数字营销

网站在百度搜索结果中被标识危险什么原因

在日常的百度搜索中,会有时发现在搜索结果中出现有的网站快照索引被百度标识为危险标识风险提示,发生这样的风险提示是什么原因?公司网站在百度搜索结果中出现这样的情况...

26500
来自专栏Golang语言社区

Terratest:一个用于自动化基础设施测试的开源Go库

Gruntwork开源了他们的Go框架Terratest。该框架可以用于编写测试基础设施的自动化测试。该库内置了对Terraform和Packer的支持。

23830
来自专栏小怪聊职场

大数据|Hadoop简介及两大功能三大核心组件(二)

62140
来自专栏源哥的专栏

在线客服技术详解(未完待续)

<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" /><?xml:namespac...

43840
来自专栏程序员同行者

运维与自动化运维发展概括

95340
来自专栏知识图谱

分布式图数据库JanusGraph-简介

JanusGraph设计的目的是处理大图,单机无论是在存储和计算能力上都无法满足大图处理。大规模图实时计算和分析是JanusGraph最基本的优势。本节将讨...

50320
来自专栏娱乐心理测试

IOS 上传到后台json数据

17730
来自专栏Netkiller

打破软件自动化测试的格局

打破软件自动化测试的格局 自动化测试的误区 自动化测试仅仅被认为是替代人工,所以我们看到很多企业实施自动化测试仅仅是将现有的 Test Case 转换成自动化脚...

42250
来自专栏IT技术精选文摘

高并发大容量NoSQL解决方案探索

17630

扫码关注云+社区

领取腾讯云代金券