Spark开发电商日志分析用户行为聚合功能练习下面开始搭建开发环境注意Task表中最后一个列task_param中,Json的StartDate和EndDate需要设置成今天,因为mock数据的时候,

项目介绍

项目介绍

电商网站的各种用户行为进行分析

访问首页 → 点击商品 → 添加购物车 → 结算 访问首页 → 输入关键词 → 点击商品列表 → 点击商品→ 关闭网页 访问详情页 → 查看推荐商品 → 点击商品列表 → 点击商品→ 购买 广告页 → 商品页 → 购物车

项目目的

为产品部门、运营部门、决策部门

提供决策数据支持 提供优化指导思路

企业开发流程

需求分析 → 方案设计 → 数据设计 → 编码实现 → 功能测试 → 解决技术问题(数据倾斜等)→ 性能调优

用户需求

可以根据使用者指定的某些条件,筛选出指定的一些用户(有特定年龄、职业、城市); 例如: 选择年龄: 10 到 50周岁 选择时间: 开始时间2017-08-20 结束时间2017-08-20 选择性别:女性 查询符合条件的所有用户

名词解释

用户访问session

用户session指的是: 从用户第一次进入页面开始,到用户关闭浏览器(长时间没有操作)结束。 在这段时间范围内,所有的操作(可能做了几十次、甚至上百次操作),都称为是一个用户行为。

在一个Session过程中SessionId是不变的,由多个id相同的Session组成用户的一条操作行为

一个用户一天可以有多个Session

数据结构

数据结构 user_visit_action(Hive表)

date:日期,代表这个用户点击行为是在哪一天发生的 user_id:代表这个点击行为是哪一个用户执行的 session_id :唯一标识了某个用户的一个访问session page_id :点击了某些商品/品类,也可能是搜索了某个关键词,然后进入了某个页面,页面的id action_time :这个点击行为发生的时间点 search_keyword :如果用户执行的是一个搜索行为,比如说在网站/app中,搜索了某个关键词,然后会跳转到商品列表页面;搜索的关键词 click_category_id :可能是在网站首页,点击了某个品类(美食、电子设备、电脑) click_product_id :可能是在网站首页,或者是在商品列表页,点击了某个商品(比如呷哺呷哺火锅XX路店3人套餐、iphone 6s) order_category_ids :代表了可能将某些商品加入了购物车,然后一次性对购物车中的商品下了一个订单,这就代表了某次下单的行为中,有哪些 商品品类,可能有6个商品,但是就对应了2个品类,比如有3根火腿肠(食品品类),3个电池(日用品品类) order_product_ids :某次下单,具体对哪些商品下的订单 pay_category_ids :代表的是,对某个订单,或者某几个订单,进行了一次支付的行为,对应了哪些品类 pay_product_ids:代表的,支付行为下,对应的哪些具体的商品

数据结构 user_info(Hive表)

user_id:其实就是每一个用户的唯一标识,通常是自增长的Long类型,BigInt类型 username:是每个用户的登录名 name:每个用户自己的昵称、或者是真实姓名 age:用户的年龄 professional:用户的职业 city:用户所在的城市

数据结构 task(MySQL表)

task_id:表的主键 task_name:任务名称 create_time:创建时间 start_time:开始运行的时间 finish_time:结束运行的时间 task_type:任务类型,就是说,在一套大数据平台中,肯定会有各种不同类型的统计分析任务,比如说用户访问session分析任务,页面单跳转化率统计任务;所以这个字段就标识了每个任务的类型 task_status:任务状态,任务对应的就是一次Spark作业的运行,这里就标识了,Spark作业是新建,还没运行,还是正在运行,还是已经运行完毕 task_param:最最重要,用来使用JSON的格式,来封装用户提交的任务对应的特殊的筛选参数

数据Session聚合

将多条id相同的记录聚合成一条记录:意思是说将多个Action组成一个动作序列 User_visit_action数据量庞大 1000万日活用户,就能产生5到10亿条用户行为数据 如果我们做一次Session的聚合,数据量将大大下降

我们将单个操作,比如 点击、搜索等,组成一个行为序列,用时间顺序排序,表明用户都做了哪些操作,前后操作顺序是什么样?

下面开始搭建开发环境

项目地址

https://github.com/xy83918/ECLA

开发IDE

https://www.jetbrains.com/idea/download/#section=windows

jdk 下载1.7

http://www.oracle.com/technetwork/java/javase/archive-139210.html

mysql

https://www.mysql.com/downloads/

MySQL windows版 http://sw.bos.baidu.com/sw-search-sp/software/d59738042c504/mysql-5.7.17.msi

mysql脚本

CREATE DATABASE spark_project
USE spark_project
/*
SQLyog Ultimate v12.09 (64 bit)
MySQL - 5.7.17-log 
*********************************************************************
*/
/*!40101 SET NAMES utf8 */;

create table `task` (
    `task_id` int (11),
    `task_name` varchar (765),
    `create_time` varchar (765),
    `start_time` varchar (765),
    `finish_time` varchar (765),
    `task_type` varchar (765),
    `task_status` varchar (765),
    `task_param` text 
); 
insert into `task` (`task_id`, `task_name`, `create_time`, `start_time`, `finish_time`, `task_type`, `task_status`, `task_param`) values('1','测试任务',NULL,NULL,NULL,NULL,NULL,'{\"startAge\":[\"10\"],\"endAge\":[\"50\"],\"startDate\":[\"2017-07-26\"],\"endDate\":[\"2017-07-26\"],\"sex\":[\"male\"]}');

注意Task表中最后一个列task_param中,Json的StartDate和EndDate需要设置成今天,因为mock数据的时候,只有今天的数据

加载main方法 第 60多行

System.out.println (sessionid2actionRDD.count ());
        for (Tuple2<String,Row> tuple: sessionid2actionRDD.take ( 10 )){

            System.out.println (tuple._2 ());
        }

程序的主入口

SessionAnalysis

main方法

main方法

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏何俊林

Android 插件化和热修复知识梳理

本文来自IAM四十二授权发布,IAM四十二的简书地址:http://www.jianshu.com/u/c6f7cfa366d9 概述 在Android开发中...

47590
来自专栏量化投资与机器学习

战斗民族开源神器ClickHouse:一款适合于构建量化回测研究系统的高性能列式数据库(一)

编辑部原创 编译:wally21st、 西西 未经允许,不得转载 对于一些私募、投资机构和个人来说,量化投资研究、回测离不开数据的支持。当数据量达到一定数量,如...

74280
来自专栏WeTest质量开放平台团队的专栏

【腾讯内部工具分享】内存泄漏分析工具tMemoryMonitor

今天给大家介绍一款腾讯自主研发,荣获2015年十佳组件的“tMemoryMonitor”内存泄漏分析工具。该腾讯内部工具已经在腾讯WeTest官网内开放给用户使...

60850
来自专栏程序人生

系统开发之设计模式

上周五同事分享了design patterns in networks,里面很多patterns都是做路由器防火墙这样的转发设备之所以高效的精髓所在。「程序人生...

35550
来自专栏高性能服务器开发

强大的搜索开源框架Elastic Search介绍

近期工作需要,需要从成千上万封邮件中搜索一些关键字并返回对应的邮件内容,经调研我选择了Elastic Search。

1.1K10
来自专栏一起学设计模式

​一起学观察者模式

设计一个信用卡提醒功能的案例,上学就被信用卡坑过的我(完全不知道办理了一张信用卡,并进行了消费,也没有还款提醒,还超期未还年费,被银行无情的拉入了黑名单中,导致...

444110
来自专栏IT技术精选文摘

海量之道之弱联网优化

14240
来自专栏喵了个咪的博客空间

phalapi-入门篇6(小技巧和浅谈API适用范围以及入门篇总结)

#phalapi-入门篇6(小技巧和浅谈API适用范围以及入门篇总结)# ? ##前言## 先在这里感谢phalapi框架创始人@dogstar,为我们提供了这...

37450
来自专栏沈唁志

你认为该怎么样学习PHP?PHP成长之路

31150
来自专栏嵌入式程序猿

不按标准引发的bug

我们曾经在初级和中级培训中给大家详细讲解了Modbus通讯的开发,并多次强调了一定要按照标准协议的要求编写Modbus驱动程序,可是现实中仍然有很多工程师不按照...

29480

扫码关注云+社区

领取腾讯云代金券