首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

使用hive查询把访问网络流量会话化

《Hive编程指南》最后一章的Outbrain案例中,有一个把访问网络流量会话化的简单实现,但按照它的查询出来的结果是错的,于是自己重写了一个。 一、问题提出(摘自书中原文)         为了分析网络流量,我们常常希望能够基于各种各样的标准来测量热度。一种方法就是将用户行为分解到会话中,一次会话代表单一的一次“使用”所包含的一系列操作。一个用户在一天内或者一个月中的某几天可以多次访问某个网站,但每一次访问肯定是不一样的。         那么,什么是一个会话呢?一种定义是指相隔不超过30分钟的一连串的页面活动就是一个会话。也就是说,如果你去你的第1个页面,等待5分钟,然后去第2个页面,那么这是相同的会话。又等待25分钟后再到第3页,仍然是相同的会话。再等待1分钟跳转到第4页,这次会话将被打破了,这将不是第4个访问页面了,而是第2个会话中的第一个页面。         一旦我们获得这些中断信息,我们就可以查看会话的属性信息,来看看发生了什么事而导致中断的。常规的方式就是通过会话长度来对链入的页面进行比较。         乍一看,这似乎是一个完美的迭代过程。对于每个页面,保持倒计数,直到你找到第1个页面。但Hive是不支持迭代的。不过,还是可以解决这个问题。可以将这个过程分为4个阶段。 1. 识别哪些页面浏览是会话的初始者,或“起源”页面。 2. 对于每个页面,将其划分到正确的来源页面。 3. 将所有的页面浏览聚合到每个来源页面。 4. 对每个来源页面进行标记,然后计算每个会话的热度。 这种方式将产生一个表,其中每一行都表示一个完整的会话,然后用户就可以查询想知道的信息了。 二、实现过程 1. 设置 首先定义表session_test:

03

数学建模学习笔记(一)美赛的基本认知

美赛(2021) 比赛流程:  比赛开始前,注册队伍 截止至 2月5日 4:00(北京时间)  竞赛期间,选题答题 竞赛问题将在2021年2月5日 6:00开放,供参赛队查看 网址:https://www.comap.com/undergraduate/contests/mcm  竞赛期间,准备论文 选择六个问题中的任何一个解答,并且提交论文。  竞赛期间:指导教师的任务 比赛于2021年2月5日6:00开始后,在各参赛队准备论文时,指导老师应登录比赛网站,指定每个团队选择要解决的问题。  竞赛结束:提交论文/控制页 论文提交: 在2021年2月9日,9:00之前,通过电子邮件向COMAP发送论文文件的PDF电子文件。邮箱:solutions@comap.com 控制页提交: 每一个参赛队员必须在控制页上签上自己的名字,以表明他或她遵守了竞赛规则 和要求。将签了名的控制页发送邮件到 COMAP。邮箱:forms@comap.com 注: 1、邮件的主题行写:COMAP 你们队的控制号,例如: COMAP 54321 2、邮件的附件名要用你们队的控制号命名,例如:54321.pdf 3、论文提交,摘要必须是论文文件的第一页 4、附件必须小于 17MB  竞赛结束:指导教师的任务 指导老师应在比赛结束后一到两天使用指导老师登录链接,以验证COMAP收到了您团队的电子论文。

01
领券