学习
实践
活动
专区
工具
TVP
写文章

java mapreduce实现网站PV分析

PV 是Page Views的缩写,即页面浏览量,用户每一次对网站中的每个网页访问均被记录一次。注意,访客每刷新一次页面,pv就增加一次。

我们目前的数据是:

其中的数据我们会得到标注

根据标注我们进行代码筛选,编写MapReduce

分析:我们先根据标注的表中有一个“省份”的字段,依据“省份”编写map。

首先我们创建Maven项目

填写pom信息

创建Map类

基本结构如下:

我们需要对原数据进行筛选

长度筛选

省份编号是空值

确保数字编号是否是数字

筛选URL是否为空值

创建Reduce类

编写内容

创建运行类

编写程序内容

准备数据源文件和Jar包

启动Hadoop

我们将数据上传到HDFS中

我们查看下数据,发现数据已经上传了

我们执行我们的jar包

yarn jar /data/webpv/webpv.jar com.xlglvc.xxx.mapredece.webpv.WebPvDriver /webpv/data1 /webpvoutput

执行成功

我们查看生成的数据,已经生成了,我们查看下最终数据

这样我们就知道每个省份最终访问的次数了,了解到那个省份访问的最多了

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191202A08OCC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券