首页
学习
活动
专区
工具
TVP
发布

行者悟空

专栏作者
51
文章
79106
阅读量
22
订阅数
利用Hadoop Mapreduce实现pv统计分析
摘 要 本文将介绍通过Hadoop Mapreduce实现离线统计网站每日pv的思路及代码。 前言 利用网站的kpi数据来分析出网站潜在的价值,那么了解网站的PV、UV、IP的状况,是一项必不可少的任务。本文将介绍通过Hadoop Mapreduce实现离线统计网站每日pv的思路及代码。 什么是PV pv是指页面的浏览量或点击量(Page View),用户每访问一次或刷新一下即被计算一次。 需求 对网站以往的访问数据进行日pv、月PV、年PV统计。 技术选型 对于访问量大的网站来说,普通程序计算实现成本非
天策
2018-06-22
1.8K0
Hive基本概念
摘 要 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive简介 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 为什么使用Hive 直接使用hadoop所面临的问题: 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 为什么要使用Hive: 操作接口采用类SQL语法,提供快速开发的能力。 避免了去写MapReduce,减
天策
2018-06-22
9040
Apache Hive 安装详解及相关问题解决方案
摘 要 本文介绍hive工具的安装及整合mysql 下载Hive 点击hive官方下载 hive目前两个运行版本分为两个分支:1.x 、2.x 1.x主要是运行在MapReduce上面。 2.x主要运行在Spark上面。 安装及配置 上传并解压Hive 将Hive上传到hadoop集群服务器/itunic/目录下,并解压到当前目录。 tar -zxvf apache-hive-1.2.1-bin.tar.gz 2.将hive配置到环境变量 vi /etc/profile #set hive env ex
天策
2018-06-22
5920
MapReduce程序的几种提交运行模式
以下将介绍以下开发完MapReduce程序后,提交运行的几个模式。 本地模型运行 在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下(c:/wc/srcdata/) ----输入输出数据也可以放在hdfs中(hdfs://itunic:9000/wc/srcdata) 在linux的eclipse里面直接运行main方法,但是不要添加yarn相关的配置,也会提交给localjobrunner执行
天策
2018-06-22
9320
利用Spark通过nginx日志离线统计网站每日pv
摘 要 本文将介绍通过Apache Spark实现离线统计网站每日pv的思路及代码。 前言 在此之前,利用mapreduce实现了一版通过nginx日志离线分析网站每日pv,感兴趣的可以去看一下。本文实现思路与之前mapreduce的思路一致。可以很好的比较mapreduce和Spark的写法。在个人看来,Spark写起来更加优美简洁,有一种四两拨千斤的感觉。 想了解实现思路的,可以看一下利用Mapreduce实现的文章,详细思路已经阐述。 点击查看->利用HadoopMareduce实现pv统计分析 本
天策
2018-06-22
1.8K0
利用Spark RDD实现分组并排序
摘 要 本文将介绍利用Spark RDD实现分组并排序。 前言 被朋友问到Spark分组并排序怎么实现?当时,本人觉得So-Easy的问题。因为在MapReduce也会有类似的需求,相较于MapReduce,那Spark的实现简直简单爆了。but,依然阴沟翻船,具体思路是没有错的,但在纸上描述代码的时候出现了错误,这其实就是归根于用IDE的代价吧。好多东西,不需要刻意的去记忆。反思... ...所以在ide上手动实现了一遍Spark RDD 分组并排序,以示警戒。 思路 思路很简单,就是按照key分组,并
天策
2018-06-22
4.8K0
Spark RDD的Shuffle
Shuffle的概念来自Hadoop的MapReduce计算过程。当对一个RDD的某个分区进行操作而无法精确知道依赖前一个RDD的哪个分区时,依赖关系变成了依赖前一个RDD的所有分区。比如,几乎所有<key, value>类型的RDD操作,都涉及按key对RDD成员进行重组,将具有相同key但分布在不同节点上的成员聚合到一个节点上,以便对它们的value进行操作。这个重组的过程就是Shuffle操作。因为Shuffle操作会涉及数据的传输,所以成本特别高,而且过程复杂。 下面以reduceByKey为例来介
天策
2018-06-22
6040
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档