腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

行者悟空

专栏作者

51

文章

79106

阅读量

22

订阅数

利用Hadoop Mapreduce实现pv统计分析

hadoop 网站 mapreduce

摘要本文将介绍通过Hadoop Mapreduce实现离线统计网站每日pv的思路及代码。前言利用网站的kpi数据来分析出网站潜在的价值，那么了解网站的PV、UV、IP的状况，是一项必不可少的任务。本文将介绍通过Hadoop Mapreduce实现离线统计网站每日pv的思路及代码。什么是PV pv是指页面的浏览量或点击量（Page View），用户每访问一次或刷新一下即被计算一次。需求对网站以往的访问数据进行日pv、月PV、年PV统计。技术选型对于访问量大的网站来说，普通程序计算实现成本非

2018-06-22

1.8K0

Hive基本概念

hive mapreduce 数据库 hadoop 存储

摘要 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 Hive简介什么是Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive 直接使用hadoop所面临的问题：人员学习成本太高项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive：操作接口采用类SQL语法，提供快速开发的能力。避免了去写MapReduce，减

2018-06-22

9040

Apache Hive 安装详解及相关问题解决方案

apache hive 云数据库 SQL Server mapreduce spark

摘要本文介绍hive工具的安装及整合mysql 下载Hive 点击hive官方下载 hive目前两个运行版本分为两个分支：1.x 、2.x 1.x主要是运行在MapReduce上面。 2.x主要运行在Spark上面。安装及配置上传并解压Hive 将Hive上传到hadoop集群服务器/itunic/目录下，并解压到当前目录。 tar -zxvf apache-hive-1.2.1-bin.tar.gz 2.将hive配置到环境变量 vi /etc/profile #set hive env ex

2018-06-22

5920

MapReduce程序的几种提交运行模式

mapreduce windows eclipse linux

以下将介绍以下开发完MapReduce程序后，提交运行的几个模式。本地模型运行在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下（c:/wc/srcdata/） ----输入输出数据也可以放在hdfs中(hdfs://itunic:9000/wc/srcdata) 在linux的eclipse里面直接运行main方法，但是不要添加yarn相关的配置，也会提交给localjobrunner执行

2018-06-22

9320

利用Spark通过nginx日志离线统计网站每日pv

spark nginx apache mapreduce

摘要本文将介绍通过Apache Spark实现离线统计网站每日pv的思路及代码。前言在此之前，利用mapreduce实现了一版通过nginx日志离线分析网站每日pv，感兴趣的可以去看一下。本文实现思路与之前mapreduce的思路一致。可以很好的比较mapreduce和Spark的写法。在个人看来，Spark写起来更加优美简洁，有一种四两拨千斤的感觉。想了解实现思路的，可以看一下利用Mapreduce实现的文章，详细思路已经阐述。点击查看->利用HadoopMareduce实现pv统计分析本

2018-06-22

1.8K0

利用Spark RDD实现分组并排序

spark mapreduce

摘要本文将介绍利用Spark RDD实现分组并排序。前言被朋友问到Spark分组并排序怎么实现？当时，本人觉得So-Easy的问题。因为在MapReduce也会有类似的需求，相较于MapReduce，那Spark的实现简直简单爆了。but，依然阴沟翻船，具体思路是没有错的，但在纸上描述代码的时候出现了错误，这其实就是归根于用IDE的代价吧。好多东西，不需要刻意的去记忆。反思... ...所以在ide上手动实现了一遍Spark RDD 分组并排序，以示警戒。思路思路很简单，就是按照key分组，并

2018-06-22

4.8K0

Spark RDD的Shuffle

spark mapreduce

Shuffle的概念来自Hadoop的MapReduce计算过程。当对一个RDD的某个分区进行操作而无法精确知道依赖前一个RDD的哪个分区时，依赖关系变成了依赖前一个RDD的所有分区。比如，几乎所有<key, value>类型的RDD操作，都涉及按key对RDD成员进行重组，将具有相同key但分布在不同节点上的成员聚合到一个节点上，以便对它们的value进行操作。这个重组的过程就是Shuffle操作。因为Shuffle操作会涉及数据的传输，所以成本特别高，而且过程复杂。下面以reduceByKey为例来介

2018-06-22

6040

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态