首页
学习
活动
专区
工具
TVP
发布

行者悟空

专栏作者
51
文章
79097
阅读量
22
订阅数
利用Hadoop Mapreduce实现pv统计分析
摘 要 本文将介绍通过Hadoop Mapreduce实现离线统计网站每日pv的思路及代码。 前言 利用网站的kpi数据来分析出网站潜在的价值,那么了解网站的PV、UV、IP的状况,是一项必不可少的任务。本文将介绍通过Hadoop Mapreduce实现离线统计网站每日pv的思路及代码。 什么是PV pv是指页面的浏览量或点击量(Page View),用户每访问一次或刷新一下即被计算一次。 需求 对网站以往的访问数据进行日pv、月PV、年PV统计。 技术选型 对于访问量大的网站来说,普通程序计算实现成本非
天策
2018-06-22
1.8K0
Hive基本概念
摘 要 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive简介 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 为什么使用Hive 直接使用hadoop所面临的问题: 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 为什么要使用Hive: 操作接口采用类SQL语法,提供快速开发的能力。 避免了去写MapReduce,减
天策
2018-06-22
9020
Apache Hadoop-2.x集群部署(持续更新完善)
摘 要 本文将介绍基于Hadoop2.x版本利用zookeeper搭建高可用集群环境。 前言 1.在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。 hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM。这里我们使用简单的QJM。在该方案中,主
天策
2018-06-22
6060
让Spark运行在YARN上(Spark on YARN)
在Spark Standalone模式下,集群资源调度由Master节点负责。Spark也可以将资源调度交给YARN来负责,其好处是YARN支持动态资源调度。Standalone模式只支持简单的固定资源分配策略,每个任务固定数量的core,各Job按顺序依次分配资源,资源不够时排队等待。这种策略适用单用户的场景,但在多用户时,各用户的程序差别很大,这种简单粗暴的策略很可能导致有些用户总是分配不到资源,而YARN的动态资源分配策略可以很好地解决这个问题。关于资源调度,第3章中还会详细讲解。 另外,YARN作
天策
2018-06-22
4.1K0
HBase集群搭建与调优(持续更新)
摘 要 hbase集群搭建与调优。 前言 本文持续更新中,主要因为我也是在工作中逐渐探索中,所以在工作中遇到的配置调优,都将第一时间更新到本文中,用作以后标准配置。 版本介绍 本文基于当前最稳定兼容版本如下: hadoop-2.7.3 hbase-1.2.5 zookeeper-3.4.10 配置文件介绍 Apache HBase使用与Apache Hadoop相同的配置系统,所有配置文件都位于conf/目录中。该目录需要与集群中的每个节点保持同步。 backup-masters 纯文本文件,用于描述备
天策
2018-06-22
1K0
Hadoop简介
摘 要 当今大数据最火爆的一个名词就是Hadoop,那么Hadoop是什么呢? Hadoop是什么 Hadoop是一个由Apache基金会的发布的开源的,可靠的,可扩展的,分布式的运算存储系统。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop可以解决什么问题 海量数据的存储(HDFS) 海量数据的分析(MapReduce) 资源管理调度(YARN) Hadoop来源与历史 Hapdoop是Google的集群系统的开源实现 -Google集群系统:
天策
2018-06-22
1.5K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档