腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

行者悟空

专栏作者

51

文章

79097

阅读量

22

订阅数

利用Hadoop Mapreduce实现pv统计分析

hadoop 网站 mapreduce

摘要本文将介绍通过Hadoop Mapreduce实现离线统计网站每日pv的思路及代码。前言利用网站的kpi数据来分析出网站潜在的价值，那么了解网站的PV、UV、IP的状况，是一项必不可少的任务。本文将介绍通过Hadoop Mapreduce实现离线统计网站每日pv的思路及代码。什么是PV pv是指页面的浏览量或点击量（Page View），用户每访问一次或刷新一下即被计算一次。需求对网站以往的访问数据进行日pv、月PV、年PV统计。技术选型对于访问量大的网站来说，普通程序计算实现成本非

2018-06-22

1.8K0

Hive基本概念

hive mapreduce 数据库 hadoop 存储

摘要 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 Hive简介什么是Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive 直接使用hadoop所面临的问题：人员学习成本太高项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive：操作接口采用类SQL语法，提供快速开发的能力。避免了去写MapReduce，减

2018-06-22

9020

Apache Hadoop-2.x集群部署（持续更新完善）

zookeeper xml node.js hadoop 大数据

摘要本文将介绍基于Hadoop2.x版本利用zookeeper搭建高可用集群环境。前言 1.在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。 hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM。这里我们使用简单的QJM。在该方案中，主

2018-06-22

6060

让Spark运行在YARN上（Spark on YARN）

yarn node.js hadoop 大数据 spark

在Spark Standalone模式下，集群资源调度由Master节点负责。Spark也可以将资源调度交给YARN来负责，其好处是YARN支持动态资源调度。Standalone模式只支持简单的固定资源分配策略，每个任务固定数量的core，各Job按顺序依次分配资源，资源不够时排队等待。这种策略适用单用户的场景，但在多用户时，各用户的程序差别很大，这种简单粗暴的策略很可能导致有些用户总是分配不到资源，而YARN的动态资源分配策略可以很好地解决这个问题。关于资源调度，第3章中还会详细讲解。另外，YARN作

2018-06-22

4.1K0

HBase集群搭建与调优（持续更新）

hbase hadoop zookeeper apache

摘要 hbase集群搭建与调优。前言本文持续更新中，主要因为我也是在工作中逐渐探索中，所以在工作中遇到的配置调优，都将第一时间更新到本文中，用作以后标准配置。版本介绍本文基于当前最稳定兼容版本如下： hadoop-2.7.3 hbase-1.2.5 zookeeper-3.4.10 配置文件介绍 Apache HBase使用与Apache Hadoop相同的配置系统，所有配置文件都位于conf/目录中。该目录需要与集群中的每个节点保持同步。 backup-masters 纯文本文件，用于描述备

2018-06-22

1K0

hadoop 大数据 hive 开源分布式

摘要当今大数据最火爆的一个名词就是Hadoop，那么Hadoop是什么呢？ Hadoop是什么 Hadoop是一个由Apache基金会的发布的开源的，可靠的，可扩展的，分布式的运算存储系统。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop可以解决什么问题海量数据的存储（HDFS）海量数据的分析（MapReduce）资源管理调度（YARN） Hadoop来源与历史 Hapdoop是Google的集群系统的开源实现 -Google集群系统:

2018-06-22

1.5K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态