腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据之美

专栏作者

138

文章

390198

阅读量

63

订阅数

MapReduce 计数器简介

mapreduce 大数据分布式

1、计数器简介在许多情况下，一个用户需要了解待分析的数据，尽管这并非所要执行的分析任务的核心内容。以统计数据集中无效记录数目的任务为例，如果发现无效记录的比例相当高，那么就需要认真思考为何存在如此多无效记录。是所采用的检测程序存在缺陷，还是数据集质量确实很低，包含大量无效记录？如果确定是数据集的质量问题，则可能需要扩大数据集的规模，以增大有效记录的比例，从而进行有意义的分析。计数器是一种收集作业统计信息的有效手段，用于质量控制或应用级统计。计数器还可辅助诊断系统故障。如果需要将日

2018-02-24

2.3K0

Hive 基础（1）：分区、桶、Sort Merge Bucket Join

hive 大数据 hadoop .net mapreduce

Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了，虽然也有 Impala 等后起之秀，但目前从功能、稳定性等方面来说，Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的，Join 是整个 MR/Hive 最为核心的部分之一，是每个 Hadoop/Hive/DW RD 必须掌握的部分，之前也有几篇文章聊到过 MR/Hive 中的 join，其实底层都是相同的，只是上层做了些封装而已，如果你还不了解究竟 Join 有哪些方式，以及底层怎么实现的，请参考如下

2018-02-24

3.2K0

一例 jvm file.encoding 属性引起的 MapReduce/HBase 乱码问题

jvm mapreduce hbase hadoop

1、问题：最近在往 HBase 写中文的时候，发现 hbase 查出来的数据会有部分中文乱码了，而部分中文又是正常的，按理来说，一般的乱码问题要么全乱，要么不乱。考虑到出现中文的地方都是来源于 hdfs 上的一个配置文件，而这个配置文件可以确定是 utf-8 编码的，那排除了原始文件导致的乱码，想想 MR 代码里也没有转码的逻辑，也排除了代码的问题，那就只有一种可能：Hadoop 集群的系统环境是异构的，这里面可能涉及到 linux 、java 的环境变量、配置的问题。 2、排查：（1）打印了整个集群的

2018-02-24

1.4K0

Hadoop 中利用 mapreduce 读写 mysql 数据

hadoop mapreduce 云数据库 SQL Server

有时候我们在项目中会遇到输入结果集很大，但是输出结果很小，比如一些 pv、uv 数据，然后为了实时查询的需求，或者一些 OLAP 的需求，我们需要 mapreduce 与 mysql 进行数据的交互，而这些特性正是 hbase 或者 hive 目前亟待改进的地方。好了言归正传，简单的说说背景、原理以及需要注意的地方： 1、为了方便 MapReduce 直接访问关系型数据库（Mysql,Oracle），Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInp

2018-02-24

2.1K0

Hadoop MapReduce 二次排序原理及其应用

hadoop mapreduce

关于二次排序主要涉及到这么几个东西：在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGroupingComparator 在0.20.0以后使用是 job.setPartitionerClass(Partitioner p); job.setSortComparatorClass(RawComparator c); job.setGroupingComparator

2018-02-24

1.2K0

自定义 hadoop MapReduce InputFormat 切分输入文件

hadoop mapreduce

在上一篇中，我们实现了按 cookieId 和 time 进行二次排序，现在又有新问题：假如我需要按 cookieId 和 cookieId&time 的组合进行分析呢？此时最好的办法是自定义 InputFormat，让 mapreduce 一次读取一个 cookieId 下的所有记录，然后再按 time 进行切分 session，逻辑伪码如下： for OneSplit in MyInputFormat.getSplit() // OneSplit 是某个 cookieId 下的所有记录

2018-02-24

1.7K0

MapReduce中的自定义多目录/文件名输出HDFS

mapreduce hadoop

最近考虑到这样一个需求：需要把原始的日志文件用hadoop做清洗后，按业务线输出到不同的目录下去，以供不同的部门业务线使用。这个需求需要用到MultipleOutputFormat和MultipleOutputs来实现自定义多目录、文件的输出。需要注意的是，在hadoop 0.21.x之前和之后的使用方式是不一样的： hadoop 0.21 之前的API 中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat 和 org.apache

2018-02-24

2.7K0

MapReduce 中的两表 join 几种方案简介

mapreduce hadoop

1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。 2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2. 2.1 reduce side join reduce side join是一种最简单的jo

2018-02-24

1.1K0

Pig、Hive、MapReduce 解决分组 Top K 问题

hive mapreduce hadoop

问题：有如下数据文件 city.txt （id， city， value） cat city.txt 1 wh 500 2 bj 600 3 wh 100 4 sh 400 5 wh 200 6 bj 100 7 sh 200 8 bj 300 9 sh 900 需要按 city 分组聚合，然后从每组数据中取出前两条value最大的记录。 1、这是实际业务中经常会遇到的 group TopK 问题，下面来看看 pig 如何解决： a = load '/data/city.txt'

2018-02-24

1.1K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态