数据之美-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据之美

专栏成员

138

文章

410881

阅读量

63

订阅数

迷之 crontab 异常：不运行、不报错、无日志

1、背景前几天新同学入职，一不小心将跳板机上的 crontab 清空了，导致凌晨一大批任务异常，同事问了运维同学也没有备份，这一百多个任务要是恢复起来可不是件容易的事儿。还好我去年某天开始做了定时备份，每分钟一次 backup 到本地磁盘，最后很容易的将 crontab 给恢复了。这件事情过后我也在想，一台跳板机整个部门都共用一个账号， Linux 水平和安全意识又参差不齐，其实很难避免以后还会误操作，比如一下子将 home 目录全干掉。所以我想 backup 最好不要保存在本地，于是想一条命令将其备份

2018-04-16

6.2K0

Flume NG 简介及配置实战

Flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.94.0 中，日志传输不稳定的现象尤为严重，为了解决这些问题，2011 年 10 月 22 号，cloudera 完成了 Flume

2018-02-24

1.9K0

基于 Hive 的文件格式：RCFile 简介及其应用

Hadoop 作为MR 的开源实现，一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过，MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建，因此序列化和反序列化的成本过高。 1、hadoop 文件格式简介目前 hadoop 中流行的文件格式有如下几种：（1）SequenceFile SequenceFile是Hadoop API 提供的一种二进制文件，它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的

2018-02-24

2.5K0

Hive 基础（1）：分区、桶、Sort Merge Bucket Join

hive 大数据 hadoop .net mapreduce

Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了，虽然也有 Impala 等后起之秀，但目前从功能、稳定性等方面来说，Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的，Join 是整个 MR/Hive 最为核心的部分之一，是每个 Hadoop/Hive/DW RD 必须掌握的部分，之前也有几篇文章聊到过 MR/Hive 中的 join，其实底层都是相同的，只是上层做了些封装而已，如果你还不了解究竟 Join 有哪些方式，以及底层怎么实现的，请参考如下

2018-02-24

3.3K0

HDFS 原理、架构与特性介绍

本文主要讲述 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制 1：当前HDFS架构详尽分析 HDFS架构 •NameNode •DataNod

2018-02-24

3.2K0

一例 jvm file.encoding 属性引起的 MapReduce/HBase 乱码问题

jvm mapreduce hbase hadoop

1、问题：最近在往 HBase 写中文的时候，发现 hbase 查出来的数据会有部分中文乱码了，而部分中文又是正常的，按理来说，一般的乱码问题要么全乱，要么不乱。考虑到出现中文的地方都是来源于 hdfs 上的一个配置文件，而这个配置文件可以确定是 utf-8 编码的，那排除了原始文件导致的乱码，想想 MR 代码里也没有转码的逻辑，也排除了代码的问题，那就只有一种可能：Hadoop 集群的系统环境是异构的，这里面可能涉及到 linux 、java 的环境变量、配置的问题。 2、排查：（1）打印了整个集群的

2018-02-24

1.5K0

Hadoop 中利用 mapreduce 读写 mysql 数据

hadoop mapreduce 云数据库 SQL Server

有时候我们在项目中会遇到输入结果集很大，但是输出结果很小，比如一些 pv、uv 数据，然后为了实时查询的需求，或者一些 OLAP 的需求，我们需要 mapreduce 与 mysql 进行数据的交互，而这些特性正是 hbase 或者 hive 目前亟待改进的地方。好了言归正传，简单的说说背景、原理以及需要注意的地方： 1、为了方便 MapReduce 直接访问关系型数据库（Mysql,Oracle），Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInp

2018-02-24

2.1K0

Hadoop MapReduce 二次排序原理及其应用

hadoop mapreduce

关于二次排序主要涉及到这么几个东西：在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGroupingComparator 在0.20.0以后使用是 job.setPartitionerClass(Partitioner p); job.setSortComparatorClass(RawComparator c); job.setGroupingComparator

2018-02-24

1.2K0

自定义 hadoop MapReduce InputFormat 切分输入文件

hadoop mapreduce

在上一篇中，我们实现了按 cookieId 和 time 进行二次排序，现在又有新问题：假如我需要按 cookieId 和 cookieId&time 的组合进行分析呢？此时最好的办法是自定义 InputFormat，让 mapreduce 一次读取一个 cookieId 下的所有记录，然后再按 time 进行切分 session，逻辑伪码如下： for OneSplit in MyInputFormat.getSplit() // OneSplit 是某个 cookieId 下的所有记录

2018-02-24

1.8K0

Hadoop Mapper 阶段将数据直接从 HDFS 导入 Hbase

数据源格式如下： 20130512 1 -1 -1 13802 1 2013-05-12 07:26:22 20130512 1 -1 -1 13802 1 2013-05-12 11:18:24 我们期待的结果是数据直接从 hdfs 读取后写入 hbase，没有 reduce 阶段，代码如下： package WebsiteAnalysis; import java.io.IOException; import org.apache.hadoop.conf.Configuratio

2018-02-24

9180

关于 hadoop reduce 阶段遍历 Iterable 的 2 个“坑”

之前有童鞋问到了这样一个问题：为什么我在 reduce 阶段遍历了一次 Iterable 之后，再次遍历的时候，数据都没了呢？可能有童鞋想当然的回答：Iterable 只能单向遍历一次，就这样简单的原因。。。事实果真如此吗？还是用代码说话： package com.test; import java.util.ArrayList; import java.util.Iterator; import java.util.List; public class T { public static

2018-02-24

1.1K0

BloomFilter 简介及在 Hadoop reduce side join 中的应用

1、BloomFilter能解决什么问题? 以少量的内存空间判断一个元素是否属于这个集合, 代价是有一定的错误率 2、工作原理 1. 初始化一个数组, 所

2018-02-24

1.2K0

Hive 在多维统计分析中的应用 & 技巧总结

多维统计一般分两种，我们看看 Hive 中如何解决： 1、同属性的多维组合统计（1）问题：有如下数据，字段内容分别为：url, catePath0, catePath1, catePath2, unitparams https://cwiki.apache.org/confluence 0 1 8 {"store":{"fruit":[{"weight":1,"type":"apple"},{"weight":9,"type":"pear"}],"bicycle":{"price":1

2018-02-24

1.9K0

Hadoop 多表 join：map side join 范例

在没有 pig 或者 hive 的环境下，直接在 mapreduce 中自己实现 join 是一件极其蛋疼的事情，MR中的join分为好几种，比如有最常见的 reduce side join，map side join，semi join 等。今天我们要讨论的是第 2 种：map side join，这种 join 在处理多个小表关联大表时非常有用，而 reduce join 在处理多表关联时是比较麻烦的，会造成大量的网络IO，效率低下。 1、原理：之所以存在reduce

2018-02-24

1.4K1

MapReduce中的自定义多目录/文件名输出HDFS

mapreduce hadoop

最近考虑到这样一个需求：需要把原始的日志文件用hadoop做清洗后，按业务线输出到不同的目录下去，以供不同的部门业务线使用。这个需求需要用到MultipleOutputFormat和MultipleOutputs来实现自定义多目录、文件的输出。需要注意的是，在hadoop 0.21.x之前和之后的使用方式是不一样的： hadoop 0.21 之前的API 中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat 和 org.apache

2018-02-24

2.7K0

MapReduce 中的两表 join 几种方案简介

mapreduce hadoop

1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。 2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2. 2.1 reduce side join reduce side join是一种最简单的jo

2018-02-24

1.2K0

Pig、Hive、MapReduce 解决分组 Top K 问题

hive mapreduce hadoop

问题：有如下数据文件 city.txt （id， city， value） cat city.txt 1 wh 500 2 bj 600 3 wh 100 4 sh 400 5 wh 200 6 bj 100 7 sh 200 8 bj 300 9 sh 900 需要按 city 分组聚合，然后从每组数据中取出前两条value最大的记录。 1、这是实际业务中经常会遇到的 group TopK 问题，下面来看看 pig 如何解决： a = load '/data/city.txt'

2018-02-24

1.1K0

Zookeeper 原理与实践

zookeeper hadoop hive hbase

1、Zookeeper 的由来在Hadoop生态系统中，许多项目的Logo都采用了动物，比如 Hadoop 和 Hive 采用了大象的形象，HBase 采用了海豚的形象，而从字面上来看 ZooKeeper 表示动物园管理员，所以大家可以理解为 ZooKeeper就是对这些动物（项目组件）进行一些管理工作的。对于单机环境多线程的竞态资源协调方法，我们一般通过线程锁来协调对共享数据的访问以保证状态的一致性。但是分布式环境如何进行协调呢？于是，Google创造了Chubby，而ZooKeeper则是对于Ch

2018-02-24

2.5K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态