腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

LanceToBigData

本人从事爬虫、java后端以及大数据相关的工作！

专栏作者

173

文章

288261

阅读量

60

订阅数

Flume（一）Flume原理解析

前言　　最近有一点浮躁，遇到了很多不该发生在我身上的事情。没有，忘掉这些。好好的学习，才是正道！一、Flume简介　　flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。　　但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.9.

2018-01-18

2.6K0

Hadoop（十三）分析MapReduce程序

数据处理大数据 hadoop

前言　　刚才发生了悲伤的一幕，本来这篇博客马上就要写好的，花了我一晚上的时间。但是刚才电脑没有插电源就没有了。很难受！想哭，但是没有办法继续站起来。　　前面的一篇博文中介绍了什么是MapReduce，这一篇给大家详细的分享一下MapReduce的运行原理。一、写一个MapReduce程序例子 1.1、数据准备　　准备要处理的数据（假定数据已经存放在hdfs的/data目录下）　　　　$> hdfs dfs -ls /data 　　看到测试数据目录。天气数据目录/data/weather,专利数据目

2018-01-18

1.2K0

Hadoop（十四）MapReduce原理分析

数据处理大数据 hadoop

前言　　上一篇我们分析了一个MapReduce在执行中的一些细节问题，这一篇分享的是MapReduce并行处理的基本过程和原理。　　Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。　　Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。一、MapReduce并行处理的基本过程　　首先要说明的是Hadoop2.0之前和Hadoop2.0之后的区别：　　　 2.

2018-01-18

4.6K0

Hadoop（十五）MapReduce程序实例

hadoop mapreduce 数据库

一、统计好友对数（去重） 1.1、数据准备 joe, jon joe , kia joe, bob joe ,ali kia, joe kia ,jim kia, dee dee ,kia dee, ali ali ,dee ali, jim ali ,bob ali, joe ali ,jon jon, joe jon ,ali bob, joe bob ,ali b

2018-01-18

1.2K0

Hadoop（十六）之使用Combiner优化MapReduce

hadoop mapreduce 数据处理

前言　　前面的一篇给大家写了一些MapReduce的一些程序，像去重、词频统计、统计分数、共现次数等。这一篇给大家介绍的是关于Combiner优化操作。一、Combiner概述 1.1、为什么需要Combiner 　　我们map任务处理的结果是存放在运行map任务的节点上。 map处理的数据的结果在进入reduce的时候，reduce会通过远程的方式去获取数据。　　在map处理完数据之后，数据量特别大的话。reduce再去处理数据它就要通过网络去获取很多的数据。　　这样会导致一个问题是：大量的数据

2018-01-18

1.4K0

Hadoop（十七）之MapReduce作业配置与Mapper和Reducer类

hadoop mapreduce

前言　　前面一篇博文写的是Combiner优化MapReduce执行，也就是使用Combiner在map端执行减少reduce端的计算量。一、作业的默认配置　　MapReduce程序的默认配置　

2018-01-18

7330

Hadoop（八）Java程序访问HDFS集群中数据块与查看文件系统

前言　　我们知道HDFS集群中，所有的文件都是存放在DN的数据块中的。那我们该怎么去查看数据块的相关属性的呢？这就是我今天分享的内容了一、HDFS中数据块概述 1.1、HDFS集群中数据块存放位置　　我们知道hadoop集群遵循的是主/从的架构，namenode很多时候都不作为文件的读写操作，只负责任务的调度和掌握数据块在哪些datanode的分布，　　保存的是一些数据结构，是namespace或者类似索引之类的东西，真正的数据存储和对数据的读写是发生在datanode里的。　　找到${HADOO

2018-01-18

1.2K0

Hadoop（九）Hadoop IO之Compression和Codecs

数据处理 hadoop

前言　　前面一篇介绍了Java怎么去查看数据块的相关信息和怎么去查看文件系统。我们只要知道怎么去查看就行了！接下来我分享的是Hadoop的I/O操作。　　在Hadoop中为什么要去使用压缩（Com

2018-01-18

8290

Hadoop（十）Hadoop IO之数据完整性

hadoop 数据处理 java

前言　　上一篇我分享了Hadoop的压缩和编解码器，在我们开发的过程中其实是经常会用到的，所以一定要去掌握。这一篇给大家介绍的是Hadoop的数据完整性！　　Hadoop用户在使用HDFS储存和处理数据不会丢失或者损坏，在磁盘或者网络上的每一个I/O操作不太可能将错误引入自己正在读/写的数据中，但是如果　　在处理的数据量非常大到Hadoop的处理极限时，数据被损坏的概率还是挺大的。一、数据完整性概述检测数据是否损坏的常用措施是：在数据第一次引入系统时计算校验和并在数据通过一个不可靠的同道

2018-01-18

1.4K0

Hadoop（十一）Hadoop IO之序列化与比较功能实现详解

hadoop java 数据处理

前言　　上一篇给大家介绍了Hadoop是怎么样保证数据的完整性的，并且使用Java程序来验证了会产生.crc的校验文件。这一篇给大家分享的是Hadoop的序列化！一、序列化和反序列化概述 1.1、序列化和反序列化的定义　　1）序列化：将结构化对象转换为字节流的过程，以便在网络上传输或写入到磁盘进行永久存储的过程。　　2）反序列化：将字节流转回一系列的相反过程结构化对象。　　注意：其实流就是字节数组，我们把数据转变成一系列的字节数组（0101这样的数据） 1.2、序列化和反序列化的应用　　1）进程

2018-01-18

6950

Hadoop（十二）MapReduce概述

前言　　前面以前把关于HDFS集群的所有知识给讲解完了，接下来给大家分享的是MapReduce这个Hadoop的并行计算框架。一、背景 1）爆炸性增长的Web规模数据量 2）超大的计算量/计算复杂

2018-01-18

8860

Hadoop（四）HDFS集群详解

hadoop 数据处理

前言　　前面几篇简单介绍了什么是大数据和Hadoop，也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。　　HDFS前言：　　　　设计思想：（分而治之）将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析。　　　　在大数据系统中作用：为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务。　　分布式文件系统：　　　　问题引发：海量数据超过了单台物理计算机的存储能力　　　　解

2018-01-18

1.9K0

Hadoop（五）搭建Hadoop客户端与Java访问HDFS集群

前言　　上一篇详细介绍了HDFS集群，还有操作HDFS集群的一些命令，常用的命令： hdfs dfs -ls xxx hdfs dfs -mkdir -p /xxx/xxx hdfs dfs -cat xxx hdfs dfs -put local cluster hdfs dfs -get cluster local hdfs dfs -cp /xxx/xxx /xxx/xxx hdfs dfs -chmod -R 777 /xxx hdf

2018-01-18

3K0

Hadoop（六）之HDFS的存储原理（运行原理）

数据处理 hadoop 存储

前言　　其实说到HDFS的存储原理，无非就是读操作和写操作，那接下来我们详细的看一下HDFS是怎么实现读写操作的！一、HDFS读取过程　　1）客户端通过调用FileSystem对象的open()

2018-01-18

1.7K0

Hadoop（七）HDFS容错机制详解

数据处理 hadoop

前言　　HDFS（Hadoop Distributed File System）是一个分布式文件系统。它具有高容错性并提供了高吞吐量的数据访问，非常适合大规模数据集上的应用，它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。　　优点是：　　　　高吞吐量访问：HDFS的每个Block分布在不同的Rack上，在用户访问时，HDFS会计算使用最近和访问量最小的服务器给用户提供。　　　　　　　　　　由于Block在不同的Rack上都有备份，所以不再是单数据访问，所以速度和效率是非常快的。另外HD

2018-01-18

1.6K0

Hadoop（一）之初识大数据与Hadoop

数据处理 hadoop 大数据

前言　　从今天起，我将一步一步的分享大数据相关的知识，其实很多程序员感觉大数据很难学，其实并不是你想象的这样，只要自己想学，还有什么难得呢？　　学习Hadoop有一个8020原则，80%都是在不断

2018-01-18

1.2K0

Hadoop（二）搭建伪分布式集群

数据处理 hadoop

前言　　前面只是大概介绍了一下Hadoop，现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享，先要看一下效果吧！一、Hadoop的三种运行模式（启动模式） 1.1、单机模式（独立模式）（Local或Standalone Mode）　　-默认情况下，Hadoop即处于该模式，用于开发和调式。　　-不对配置文件进行修改。　　-使用本地文件系统，而不是分布式文件系统。　　-Hadoop不会启动NameNode、DataNode、JobTracker、Task

2018-01-18

1.4K0

Hadoop（三）手把手教你搭建Hadoop全分布式集群

数据处理 hadoop

前言　　上一篇介绍了伪分布式集群的搭建，其实在我们的生产环境中我们肯定不是使用只有一台服务器的伪分布式集群当中的。接下来我将给大家分享一下全分布式集群的搭建！　　其实搭建最基本的全分布式集群和伪分布式集群基本没有什么区别，只有很小的区别。一、搭建Hadoop全分布式集群前提 1.1、网络　　1）如果是在一台虚拟机中安装多个linux操作系统的话，可以使用NAT或桥接模式都是可以的。试一试可不可以相互ping通！　　2）如果在一个局域网当中，自己的多台电脑（每台电脑安装相同版本的linux系统）搭建

2018-01-18

1.7K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态