首页
学习
活动
专区
工具
TVP
发布

LanceToBigData

本人从事爬虫、java后端以及大数据相关的工作!
专栏作者
173
文章
288261
阅读量
60
订阅数
Flume(一)Flume原理解析
前言   最近有一点浮躁,遇到了很多不该发生在我身上的事情。没有,忘掉这些。好好的学习,才是正道! 一、Flume简介   flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。   但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.9.
用户1195962
2018-01-18
2.6K0
Hadoop(十三)分析MapReduce程序
前言   刚才发生了悲伤的一幕,本来这篇博客马上就要写好的,花了我一晚上的时间。但是刚才电脑没有插电源就没有了。很难受!想哭,但是没有办法继续站起来。   前面的一篇博文中介绍了什么是MapReduce,这一篇给大家详细的分享一下MapReduce的运行原理。 一、写一个MapReduce程序例子 1.1、数据准备   准备要处理的数据(假定数据已经存放在hdfs的/data目录下)     $> hdfs dfs -ls /data   看到测试数据目录。天气数据目录/data/weather,专利数据目
用户1195962
2018-01-18
1.2K0
Hadoop(十四)MapReduce原理分析
前言   上一篇我们分析了一个MapReduce在执行中的一些细节问题,这一篇分享的是MapReduce并行处理的基本过程和原理。   Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。   Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 一、MapReduce并行处理的基本过程   首先要说明的是Hadoop2.0之前和Hadoop2.0之后的区别:      2.
用户1195962
2018-01-18
4.6K0
Hadoop(十五)MapReduce程序实例
一、统计好友对数(去重) 1.1、数据准备 joe, jon joe , kia joe, bob joe ,ali kia, joe kia ,jim kia, dee dee ,kia dee, ali ali ,dee ali, jim ali ,bob ali, joe ali ,jon jon, joe jon ,ali bob, joe bob ,ali b
用户1195962
2018-01-18
1.2K0
Hadoop(十六)之使用Combiner优化MapReduce
前言   前面的一篇给大家写了一些MapReduce的一些程序,像去重、词频统计、统计分数、共现次数等。这一篇给大家介绍的是关于Combiner优化操作。 一、Combiner概述 1.1、为什么需要Combiner   我们map任务处理的结果是存放在运行map任务的节点上。 map处理的数据的结果在进入reduce的时候,reduce会通过远程的方式去获取数据。   在map处理完数据之后,数据量特别大的话。reduce再去处理数据它就要通过网络去获取很多的数据。   这样会导致一个问题是:大量的数据
用户1195962
2018-01-18
1.4K0
Hadoop(十七)之MapReduce作业配置与Mapper和Reducer类
前言   前面一篇博文写的是Combiner优化MapReduce执行,也就是使用Combiner在map端执行减少reduce端的计算量。 一、作业的默认配置   MapReduce程序的默认配置 
用户1195962
2018-01-18
7330
Hadoop(八)Java程序访问HDFS集群中数据块与查看文件系统
前言   我们知道HDFS集群中,所有的文件都是存放在DN的数据块中的。那我们该怎么去查看数据块的相关属性的呢?这就是我今天分享的内容了 一、HDFS中数据块概述 1.1、HDFS集群中数据块存放位置   我们知道hadoop集群遵循的是主/从的架构,namenode很多时候都不作为文件的读写操作,只负责任务的调度和掌握数据块在哪些datanode的分布,   保存的是一些数据结构,是namespace或者类似索引之类的东西,真正的数据存储和对数据的读写是发生在datanode里的。   找到${HADOO
用户1195962
2018-01-18
1.2K0
Hadoop(九)Hadoop IO之Compression和Codecs
前言   前面一篇介绍了Java怎么去查看数据块的相关信息和怎么去查看文件系统。我们只要知道怎么去查看就行了!接下来我分享的是Hadoop的I/O操作。   在Hadoop中为什么要去使用压缩(Com
用户1195962
2018-01-18
8290
Hadoop(十)Hadoop IO之数据完整性
前言   上一篇我分享了Hadoop的压缩和编解码器,在我们开发的过程中其实是经常会用到的,所以一定要去掌握。这一篇给大家介绍的是Hadoop的数据完整性!   Hadoop用户在使用HDFS储存和处理数据不会丢失或者损坏,在磁盘或者网络上的每一个I/O操作不太可能将错误引入自己正在读/写的数据中,但是如果   在处理的数据量非常大到Hadoop的处理极限时,数据被损坏的概率还是挺大的。 一、数据完整性概述 检测数据是否损坏的常用措施是:在数据第一次引入系统时计算校验和并在数据通过一个不可靠的同道
用户1195962
2018-01-18
1.4K0
Hadoop(十一)Hadoop IO之序列化与比较功能实现详解
前言   上一篇给大家介绍了Hadoop是怎么样保证数据的完整性的,并且使用Java程序来验证了会产生.crc的校验文件。这一篇给大家分享的是Hadoop的序列化! 一、序列化和反序列化概述 1.1、序列化和反序列化的定义   1)序列化:将结构化对象转换为字节流的过程,以便在网络上传输或写入到磁盘进行永久存储的过程。   2)反序列化:将字节流转回一系列的相反过程结构化对象。   注意:其实流就是字节数组,我们把数据转变成一系列的字节数组(0101这样的数据) 1.2、序列化和反序列化的应用   1)进程
用户1195962
2018-01-18
6950
Hadoop(十二)MapReduce概述
前言   前面以前把关于HDFS集群的所有知识给讲解完了,接下来给大家分享的是MapReduce这个Hadoop的并行计算框架。 一、背景 1)爆炸性增长的Web规模数据量 2)超大的计算量/计算复杂
用户1195962
2018-01-18
8860
Hadoop(四)HDFS集群详解
前言   前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。   HDFS前言:     设计思想:(分而治之)将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。     在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务。   分布式文件系统:     问题引发:海量数据超过了单台物理计算机的存储能力     解
用户1195962
2018-01-18
1.9K0
Hadoop(五)搭建Hadoop客户端与Java访问HDFS集群
前言   上一篇详细介绍了HDFS集群,还有操作HDFS集群的一些命令,常用的命令: hdfs dfs -ls xxx hdfs dfs -mkdir -p /xxx/xxx hdfs dfs -cat xxx hdfs dfs -put local cluster hdfs dfs -get cluster local hdfs dfs -cp /xxx/xxx /xxx/xxx hdfs dfs -chmod -R 777 /xxx hdf
用户1195962
2018-01-18
3K0
Hadoop(六)之HDFS的存储原理(运行原理)
前言   其实说到HDFS的存储原理,无非就是读操作和写操作,那接下来我们详细的看一下HDFS是怎么实现读写操作的! 一、HDFS读取过程   1)客户端通过调用FileSystem对象的open()
用户1195962
2018-01-18
1.7K0
Hadoop(七)HDFS容错机制详解
前言   HDFS(Hadoop Distributed File System)是一个分布式文件系统。它具有高容错性并提供了高吞吐量的数据访问,非常适合大规模数据集上的应用,它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。   优点是:     高吞吐量访问:HDFS的每个Block分布在不同的Rack上,在用户访问时,HDFS会计算使用最近和访问量最小的服务器给用户提供。              由于Block在不同的Rack上都有备份,所以不再是单数据访问,所以速度和效率是非常快的。另外HD
用户1195962
2018-01-18
1.6K0
Hadoop(一)之初识大数据与Hadoop
前言   从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢?   学习Hadoop有一个8020原则,80%都是在不断
用户1195962
2018-01-18
1.2K0
Hadoop(二)搭建伪分布式集群
前言   前面只是大概介绍了一下Hadoop,现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享,先要看一下效果吧! 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone  Mode)   -默认情况下,Hadoop即处于该模式,用于开发和调式。   -不对配置文件进行修改。   -使用本地文件系统,而不是分布式文件系统。   -Hadoop不会启动NameNode、DataNode、JobTracker、Task
用户1195962
2018-01-18
1.4K0
Hadoop(三)手把手教你搭建Hadoop全分布式集群
前言   上一篇介绍了伪分布式集群的搭建,其实在我们的生产环境中我们肯定不是使用只有一台服务器的伪分布式集群当中的。接下来我将给大家分享一下全分布式集群的搭建!   其实搭建最基本的全分布式集群和伪分布式集群基本没有什么区别,只有很小的区别。 一、搭建Hadoop全分布式集群前提 1.1、网络   1)如果是在一台虚拟机中安装多个linux操作系统的话,可以使用NAT或桥接模式都是可以的。试一试可不可以相互ping通!   2)如果在一个局域网当中,自己的多台电脑(每台电脑安装相同版本的linux系统)搭建
用户1195962
2018-01-18
1.7K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档