首页
学习
活动
专区
工具
TVP
发布

LanceToBigData

本人从事爬虫、java后端以及大数据相关的工作!
专栏作者
173
文章
288212
阅读量
60
订阅数
Hadoop(十三)分析MapReduce程序
前言   刚才发生了悲伤的一幕,本来这篇博客马上就要写好的,花了我一晚上的时间。但是刚才电脑没有插电源就没有了。很难受!想哭,但是没有办法继续站起来。   前面的一篇博文中介绍了什么是MapReduce,这一篇给大家详细的分享一下MapReduce的运行原理。 一、写一个MapReduce程序例子 1.1、数据准备   准备要处理的数据(假定数据已经存放在hdfs的/data目录下)     $> hdfs dfs -ls /data   看到测试数据目录。天气数据目录/data/weather,专利数据目
用户1195962
2018-01-18
1.2K0
Hadoop(十四)MapReduce原理分析
前言   上一篇我们分析了一个MapReduce在执行中的一些细节问题,这一篇分享的是MapReduce并行处理的基本过程和原理。   Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。   Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 一、MapReduce并行处理的基本过程   首先要说明的是Hadoop2.0之前和Hadoop2.0之后的区别:      2.
用户1195962
2018-01-18
4.6K0
Hadoop(十六)之使用Combiner优化MapReduce
前言   前面的一篇给大家写了一些MapReduce的一些程序,像去重、词频统计、统计分数、共现次数等。这一篇给大家介绍的是关于Combiner优化操作。 一、Combiner概述 1.1、为什么需要Combiner   我们map任务处理的结果是存放在运行map任务的节点上。 map处理的数据的结果在进入reduce的时候,reduce会通过远程的方式去获取数据。   在map处理完数据之后,数据量特别大的话。reduce再去处理数据它就要通过网络去获取很多的数据。   这样会导致一个问题是:大量的数据
用户1195962
2018-01-18
1.4K0
Java集合源码分析(三)Vevtor和Stack
前言   前面写了一篇关于的是LinkedList的除了它的数据结构稍微有一点复杂之外,其他的都很好理解的。这一篇讲的可能大家在开发中很少去用到。但是有的时候也可能是会用到的!   注意在学习这一篇之前,需要有多线程的知识:   1)锁机制:对象锁、方法锁、类锁     对象锁就是方法锁:就是在一个类中的方法上加上synchronized关键字,这就是给这个方法加锁了。     类锁:锁的是整个类,当有多个线程来声明这个类的对象的时候将会被阻塞,直到拥有这个类锁的对象被销毁或者主动释放了类锁。这个时候在被阻
用户1195962
2018-01-18
5810
Hadoop(九)Hadoop IO之Compression和Codecs
前言   前面一篇介绍了Java怎么去查看数据块的相关信息和怎么去查看文件系统。我们只要知道怎么去查看就行了!接下来我分享的是Hadoop的I/O操作。   在Hadoop中为什么要去使用压缩(Com
用户1195962
2018-01-18
8290
Java集合源码分析(四)HashMap
一、HashMap简介 1.1、HashMap概述   HashMap是基于哈希表的Map接口实现的,它存储的是内容是键值对<key,value>映射。此类不保证映射的顺序,假定哈希函数将元素适当的分布在各桶之间,可为基本操作(get和put)提供稳定的性能。   在API中给出了相应的定义: //1、哈希表基于map接口的实现,这个实现提供了map所有的操作,并且提供了key和value可以为null,(HashMap和HashTable大致上是一样的除了hashmap是异步的和允许key和value为n
用户1195962
2018-01-18
8740
Hadoop(十)Hadoop IO之数据完整性
前言   上一篇我分享了Hadoop的压缩和编解码器,在我们开发的过程中其实是经常会用到的,所以一定要去掌握。这一篇给大家介绍的是Hadoop的数据完整性!   Hadoop用户在使用HDFS储存和处理数据不会丢失或者损坏,在磁盘或者网络上的每一个I/O操作不太可能将错误引入自己正在读/写的数据中,但是如果   在处理的数据量非常大到Hadoop的处理极限时,数据被损坏的概率还是挺大的。 一、数据完整性概述 检测数据是否损坏的常用措施是:在数据第一次引入系统时计算校验和并在数据通过一个不可靠的同道
用户1195962
2018-01-18
1.4K0
Hadoop(十一)Hadoop IO之序列化与比较功能实现详解
前言   上一篇给大家介绍了Hadoop是怎么样保证数据的完整性的,并且使用Java程序来验证了会产生.crc的校验文件。这一篇给大家分享的是Hadoop的序列化! 一、序列化和反序列化概述 1.1、序列化和反序列化的定义   1)序列化:将结构化对象转换为字节流的过程,以便在网络上传输或写入到磁盘进行永久存储的过程。   2)反序列化:将字节流转回一系列的相反过程结构化对象。   注意:其实流就是字节数组,我们把数据转变成一系列的字节数组(0101这样的数据) 1.2、序列化和反序列化的应用   1)进程
用户1195962
2018-01-18
6950
Hadoop(四)HDFS集群详解
前言   前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。   HDFS前言:     设计思想:(分而治之)将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。     在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务。   分布式文件系统:     问题引发:海量数据超过了单台物理计算机的存储能力     解
用户1195962
2018-01-18
1.9K0
MySQL(十三)之MySQL事务
前言   这段时间自己会把之前学的东西都总结一遍,希望对自己以后的工作中有帮助。其实现在每天的状态都是很累的,但是我要坚持!   进入我们今天的正题:   为什么MySQL要 有事务呢?事务到底是用来干什么的?我们通过一个例子来说明:   事务广泛的运用于订单系统、银行系统等多种场景。如果有以下一个场景:A用户和B用户是银行的储户。现在A要给B转账500元。那么需要做以下几件事:     1)检查A的账户余额>500元;     2)A账户扣除500元;     3)账户增加500元;   正常的流程走下来
用户1195962
2018-01-18
8280
MySQL(十四)之数据备份与还原
前言   上一篇分享了关于MySQL事务的知识,在我们数据库中最重要的就是数据了,所以数据的备份就显的特别的重要!   为什么要备份数据?   在生产环境中我们数据库可能会遭遇各种各样的不测从而导致数据丢失, 大概分为以下几种:     硬件故障、软件故障、自然灾害、黑客攻击、误操作(占比例大)   所以, 为了在数据丢失之后能够恢复数据, 我们就需要定期的备份数据, 备份数据的策略要根据不同的应用场景进行定制, 大致有几个参考数值, 我们可以根据这些数值从而定制符合特定环境中的数据备份策略:     能够
用户1195962
2018-01-18
3K0
MySQL(十五)之数据备份中mysqldump详解
前言   其实前面一篇数据备份已经是非常的详细了,这里我想单独的讲解一下mysqldump,相信很多程序员都是用过这个命令的! 一、MySQL数据库的备份与还原 1.1、MySQL数据库备份   1)语法   mysqldump -u username -p db_name table1 table2 ...> xxx.sql     含义:       db_name参数:表示数据库的名称;       table1和table2参数:表示需要备份的表的名称,为空则整个数据库备份;       xxx.s
用户1195962
2018-01-18
2.5K0
Hadoop(六)之HDFS的存储原理(运行原理)
前言   其实说到HDFS的存储原理,无非就是读操作和写操作,那接下来我们详细的看一下HDFS是怎么实现读写操作的! 一、HDFS读取过程   1)客户端通过调用FileSystem对象的open()
用户1195962
2018-01-18
1.7K0
Hadoop(七)HDFS容错机制详解
前言   HDFS(Hadoop Distributed File System)是一个分布式文件系统。它具有高容错性并提供了高吞吐量的数据访问,非常适合大规模数据集上的应用,它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。   优点是:     高吞吐量访问:HDFS的每个Block分布在不同的Rack上,在用户访问时,HDFS会计算使用最近和访问量最小的服务器给用户提供。              由于Block在不同的Rack上都有备份,所以不再是单数据访问,所以速度和效率是非常快的。另外HD
用户1195962
2018-01-18
1.6K0
Hadoop(一)之初识大数据与Hadoop
前言   从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢?   学习Hadoop有一个8020原则,80%都是在不断
用户1195962
2018-01-18
1.2K0
Hadoop(二)搭建伪分布式集群
前言   前面只是大概介绍了一下Hadoop,现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享,先要看一下效果吧! 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone  Mode)   -默认情况下,Hadoop即处于该模式,用于开发和调式。   -不对配置文件进行修改。   -使用本地文件系统,而不是分布式文件系统。   -Hadoop不会启动NameNode、DataNode、JobTracker、Task
用户1195962
2018-01-18
1.4K0
Hadoop(三)手把手教你搭建Hadoop全分布式集群
前言   上一篇介绍了伪分布式集群的搭建,其实在我们的生产环境中我们肯定不是使用只有一台服务器的伪分布式集群当中的。接下来我将给大家分享一下全分布式集群的搭建!   其实搭建最基本的全分布式集群和伪分布式集群基本没有什么区别,只有很小的区别。 一、搭建Hadoop全分布式集群前提 1.1、网络   1)如果是在一台虚拟机中安装多个linux操作系统的话,可以使用NAT或桥接模式都是可以的。试一试可不可以相互ping通!   2)如果在一个局域网当中,自己的多台电脑(每台电脑安装相同版本的linux系统)搭建
用户1195962
2018-01-18
1.7K0
MySQL优化原理
前言 说起MySQL的查询优化,相信大家收藏了一堆:不能使用SELECT *、不使用NULL字段、合理创建索引、为字段选择合适的数据类型..... 你是否真的理解这些优化技巧?是否理解其背后的工作原理? 在实际场景下性能真有提升吗?我想未必。因而理解这些优化建议背后的原理就尤为重要,希望本文能让你重新审视这些优化建议,并在实际业务场景下合理的运用。 一、MySQL逻辑架构    如果能在头脑中构建一幅MySQL各组件之间如何协同工作的架构图,有助于深入理解MySQL服务器。下图展示了MySQL的逻辑架构图。
用户1195962
2018-01-18
1K0
MySQL集群(二)之主主复制
前面介绍了主从复制,这一篇我将介绍的是主主复制,其实听名字就可以知道,主主复制其实就是两台服务器互为主节点与从节点。接下来我将详细的给大家介绍,怎么去配置主主复制! 一、主从复制中的问题 1.1、从节点占用了主节点的自增id   环境:     主节点:zyhserver1=1.0.0.3     从节点:udzyh1=1.0.0.5   第一步:我们在主节点中创建一个数据库db_love_1,在创建一个表tb_love(里面有id自增和name属性)。   create database db_love_
用户1195962
2018-01-18
1.4K0
MySQL(九)之数据表的查询详解(SELECT语法)一
这一篇是MySQL中的重点也是相对于MySQL中比较难得地方,个人觉得要好好的去归类,并多去练一下题目。MySQL的查询也是在笔试中必有的题目。希望我的这篇博客能帮助到大家! 重感冒下的我,很难受!keep on going,never givp up.(小编高中最喜欢用的句子,因为只记得这一句) 对数据表数据进行查询操作,其中可能大家不熟悉的就对于INNER JOIN(内连接)、LEFT JOIN(左连接)、RIGHT JOIN(右连接)等一些复杂查询,还有多表查询与子查询都是应用十分广泛的。 一、SEL
用户1195962
2018-01-18
2.8K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档