桥路_大数据

138 篇文章
80.9K 次阅读
35 人订阅

全部文章

十里桃花舞丶

【MapReduce】作业调试

因为yarn集群重启之后,作业的历史运行日志和信息就被清理掉了,对于定位历史任务的错误信息很不友好,所以首先开启History Server用于保存所有作业的历...

4530
十里桃花舞丶

【MapReduce】案例学习

所以在数据中,只需要关注IP地址。提取到IP地址之后,其实就是在做wordcount词频统计了。此案例较为简单,可以作为巩固练手项目。在wordcount基础之...

4310
十里桃花舞丶

【MapReduce】IDE环境开发

在开发过程中,使用IDE集成环境进行代码开发和测试,是最为便捷的。接下来讲解下如何使用IDEA进行MapReduce代码的开发。

6230
十里桃花舞丶

【MapReduce】基本使用

MapReduce 框架只对 <key, value> 形式的键值对进行处理。MapReduce会将任务的输入当成一组 <key, value> 键值对,最后也...

6130
十里桃花舞丶

【MapReduce】配置&作业管理

mapreduce的配置文件为:mapred-site.xml。配置内容分为配置MapReduce运行程序、配置History-Server。

7540
十里桃花舞丶

【MapReduce】基本原理

首先以词频统计的案例,来描述一下MapReduce的运算原理与一些基本的概念。这里输入的数据是一些英文的文章,它有很多行组成,而每一行又包含很多单词,每个单词之...

6830
十里桃花舞丶

【MapReduce】分布式计算框架MapReduce

MapReduce起源是2004年10月Google发表了MapReduce论文,之后由Mike Cafarella在Nutch(爬虫项目)中实现了MapRed...

6910
十里桃花舞丶

【Yarn】基本使用与监控

Yarn是一个资源管理框架,所以它可以对提交到集群中的任务进行查看,并可以强制结束这些任务。

4910
十里桃花舞丶

历时三个月,游乐场优雅的干掉了我的环境搭建恐惧症

你能想象,在一套刚装好的centos集群中,2分钟之内快速完成一整个集群完成初始化工作吗?

5420
十里桃花舞丶

【Yarn】资源调度策略

Yarn既然是一个分布式资源调度框架,管理着节点上的计算资源,那它分配这些资源的时候,便会存在调度策略。

5220
十里桃花舞丶

【Yarn】系统架构&高可用

Yarn在架构上是主从架构,其中Resource Manager是主节点,Node Manager是从节点。在架构部署上,Node Manager与HDFS的D...

4920
十里桃花舞丶

【Yarn】分布式资源管理框架Yarn

在Hadoop 1.x中,是没有Yarn这个分布式资源管理框架的,它在Hadoop 2.x中首次推出。它诞生的原因其实很简单,就是Hadoop 1.x中的架构存...

6020
十里桃花舞丶

【HDFS】管理与运维

通过50070端口,可以访问HDFS Web UI:http://activeNameNodeHost:50070,需将activeNameNodeHost自行...

4020
十里桃花舞丶

【HDFS】Java_API使用

首先完成Java开发环境准备,创建工程并导入开发所需的Jar包。之后在准备好的工程中完成以下步骤。

8020
十里桃花舞丶

【HDFS】服务启动&Shell命令

因为脚本执行过程中,已经自动将Hadoop环境变量和节点间SSH免密登录配置好了,所以直接执行start-dfs.sh便可以直接启动HDFS集群(同时会启动Ya...

5720
十里桃花舞丶

【HDFS】环境搭建与基本配置

使用3台虚拟机来进行搭建集群,分别为Node01、Node02、Node03。集群的规划如下:

6930
十里桃花舞丶

【HDFS】集群高可用

HDFS单点架构存在一些问题,首先是NameNode内存受限,因为数据的元数据信息全部保存在NameNode内存中。如果数据量足够庞大,可能会将NameNode...

7620
十里桃花舞丶

【HDFS】读写机制与安全模式

在向NameNode写文件时,首先由客户端向NameNode发起文件上传请求,NameNode检查文件要上传的目录,并鉴权。

5610
十里桃花舞丶

【HDFS】系统架构与存储机制

HDFS是主从架构(Master/Slave),当然这也是大数据产品最常见的架构。主节点为NameNode,从节点为DataNode。其中DataNode用于存...

2810
十里桃花舞丶

【HDFS】分布式文件系统HDFS

HDFS全称Hadoop Distributed File System,Hadoop分布式文件系统。它是2003年10月Google发表的GFS(Google...

3020

扫码关注云+社区

领取腾讯云代金券