首页
学习
活动
专区
工具
TVP
发布

java架构师

专栏作者
99
文章
82453
阅读量
30
订阅数
Windows平台下安装Hadoop
  官网下载JDK,安装时注意,最好不要安装到带有空格的路径名下,例如:Programe Files,否则在配置Hadoop的配置文件时会找不到JDK(按相关说法,配置文件中的路径加引号即可解决,但我没测试成功)。
小端
2019-01-30
9670
Hadoop添加节点datanode
这个会非常耗时 1)如果不balance,那么cluster会把新的数据都存放在新的node上,这样会降低mapred的工作效率 2)设置平衡阈值,默认是10%,值越低各节点越平衡,但消耗时间也更长 [root@slave-004 hadoop]# ./bin/start-balancer.sh -threshold 5 3)设置balance的带宽,默认只有1M/s
小端
2019-01-30
1.6K0
Hadoop学习1--解决启动过程中的问题
方法:http://www.aboutyun.com/thread-12694-1-1.html  http://www.linuxidc.com/topicnews.aspx?tid=13 http
小端
2018-04-16
5820
Hadoop学习12-配置集群环境
由于之前虚拟机都是用的桥接方式,有时候没有网络可用,想学习的时候,就狠不方便。 于是研究了一下,希望搭建一个多台虚机组成一个局域网的集群,即host-only方式 1、安装VM,网络选择“host-only”模式 2、设置本机(win7)的网络设置,配置虚拟网卡,用来跟虚拟机通信 即:VMware Network Adapter VMnet1 配置IP地址:192.168.2.1 子网掩码:255.255.255.0 其中,2可在有限范围内任意指定          1不可更改,表示分配给主机的子网ip 其
小端
2018-04-16
6780
Hadoop学习11--Ha集群配置启动
理论知识: http://www.tuicool.com/articles/jameeqm 这篇文章讲的非常详细了: http://www.tuicool.com/articles/jameeqm 以下是进阶,讲QJM工作原理: http://www.tuicool.com/articles/eIBB3a  首次启动ha集群过程: hdfs zkfc -formatZK(这个之前落下了,很重要,如果不注册到zookeeper,那么等于hdfs和zookeeper没产生任何关系) 1、启动journalnod
小端
2018-04-16
8710
Hadoop学习5--配置本地开发环境(Windows+Eclipse)
一、导入hadoop插件到eclipse 插件名称:hadoop-eclipse-plugin-2.7.0.jar 我是从网上下载的,还可以自己编译。 放到eclipse安装目录下的plugins文件夹 tip: 1、竟然没有plugins文件夹,自己在安装目录下新建了个文件夹 2、重启eclipse后,一直无法看到网上描述的结果,于是删除了eclipse安装目录下的这个文件:platform.xml(去安装目录下全局搜索),再次重启,ok。 重启eclipse->window->Preferences:
小端
2018-04-16
9120
Hadoop总结篇之五---模块间是怎么驱动执行的
在MRv1中,各个模块间驱动运行的方式是函数调用的方式。这是同步的过程,上一模块调用下一模块函数后,等待其执行。效率不高。 在MRv2中做了改进,yarn基于事件驱动的并发模型。在详细介绍前,先看下图
小端
2018-04-16
7390
Hadoop总结篇之三---一个Job到底被提交到哪去了
我们会定义Job,我们会定义map和reduce程序。那么,这个Job到底是怎么提交的?提交到哪去了?它到底和集群怎么进行交互的呢? 这篇文章将从头讲起。 开发hadoop的程序时,一共有三大块,也就是Driver、map、reduce,在Driver中,我们要定义Configuration,定义Job,在mian方法最后,往往会以这么一段代码结尾: if (!job.waitForCompletion(true)) return; 而这句的作用,就是提交了我们的Job。进入代码里(其实就是Job类)
小端
2018-04-16
6130
Hadoop总结篇之二--yarn的概况
在弄清楚yarn是什么之前,先来看一下MRv1。 它的由编程模型+数据处理引擎(map/reduceTask)+运行时环境组成(JobTracker/TaskTracker)。其中JobTracker存在很多问题,如下: 1、JobTracker本身承担了调度和计算的任务,太累了 2、JobTracker是单点的,不好扩展不能支持其他计算框架,还有单点故障风险 3、资源是以槽位的方式来调度。粗粒度,不合理。比如提交了一个特别占用资源的任务,整个节点就被占用了。还有map阶段往往reduce槽位就是闲置,反之
小端
2018-04-16
5700
Hadoop总结篇之一------开篇
从今天开始新的系列:Hadoop总结篇 之前的hadoop学习篇由于是学习过程中随手记下来的一些内容,不具有系统性。所以在这个系列中,将凭着这段时间的研究心得,来记录一些自认为比较重要的东西。 本系列的主要参考书目是《Hadoop技术内幕:深入解析Yarn架构设计与实现原理》 比如作业从提交到执行到写出结果,将有一个从浅到深,逐步深入的过程。另外一些开发过程中使用到的比较零碎的东西,将会以外篇的形式记录。 hadoop版本:2.7.X 由于是第一篇,那么先来个综述吧。 学习hadoop我们到底要学些什么?
小端
2018-04-16
4740
Hadoop学习19--推测式执行
  所谓推测式执行,就是计算框架判断,如果有一个task执行的过慢,则会启动备份任务,最终使用原任务+备份任务中执行较快task的结果。产生原因一般是程序bug、负载倾斜。 那么这个较慢,是怎么判断的呢? 有如下具体的算法:     比较两个时间。一是根据推测式算法计算出来的task最终完成时刻,也就是按着任务当前的运行速度,推测出来的时刻。暂且命名为oldtime           二是如果此刻启动该任务,则推测出来将要完成的时刻,这个是按着已运行完的任务推测出来的时刻。暂且命名为newtime 如果n
小端
2018-04-16
5740
Hadoop学习14--Hadoop之一点点理解yarn
yarn是一个分布式的资源管理系统。 它诞生的原因是原来的MapReduce框架的一些不足: 1、JobTracker单点故障隐患 2、JobTracker承担的任务太多,维护Job状态,Job的ta
小端
2018-04-16
4600
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档