java架构师-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

java架构师

专栏成员

99

文章

85267

阅读量

30

订阅数

Windows平台下安装Hadoop

ssh hadoop http bash bash 指令

　　官网下载JDK，安装时注意，最好不要安装到带有空格的路径名下，例如:Programe Files，否则在配置Hadoop的配置文件时会找不到JDK（按相关说法，配置文件中的路径加引号即可解决，但我没测试成功）。

2019-01-30

9850

Hadoop添加节点datanode

这个会非常耗时 1）如果不balance，那么cluster会把新的数据都存放在新的node上，这样会降低mapred的工作效率 2）设置平衡阈值，默认是10%，值越低各节点越平衡，但消耗时间也更长 [root@slave-004 hadoop]# ./bin/start-balancer.sh -threshold 5 3）设置balance的带宽，默认只有1M/s

2019-01-30

1.7K0

Hadoop学习1--解决启动过程中的问题

hadoop html linux asp

方法：http://www.aboutyun.com/thread-12694-1-1.html http://www.linuxidc.com/topicnews.aspx?tid=13 http

2018-04-16

6050

Hadoop学习12-配置集群环境

由于之前虚拟机都是用的桥接方式，有时候没有网络可用，想学习的时候，就狠不方便。于是研究了一下，希望搭建一个多台虚机组成一个局域网的集群，即host-only方式 1、安装VM，网络选择“host-only”模式 2、设置本机（win7）的网络设置，配置虚拟网卡，用来跟虚拟机通信即：VMware Network Adapter VMnet1 配置IP地址：192.168.2.1 子网掩码：255.255.255.0 其中，2可在有限范围内任意指定 1不可更改，表示分配给主机的子网ip 其

2018-04-16

6950

Hadoop学习11--Ha集群配置启动

理论知识： http://www.tuicool.com/articles/jameeqm 这篇文章讲的非常详细了： http://www.tuicool.com/articles/jameeqm 以下是进阶，讲QJM工作原理： http://www.tuicool.com/articles/eIBB3a 首次启动ha集群过程： hdfs zkfc -formatZK（这个之前落下了，很重要，如果不注册到zookeeper，那么等于hdfs和zookeeper没产生任何关系） 1、启动journalnod

2018-04-16

8840

Hadoop学习5--配置本地开发环境（Windows+Eclipse）

hadoop windows eclipse

一、导入hadoop插件到eclipse 插件名称：hadoop-eclipse-plugin-2.7.0.jar 我是从网上下载的，还可以自己编译。放到eclipse安装目录下的plugins文件夹 tip： 1、竟然没有plugins文件夹，自己在安装目录下新建了个文件夹 2、重启eclipse后，一直无法看到网上描述的结果，于是删除了eclipse安装目录下的这个文件：platform.xml（去安装目录下全局搜索），再次重启，ok。重启eclipse->window->Preferences:

2018-04-16

9390

Hadoop总结篇之五---模块间是怎么驱动执行的

在MRv1中，各个模块间驱动运行的方式是函数调用的方式。这是同步的过程，上一模块调用下一模块函数后，等待其执行。效率不高。在MRv2中做了改进，yarn基于事件驱动的并发模型。在详细介绍前，先看下图

2018-04-16

7550

Hadoop总结篇之三---一个Job到底被提交到哪去了

hadoop 人工智能

我们会定义Job，我们会定义map和reduce程序。那么，这个Job到底是怎么提交的？提交到哪去了？它到底和集群怎么进行交互的呢？这篇文章将从头讲起。开发hadoop的程序时，一共有三大块，也就是Driver、map、reduce，在Driver中，我们要定义Configuration，定义Job，在mian方法最后，往往会以这么一段代码结尾： if (!job.waitForCompletion(true)) return; 而这句的作用，就是提交了我们的Job。进入代码里（其实就是Job类）

2018-04-16

6230

Hadoop总结篇之二--yarn的概况

在弄清楚yarn是什么之前，先来看一下MRv1。它的由编程模型+数据处理引擎（map/reduceTask）+运行时环境组成（JobTracker/TaskTracker）。其中JobTracker存在很多问题，如下： 1、JobTracker本身承担了调度和计算的任务，太累了 2、JobTracker是单点的，不好扩展不能支持其他计算框架，还有单点故障风险 3、资源是以槽位的方式来调度。粗粒度，不合理。比如提交了一个特别占用资源的任务，整个节点就被占用了。还有map阶段往往reduce槽位就是闲置，反之

2018-04-16

5910

Hadoop总结篇之一------开篇

hadoop yarn 架构设计存储

从今天开始新的系列：Hadoop总结篇之前的hadoop学习篇由于是学习过程中随手记下来的一些内容，不具有系统性。所以在这个系列中，将凭着这段时间的研究心得，来记录一些自认为比较重要的东西。本系列的主要参考书目是《Hadoop技术内幕：深入解析Yarn架构设计与实现原理》比如作业从提交到执行到写出结果，将有一个从浅到深，逐步深入的过程。另外一些开发过程中使用到的比较零碎的东西，将会以外篇的形式记录。 hadoop版本：2.7.X 由于是第一篇，那么先来个综述吧。学习hadoop我们到底要学些什么？

2018-04-16

4890

Hadoop学习19--推测式执行

　　所谓推测式执行，就是计算框架判断，如果有一个task执行的过慢，则会启动备份任务，最终使用原任务+备份任务中执行较快task的结果。产生原因一般是程序bug、负载倾斜。那么这个较慢，是怎么判断的呢？有如下具体的算法：　　　　比较两个时间。一是根据推测式算法计算出来的task最终完成时刻，也就是按着任务当前的运行速度，推测出来的时刻。暂且命名为oldtime 　　　　　　　　　　二是如果此刻启动该任务，则推测出来将要完成的时刻，这个是按着已运行完的任务推测出来的时刻。暂且命名为newtime 如果n

2018-04-16

5930

Hadoop学习14--Hadoop之一点点理解yarn

yarn是一个分布式的资源管理系统。它诞生的原因是原来的MapReduce框架的一些不足： 1、JobTracker单点故障隐患 2、JobTracker承担的任务太多，维护Job状态，Job的ta

2018-04-16

4770

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态