专栏首页cloudskymeHadoop使用(一)

Hadoop使用(一)

hadoop框架

Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成。

其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上。

1,NameNode

NameNode是HDFS的守护程序,负责记录文件是如何分割成数据块的,以及这些数据块被存储到哪些数据节点上。它的功能是对内存及I/O进行集中管理。

2,DataNode

集群中每个从服务器都运行一个DataNode后台程序,后台程序负责把HDFS数据块读写到本地文件系统。需要读写数据时,由NameNode告诉客户端去哪个DataNode进行具体的读写操作。

3,Secondary NameNode

Secondary NameNode是一个用来监控HDFS状态的辅助后台程序,如果NameNode发生问题,可以使用Secondary NameNode作为备用的NameNode。

4,JobTracker

JobTracker后台程序用来连接应用程序与Hadoop,用户应用提交到集群后,由JobTracker决定哪个文件处理哪个task执行,一旦某个task失败,JobTracker会自动开启这个task。

4,TaskTracker

TaskTracker负责存储数据的DataNode相结合,位于从节点,负责各自的task。

hadoop的安装

1)安装SSH

sudo apt-get install ssh

2)安装java

3)安装hadoop

下载并解压缩

tar -zxvf hadoop-0.21.0.tar.gz

4)改变配置

指定java安装路径

使用vi

vi conf/hadoop-env.sh

添加

export JAVA_HOME = /usr/java/jdk1.7.0_01

可以使用三种模式安装,测试阶段可以使用单机模式。

在启动的时候可能会遇到很多问题,比如 22 connection refused

可以安装openssh,使用apt-get

sudo apt-get install openssh-client

sudo apt-get install openssh-server

sudo apt-get install chkconfig

使用chkconfig --list | grep sshd查看服务是否启动

使用ssh localhost

出现如下提示

输入密码后

出现欢迎页面,配置成功

免密码登录

ssh-keygen -t rsa

进入.ssh目录

执行

cp id_rsa.pub authorized_keys

重新ssh localhost,可以不输入密码

单机伪分布式:

进入目录/hadoop/conf

编辑 ~/hadoop/conf/core-site.xml

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/tmp/hadoop/hadoop-${user.name}</value>
  </property>
</configuration>
编辑  ~/hadoop/conf/hdfs-site.xml
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>
编辑 ~/hadoop/conf/mapred-site.xml
<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>localhost:9001</value>
  </property>
</configuration>

然后进入hadoop/bin目录

执行 ./hadoop namenode -format

执行start-all.sh

启动完成

打开浏览器,输入http://localhost:50030

就可以看到如下界面

运行示例 bin/hadoop jar hadoop-mapred-examples-0.21.0.jar wordcount in out

得到输出结果,配置成功!

安装eclipse插件

插件的路径在0.21下有所更改,路径如下

将插件拷到eclipse pluglin目录下

重启eclipse

启动后多出一个目录

就可以使用eclipse进行编程了。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一起玩转微服务(11)——一切从简单开始

    使用Spring Bboot是快乐并且简单的,不需要繁琐的配置就能够完成一套非常强大的应用。

    cloudskyme
  • oracle数据库 如何查询某个表的约束条件

    使用下面语句从all_constraints视图中查看某表上的约束: SELECT constraint_name, table_name, r_owner...

    cloudskyme
  • 15个nosql数据库

    1、MongoDB 介绍 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。主要解决的是海量数据的访问效率问题,为WEB应用提供可扩展的高性能数...

    cloudskyme
  • 快速学习-HDFS HA高可用

    1)所谓HA(High Available),即高可用(7*24小时不中断服务)。 2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的H...

    cwl_java
  • Hadoop快速入门

    传说中的Hadoop,我终于来对着你唱"征服"了,好可爱的小象,!J 总的来说,hadoop的思路比较简单(map-reduce),就是将任务分开进行,最后汇总...

    用户1216676
  • 大数据系列(2)——Hadoop集群坏境CentOS安装

    前言 前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,...

    小莹莹
  • 打造自己的MapReduce[一]:Hadoop集群搭建

    那就是我在这里的每一篇文开头都必然是:最近工作好忙,又断更很久了……Anyway,这也不能成为偷懒的理由。我可能对记录技术有些固执的误解,总认为是要待到整理出一...

    星回
  • 快速搭建 HDFS 系统(超详细版)

    首先,准备 5 台虚拟机,其中 1 台虚拟机作为NameNode,4 台虚拟机作为DataNode,分别为:

    CG国斌
  • Hadoop1和Hadoop2的区别

    NameNode其实是Hadoop的一个目录服务,它包含着整个集群存储的文件的元数据。

    我脱下短袖
  • 哇!这就是HDFS!

    今天是小史生日,为了庆祝自己今年喜提A厂offer,小史叫了二十多个人一起庆生,吕老师、小史姐姐、小林都去啦。

    Java3y

扫码关注云+社区

领取腾讯云代金券