专栏首页孙小白Hadoop运行模式及相关文件说明

Hadoop运行模式及相关文件说明

一、Hadoop的安装

①Hadoop运行的前提是本机已经安装了JDK,配置JAVA_HOME变量

②在Hadoop中启动多种不同类型的进程

	例如NN,DN,RM,NM,这些进程需要进行通信!
	在通信时,常用主机名进行通信!
	
	在192.168.6.100机器上的DN进程,希望访问192.168.6.104机器的NN进程!
	需要在集群的每台机器上,配置集群中所有机器的host映射!
	配置:
		Linux:   /etc/hosts
		Windows:  C:\Windows\System32\drivers\etc\hosts
		
	不配报错:  
			 DNS映射异常,HOST映射异常

③注意权限

hadoop框架在运行需要产生很多数据(日志),数据的保存目录,必须让当前启动hadoop进程的用户拥有写权限!

④关闭防火墙,设置开机不自启动

centos6:

service iptables stop
chkconfig iptables off

如果使用centos7,要使用这个命令需要额外下载:

sudo yum -y install iptables

二、使用普通用户操作

①创建普通用户atguigu

useradd username

②为atgugiu用户设置密码

passwd username

③赋予atguigu用户root权限

vim /etc/sudoers

④将/opt目录下创建的soft目录和module目录的所属主修改为atguigu

chown -R 用户名:所属组名默认也是用户名 /opt/soft /opt/module

三、hadoop的目录介绍

bin: 使用HDFS和运算MR时,常用的目录! 常用hadoop命令!

sbin: 管理员启动和停止集群使用的命令!

etc: hadoop配置文件所在的目录

四、使用HDFS

完成大数据的存储! HDFS(hadoop distributed filesystem)

HDFS的运行模式: 取决于参数: fs.defaultFS=file:///(默认) fs.defaultFS在core-default.xml中!

①本地模式(在本机上使用HDFS,使用的就是本机的文件系统) fs.defaultFS=file:/// ②分布式模式 要使用的文件系统是一个分布式的文件系统! 一个分布式的文件系统,必须由NN,DN等若干进程共同运行完成文件系统的读写操作! fs.defaultFS=hdfs://

启动NN: hadoop-daemon.sh start namenode 停止NN: hadoop-daemon.sh stop namenode 启动DN: hadoop-daemon.sh start datanode 停止DN: hadoop-daemon.sh stop datanode

使用: hadoop fs 命令 文件路径

五、运行MapReduce

完成大数据的计算! ①按照MR的规范编写一个程序 ②将程序打包为jar ③运行jar中的程序

两种运行模式: 取决于参数mapreduce.framework.name=local(默认) ①本地模式(在本机上运行MR) mapreduce.framework.name=local 在本机运行MR!在本机使用多线程的方式,运行多个Task!

②分布式,在YARN上运行 mapreduce.framework.name=yarn 将MR提交给YARN,由YARN将Job中的多个task分配到多台机器中,启动container运行task!

需要启动YARN,YARN由RM和NM进程组成!

六、hadoop的配置文件

hadoop安装后,hadoop的性能和表现取决于用户的配置!

4个默认的配置文件: 位置: HADOOP_HOME/share/xxxx.jar/xxx-default.xml

core-default.xml: 设置hadoop最核心的参数! hdfs-default.xml: 保存的是hdfs相关的参数! mapred-default.xml: MR程序在运行时,需要使用的参数! yarn-default.xml: yarn在启动时,需要的参数!

4个用户可以自定义的配置文件: xxx-site.xml core-site.xml: 用户自定义的设置hadoop最核心的参数! hdfs-site.xml: 用户自定义的保存的是hdfs相关的参数! mapred-site.xml: 用户自定义的MR程序在运行时,需要使用的参数! yarn-site.xml: 用户自定义的yarn在启动时,需要的参数!

用户自定义的配置文件,可以覆盖默认配置文件中同名的参数的值!

Hadoop在启动时,先加载4个默认的配置文件,再加载用户自定义的配置文件,如果用户自定义的配置文件 中有和4个默认配置文件中门的参数,可以覆盖之前已经加载的值!

七、在使用hadoop命令时

可以自定义配置文件的目录: hadoop --config 配置文件的目录 如果没有配置,默认读取 HADOOP_HOME/etc/hadoop 中对应的配置文件!

hadoop-daemon.sh start namenode脚本在执行时,只会去默认的目录中读取配置文件!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • MapReduce计算框架的核心编程思想

    MRAppMaster(MR任务的主节点): 一个Job在运行时,会先启动一个进程,这个进程称为MRAppMaster,负责Job中执行状态的监控,容错,和RM...

    爱学习的孙小白
  • SQL"已更新或者删除的行值要么不能使该行成为唯一行,要么改变了多个行(X行)“解决办法

      这种问题大多是由于没有主键(PK)导致同一张表中存在若干条相同的数据。DBMS存储时,只为其存储一条数据,因为DBMS底层做了优化,以减少数据冗余。所以删除...

    爱学习的孙小白
  • util.Date与sql.Date的异同以及相互转换

    从运行结果看到util.date转成sql.date之后,只有年月日,没有时分秒。

    爱学习的孙小白
  • Struts2配置

    Struts2中有很多配置文件可以去配置常量,对同一个量在不同配置文件都配置了,那么生效的肯定是最后加载的,因此需要知道配置文件的加载顺序

    木瓜煲鸡脚
  • 使用 Harbor 搭建私有 Docker 仓库

    本文使用「署名 4.0 国际 (CC BY 4.0)」许可协议,欢迎转载、或重新修改使用,但需要注明来源。 署名 4.0 国际 (CC BY 4.0)

    soulteary
  • 使用 Harbor 搭建私有 Docker 仓库

    本文使用「署名 4.0 国际 (CC BY 4.0)」许可协议,欢迎转载、或重新修改使用,但需要注明来源。 署名 4.0 国际 (CC BY 4.0)

    soulteary
  • PS绘制手机图标-古典吉他(内附PSD源文件下载地址)

    前言:学生们在学习ps软件的过程中非常的认真与努力,所以对于软件的使用可以说已经很熟练了,可是为什么当我们给学生安排一些原创设计需求的时候,学生却有种无从下手的...

    用户1730674
  • 从 Linux 进程调度到 Android 线程管理

    用户1907613
  • Android 创建与解析XML(三)—— Sax方式

    SAX是一种占用内存少且解析速度快的解析器,它采用的是事件启动,不需要解析完整个文档,而是按照内容顺序看文档某个部分是否符合xml语法,如果符合就触发相应的事件...

    阳光岛主
  • 数说中国高铁丨哪座城市领跑“中国速度”?

    这是全世界最长的铁路网,过去五年,每天以9公里的速度生长,如今已经达到2.2万公里,比其它国家高铁的里程总和还要多。 这是全世界速度最快的铁路系统。北京到上海(...

    钱塘数据

扫码关注云+社区

领取腾讯云代金券