专栏首页孙小白HDFS和MR的配置和使用

HDFS和MR的配置和使用

一、分布式HDFS的安装和启动

①在$HADOOP_HOME/etc/hadoop/core-site.xml文件

<configuration>
<property>
  <name>fs.defaultFS</name>
  <!-- 告知NN在哪个机器,NN使用哪个端口号接收客户端和DN的RPC请求. -->
  <value>hdfs://主机名:9000</value>
</property>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
</configuration>

②格式化Namenode(只需要格式化一次) 命令:hadoop namenode -format 目的: ①生成/opt/module/hadoop-2.7.2/data/tmp目录 ②在目录中生成fsimage_0000000000000000000文件

③启动Namenode hadoop-daemon.sh start namenode 启动datanode hadoop-daemon.sh start datanode

④查看 Jps 通过浏览器访问 http://nn所在的主机名或ip:50070

如果NN和DN都在一台机器,且只有一个DN节点,称为伪分布式

二、在YARN上运行MR

①修改 $HADOOP_HOME/etc/hadoop/mapred-site.xml文件

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

②启动YARN 配置RM到底在哪个机器启动 修改 $HADOOP_HOME/etc/hadoop/yarn-site.xml文件

<property>
<name>yarn.resourcemanager.hostname</name>
<value>主机名</value>
</property>
<!-- reducer获取数据的方式 -->
<property>
 		<name>yarn.nodemanager.aux-services</name>
 		<value>mapreduce_shuffle</value>
</property>

③启动RM,NM yarn-daemon.sh start resourcemanager yarn-daemon.sh start nodemanager

④查看 jps http://RM所运行的机器主机名/ip:8088

三、提交任务

hadoop jar jar包 主类名 参数{多个输入目录,一个输出目录}

输入目录中必须全部是文件! 输出目录必须不存在!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • centos7搭建hadoop3.*.*系列

     最近搭建这个hadoop踩过不少坑,先是配置JDK搞错路径(普通用户和root用户下的路径不同),再就是hadoop版本不同导致的启动错误,网上找到的是ha...

    爱学习的孙小白
  • 在centos7上进行hadoop-3.1.2的伪分布搭建

    vi /etc/sysconfig/network-scripts/ifcfg-ens33(网卡名称可能不同)

    爱学习的孙小白
  • hadoop2.x全分布式集群搭建(一主二从)

    然后生成了id_rsa与id_rsa.pub,分别是私有与公有秘钥,我们要把公有秘钥复制到一个authorized_keys文件内,这个文件的作用就是完成无密码...

    爱学习的孙小白
  • 搭建Hadoop3集群

    强烈建议再搭建hadoop集群之前体验一下单机模式和伪分布式模式的搭建过程,可以参考以下链接:

    职场亮哥
  • YARN之label调度在EMR中的应用

    在腾讯云EMR的用户场景使用当中,有部分用户要求希望他们能在任务高峰期,对集群进行扩容,利用云端的弹性计算资源,为集群扩展计算能力,并且在集群相对空闲的情况下,...

    shangwen_
  • 原 Spark On Yarn完全分布式搭

    云飞扬
  • Yarn 的日志聚集功能配置使用

    需要 hadoop 的安装目录/etc/hadoop/yarn-site.xml 中进行配置

    梅花
  • 一文读懂Hadoop、HBase、Hive、Spark分布式系统架构

    机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布...

    用户1257215
  • Cypress web自动化37-cy.wrap() 操作 iframe 上的元素

    iframe 是一种常见的 web 页面上遇到的场景,像有些网站的登录就是放到 iframe 里面的。 cypress 如何处理 iframe 上的元素呢,cy...

    上海-悠悠
  • 可能是最适合自定义的 Pipeline:Tekton

    持续集成是云原生应用的支柱技术之一,因此在交付基于云原生的一些支撑产品的时候,CICD 是一个无法拒绝的需求。为了满足这种需要,自然而然会想到对 Jenkins...

    崔秀龙

扫码关注云+社区

领取腾讯云代金券