学习
实践
活动
专区
工具
TVP
写文章
专栏首页五角钱的程序员hadoop本地运行的两个案例。官方Grep案例、官方WordCount案例。

hadoop本地运行的两个案例。官方Grep案例、官方WordCount案例。

作者丨BossXiang

在前两篇文章已经把虚拟机环境和jdk、hadoop安装好了,下面我们来看看,hadoop本地运行的两个案例。官方Grep案例、官方WordCount案例。

1

官方Grep案例

1.创建在hadoop-2.7.2文件下面创建一个input文件夹
[hadoop@hadoop101 hadoop-2.7.2]$ mkdir input
2.将Hadoop的xml配置文件复制到input
[hadoop@hadoop101 hadoop-2.7.2]$ cp etc/hadoop/*.xml input
3.执行share目录下的MapReduce程序
[hadoop@hadoop101 hadoop-2.7.2]$ bin/hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar
grep input output 'dfs[a-z.]+'
4.查看输出结果
[hadoop@hadoop101 hadoop-2.7.2]$ cat output/part-r-00000

2

官方WordCount案例

1.创建在hadoop-2.7.2文件下面创建一个wcinput文件夹

[hadoop@hadoop101 hadoop-2.7.2]$ mkdir wcinput

2.在wcinput文件下创建一个wc.input文件

[hadoop@hadoop101 hadoop-2.7.2]$ cd wcinput
[hadoop@hadoop101 hadoop-2.7.2]$ touch wc.input

3.编辑wc.input文件

[hadoop@hadoop101 hadoop-2.7.2]$ vi wc.input

在文件中输入如下内容

xianglin yuanyun baibaihe
linlin chen lixiaolu
chen chen liuyifei jiangsuying
xiang chenyuanyuan
chenyuangyuan

保存退出::wq

4.回到Hadoop目录/opt/module/hadoop-2.7.2

[hadoop@hadoop101 wcinput]$ cd
/opt/module/hadoop-2.7.2/

5.执行程序

hadoop jar
[hadoop@hadoop101 wcinput]$
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar
wordcount wcinput wcoutput

6.查看结果

[hadoop@hadoop101 hadoop-2.7.2]$ cat wcoutput/part-r-00000
文章分享自微信公众号:
五角钱的程序员

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

作者:BossXiang
原始发表时间:2020-07-20
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 关于首次运行Hadoop的Grep案例时出现的错误

    重点关注这句“19/05/14 18:26:55 INFO metrics.MetricsUtil: Unable to obtain hostName ja...

    可定
  • Hadoop部署配置及运行调试(上)

    本地模式是最简单的部署模式,所有模块都运行在一台机器的单个JVM进程中,使用的是本地文件系统,而不是HDFS. 本地模式主要是用于本地开发过程中的运行调。下载H...

    数人之道
  • Hadoop的安装

    伪分布式:作为学习使用,与完全分布式一样,只不过是通过java进程模拟出来的假的分布式

    我脱下短袖
  • 保姆级教程:还愁不会搭建伪分布式吗?(其实很简单)

    在上面三篇文章我们已经把基本环境搭建好了,也进行了相应的案例演示,下面我们将进入伪分布式的环境搭建,并运行实例,建议先看上面三篇文章在进行操作。看一百遍,不如手...

    用户7656790
  • 【趣学程序】Hadoop安装运行

    GoogleFileSystem这是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,提供容错功能。

    趣学程序-shaofeer
  • 【趣学程序】Hadoop运行模式

    注意:Namenode 和 ResourceManger 如果不是同一台机器,不能在 NameNode 上启动 yarn,应该在 ResouceManager ...

    趣学程序-shaofeer
  • Hadoop入门(八)——本地运行模式+完全分布模式案例详解,实现WordCount和集群分发脚本xsync快速配置环境变量 (图文详解步骤2021)[通俗易懂]

    这个系列文章传送门: Hadoop入门(一)——CentOS7下载+VM上安装(手动分区)图文步骤详解(2021) Hadoop入门(二)——VMware虚...

    全栈程序员站长
  • 2021年最新最全Flink系列教程_Flink快速入门(概述,安装部署)(一)(JianYi收藏)

    下面为大家带来阿里巴巴极度热推的Flink,实时数仓是未来的方向,学好Flink,月薪过万不是梦!!

    ChinaManor
  • Hadoop 入门教程(超详细)[通俗易懂]

    在 Hadoop 1.x 时代,Hadoop 中的 MapReduce 同时处理业务逻辑运算和资源调度,耦合性较大。 在 Hadoop 2.x 时代,增加...

    全栈程序员站长
  • Note_Spark_Day01:Spark 框架概述和Spark 快速入门

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-202104...

    ChinaManor
  • Spark_Day01:Spark 框架概述和Spark 快速入门

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-202104...

    ChinaManor
  • 大数据框架—Flink与Beam

    Flink是Apache的一个顶级项目,Apache Flink 是一个开源的分布式流处理和批处理系统。Flink 的核心是在数据流上提供数据分发、通信、具备容...

    端碗吹水
  • Note_Spark_Day01:Spark 基础环境

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Rk9bK5g-1625406507847)(/img/image-202104...

    ChinaManor
  • Hadoop之MapReduce01【自带wordcount案例】

      Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析应用”的核心框架,Mapreduce 核心功能是将用户编写的业...

    用户4919348
  • Spark入门- Spark运行Local本地模式

    Spark-shell 是 Spark 给我们提供的交互式命令窗口(类似于 Scala 的 REPL)

    栗筝i
  • 2021年最新最全Flink系列教程_Flink快速入门(概述,安装部署)(一)(建议收藏!!)

    下面为大家带来阿里巴巴极度热推的Flink,实时数仓是未来的方向,学好Flink,月薪过万不是梦!!

    ChinaManor
  • 什么是Oozie?如何使用Oozie?蒟蒻博主带你快速上手Oozie!

    本篇博客,博主为大家介绍的是Oozie,一种运行在hadoop平台上的工作流调度引擎。如果看完后有点收获,不妨给博主一个大大的赞|ू・ω・` )...

    大数据梦想家
  • Spark快速入门系列(2) | Spark 运行模式之Local本地模式

      Local 模式就是指的只在一台计算机上来运行 Spark.   通常用于测试的目的来使用 Local 模式, 实际的生产环境中不会使用 Local ...

    不温卜火
  • Flink开发IDEA环境搭建与测试

    Flink具有特殊类DataSet并DataStream在程序中表示数据。您可以将它们视为可以包含重复项的不可变数据集合。在DataSet数据有限的情况下,对于...

    星哥玩云

扫码关注腾讯云开发者

领取腾讯云代金券