前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >hadoop-3.2.0------>入门二 本地模式 grep实例

hadoop-3.2.0------>入门二 本地模式 grep实例

作者头像
用户5899361
发布2020-12-07 14:41:39
8850
发布2020-12-07 14:41:39
举报
文章被收录于专栏:学习java的小白

1、配置环境变量

请查看上一篇博客有详细教程

2、进入到hadoop解压出来的根目录下

输入dir将你可以查看到根目录下所有的文件

bin:存放的是我们用来实现管理脚本和使用的脚本的目录,我们对hadoop文件系统操作的时候用的就是这个目录下的脚本

etc:存放我们的核心的配置文件

sbin : 存放的是我们管理脚本的所在目录,重要是对hdfs和yarn的各种开启和关闭和单线程开启和守护

lib:该目录下存放的是Hadoop运行时依赖的jar包,Hadoop在执行时会把lib目录下面的jar全部加到classpath中。

libexec:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS 或者编写MapReduce程序

share:Hadoop各个模块编译后的jar包所在的目录

include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序

3、创建input文件夹(命令:mkdir input)

4、输入dir命令查看有没有input文件夹

5、将etc目录下hadoop文件夹中所有的xml文件复制到input目录下(命令:cp etc/hadoop/*.xml input)

6、进入到input目录下进行查看问价是否复制过来(进入input文件夹命令:cd input 查看文件 dir)

7、返回上一级也就是我们的根目录下(命令 cd ../)

8、输入命令 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar grep input output 'dfs[a-z.]+'

bin/hadoop jar:执行一个jar文件

share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar :文件所在的目录 examples因为加s了肯定是多个案例

grep :因为examples是多个案例我们这里执行的是grep 案例

input:输入文件夹

output:输出文件夹

注意:这里的output文件夹不能存在,如果存在将会报错,在执行命令时会自动创建output文件夹

‘dfs[a-z.]+’:正则表达式 以dfs开头后面跟a-z任意字母 点的意思过滤\r\n 加号表示a-z任意多个

9、出现下图即开始执行

10、进入output文件夹查看文件(命令:cd output)

11、查看output文件夹中文件(命令:dir),里面会出现两个文件

-SUCCESS:是个空文件代表你已经成功

12、查看part-r-00000文件中的内容(命令:cat part-r-00000)

箭头所指代表一共有一个dfs开头后面是a-z 这里是和正则对应的

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、配置环境变量
  • 2、进入到hadoop解压出来的根目录下
  • 3、创建input文件夹(命令:mkdir input)
  • 4、输入dir命令查看有没有input文件夹
  • 5、将etc目录下hadoop文件夹中所有的xml文件复制到input目录下(命令:cp etc/hadoop/*.xml input)
  • 6、进入到input目录下进行查看问价是否复制过来(进入input文件夹命令:cd input 查看文件 dir)
  • 7、返回上一级也就是我们的根目录下(命令 cd ../)
  • 8、输入命令 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar grep input output 'dfs[a-z.]+'
  • 9、出现下图即开始执行
  • 10、进入output文件夹查看文件(命令:cd output)
  • 11、查看output文件夹中文件(命令:dir),里面会出现两个文件
  • 12、查看part-r-00000文件中的内容(命令:cat part-r-00000)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档