2.3 基于IDEA开发第一个MapReduce大数据程序WordCount

文章来源：企鹅号 - 从入门到精通

开源地址 https://github.com/wangxiaoleiAI/big-data

卜算子·大数据目录 https://github.com/wangxiaoleiAI/big-data

开源“卜算子·大数据”系列文章、源码，面向大数据（分布式计算）的编程、应用、架构——每周更新！Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper、Oozie、flink…etc

本节主要内容：

前提：已经有了大数据集群　2.2 Hadoop3.1.0完全分布式集群配置与部署

在intellij IDEA中创建一个Gradle的Java程序。

引入依赖

编写第一个WordCount程序

启动大数据集群

在Idea中运行（开发、调试）

在集群中运行（生产）

项目源码 ( https://github.com/wangxiaoleiAI/big-data/tree/master/code/chapter2/2.3word-count-map-reduce )

2.3.1 HDFS操作

官方命令大全 ( https://hadoop.apache.org/docs/r3.1.0/hadoop-project-dist/hadoop-common/FileSystemShell.html#copyFromLocal )

2.3.1.1 创建HDFS文件夹,创建输入、输出分布式文件夹，

2.3.1.2 创建本地数据文件并将本地文件复制到分布式文件系统input中

2.3.1.3 查看input数据内容

2.3.2 更改输出文件权限，任何人有写权限。因为从本地直接使用服务器的大数据集群环境，服务器集群文件没有写权限。

2.3.3 创建项目

2.3.3.1 　项目源码　(　https://github.com/wangxiaoleiAI/big-data/tree/master/code/chapter2/2.3word-count-map-reduce　)可以下载源码，直接导入项目，跳过此步骤。

gradle配置如下

2.3.3.2 WordCout2.java 　项目源码　https://github.com/wangxiaoleiAI/big-data/tree/master/code/chapter2/2.3word-count-map-reduce　

2.3.4 IDEA运行设置参数

更改运行参数设置，添加输入、输出参数

2.3.5 IDEA运行程序

2.3.6 查看wordcout输出结果

2.3.7 命令行提交Jar，将本地文件scp到大数据集群master服务器上（生产环境）

2.3.7.1 使用Gradle打jar包

在项目根目录，运行命令，打完包后默认build/libs/WordCount-1.0-SNAPSHOT.jar

2.3.7.2　将本地文件scp到大数据集群master服务器上

2.3.8 命令行运行程序（生产环境）

查看输出结果

2.3.9 至此已经完成了第一个大数据程序，具体的是基于Hadoop的MapReduce做的单词计数。

该教程主要是为了掌握大数据编程的正常的开发流程和方法。

利用本地集群、常用开发工具(idea\eclipse)来做大数据的开发、调试与快捷的打包提交大数据程序到集群。

至于涉及Hadoop安全问题，将会在之后的章节讲解。

至于涉及MapReduce原理，将在后续章节讲解。

发表于: 2018-06-252018-06-25 07:37:12
原文链接：https://kuaibao.qq.com/s/20180625G088ET00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

2.3 基于IDEA开发第一个MapReduce大数据程序WordCount

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐