开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >Spark入门之WordCount

Spark入门之WordCount

我是攻城师

发布于 2018-05-14 12:02:56

5840

发布于 2018-05-14 12:02:56

举报

文章被收录于专栏：我是攻城师我是攻城师

环境: Hadoop版本：Apache Hadoop2.7.1 Spark版本：Apache Spark1.4.1 核心代码：

测试数据：

Java代码

a,b,a
c,d,f
a,b,h,p,z
a,f,o

在命令行使用sbt打包：sbt clean package 上传jar至Hadoop或者Spark的集群上，如何提交？

Java代码

三种模式提交:
（1）需要启动HDFS+YRAN，无须启动spark的standalone集群
bin/spark-submit --class com.spark.helloword.WordCount --master yarn-client ./spark-hello_2.11-1.0.jar
（2）启动spark的standalone集群，并启动的Hadoop的HDFS分布式存储系统即可
bin/spark-submit --class com.spark.helloword.WordCount --master spark://h1:7077 ./spark-hello_2.11-1.0.jar
（3）//需要启动HDFS+YRAN，无须启动spark的standalone集群
//--name 指定作业名字
bin/spark-submit --class com.spark.helloword.WordCount --master yarn-cluster --name test-spark-wordcount ./spark-hello_2.11-1.0.jar

执行结果：

Java代码

(a,4)
(b,2)
(f,2)
(d,1)
(z,1)
(p,1)
(h,1)
(o,1)
(c,1)

运行模式截图：

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2015-09-06，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自我是攻城师微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

相关产品与服务

大数据

全栈大数据产品，面向海量数据场景，帮助您 “智理无数，心中有数”！

精选特惠用云无忧