前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark入门之WordCount

Spark入门之WordCount

作者头像
我是攻城师
发布2018-05-14 12:02:56
5840
发布2018-05-14 12:02:56
举报
文章被收录于专栏:我是攻城师我是攻城师

环境: Hadoop版本:Apache Hadoop2.7.1 Spark版本:Apache Spark1.4.1 核心代码:

测试数据:

Java代码

  1. a,b,a
  2. c,d,f
  3. a,b,h,p,z
  4. a,f,o

在命令行使用sbt打包:sbt clean package 上传jar至Hadoop或者Spark的集群上,如何提交?

Java代码

  1. 三种模式提交:
  2. (1)需要启动HDFS+YRAN,无须启动spark的standalone集群
  3. bin/spark-submit --class com.spark.helloword.WordCount --master yarn-client ./spark-hello_2.11-1.0.jar
  4. (2)启动spark的standalone集群,并启动的Hadoop的HDFS分布式存储系统即可
  5. bin/spark-submit --class com.spark.helloword.WordCount --master spark://h1:7077 ./spark-hello_2.11-1.0.jar
  6. (3)//需要启动HDFS+YRAN,无须启动spark的standalone集群
  7. //--name 指定作业名字
  8. bin/spark-submit --class com.spark.helloword.WordCount --master yarn-cluster --name test-spark-wordcount ./spark-hello_2.11-1.0.jar

执行结果:

Java代码

  1. (a,4)
  2. (b,2)
  3. (f,2)
  4. (d,1)
  5. (z,1)
  6. (p,1)
  7. (h,1)
  8. (o,1)
  9. (c,1)

运行模式截图:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-09-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我是攻城师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档