Spark入门之WordCount

环境: Hadoop版本:Apache Hadoop2.7.1 Spark版本:Apache Spark1.4.1 核心代码:

测试数据:

Java代码

  1. a,b,a
  2. c,d,f
  3. a,b,h,p,z
  4. a,f,o

在命令行使用sbt打包:sbt clean package 上传jar至Hadoop或者Spark的集群上,如何提交?

Java代码

  1. 三种模式提交:
  2. (1)需要启动HDFS+YRAN,无须启动spark的standalone集群
  3. bin/spark-submit --class com.spark.helloword.WordCount --master yarn-client ./spark-hello_2.11-1.0.jar
  4. (2)启动spark的standalone集群,并启动的Hadoop的HDFS分布式存储系统即可
  5. bin/spark-submit --class com.spark.helloword.WordCount --master spark://h1:7077 ./spark-hello_2.11-1.0.jar
  6. (3)//需要启动HDFS+YRAN,无须启动spark的standalone集群
  7. //--name 指定作业名字
  8. bin/spark-submit --class com.spark.helloword.WordCount --master yarn-cluster --name test-spark-wordcount ./spark-hello_2.11-1.0.jar

执行结果:

Java代码

  1. (a,4)
  2. (b,2)
  3. (f,2)
  4. (d,1)
  5. (z,1)
  6. (p,1)
  7. (h,1)
  8. (o,1)
  9. (c,1)

运行模式截图:

原文发布于微信公众号 - 我是攻城师(woshigcs)

原文发表时间:2015-09-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏编程

大数据入门基础系列之浅谈Hive的用户接口

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 在前面的博文里,我已经介绍了 Hive 对外提供了三种服务模式来达到用户接口,即 : (1) H...

1899
来自专栏星汉技术

原 Spark的架构

3255
来自专栏大数据学习笔记

Spark2.x学习笔记:4、Spark程序架构与运行模式

4、 Spark程序架构与运行模式 4.1 Spark程序最简架构 所有的Spark程序运行时,主要由两大类组件Driver和Excutor构成。 每个Spar...

3089
来自专栏大数据技术分享

如何获取Hive正在执行或已结束的SQL语句

本文主要介绍两种方式来获取Hive正在执行或者已结束的的MapReduce作业的SQL语句,一种是通过MapReduce API获取执行作业的xml配置文件,另...

1.5K0
来自专栏Hadoop实操

CDH集群跨多版本滚动升级

3022
来自专栏Albert陈凯

Hadoop系统架构与简单介绍

Hadoop系统架构 一、Hadoop系统架构图 ? Hadoop1.0与hadoop2.0架构对比图 ? YARN架构: ResourceM...

4127
来自专栏程序生活

大数据入门与实战-Hadoop核心HDFSHadoop简介一、 HDFS概念及优缺点二、HDFS写流程与读流程三、Shell命令操作HDFS四 、Python程序操作HDFS

课程链接:https://www.imooc.com/video/16287 Hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构...

3626
来自专栏张浩的专栏

Spark本地调试的使用Hive配置文件

在本地调试的时候发现把Hive的hive-site.xml放到项目的resources目录下,就可以让Spark读取hive-site.xml中的Hive的配置...

3421
来自专栏闵开慧

job监控与hadoop权限管理

监测Hadoop控制中心及作业运行状况 MapReduce框架由一个单独的Master JobTracker和集群节点上的Slave TaskTracker共...

39712
来自专栏Hadoop实操

如何在CM中启用YARN的使用率报告

CDH的高级功能"群集利用率报告"(Cluster Utilization Report)是整个多租户方案体系里的一部分,可以用来查看租户的资源使用情况,并可以...

5075

扫码关注云+社区

领取腾讯云代金券