提交任务到集群

Hadoop2.7.4+Spark2.2.0滴滴云分布式集群搭建过程 使用IDEA+sbt构建Scala+spark应用,统计英文词频 代码很简单

import org.apache.spark.{SparkConf, SparkContext}
object WordCount{
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("wordcount")
    val sc = new SparkContext(conf)
    // 接收文件参数
    val input=sc.textFile(args(0))
    // flatMap展平返回list
    val lines=input.flatMap(x=>x.split("[ ,.'?/\\|><:;\"-+_=()*&^%$#@!`~]+"))
    val count=lines.map(word=>(word,1)).reduceByKey{(x,y)=>x+y}
    // 保存到目录
    val output=count.saveAsTextFile(args(1))
  }
}

打包成wordcount.jar,上传到Master

scp /opt/spark-2.2.0-bin-hadoop2.7 dc2-user@116.85.9.118:
spark-submit --master spark://114.55.246.88:7077 --class \
WordCount  wordcount.jar  \
hdfs://Master:9000/Hadoop/Input/Jane.txt  \
hdfs://Master:9000/Hadoop/Output

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小小挖掘机

PySpark之RDD入门最全攻略!

众所周知,Spark的核心是RDD(Resilient Distributed Dataset)即弹性分布式数据集,属于一种分布式的内存系统的数据集应用。Spa...

1.8K6
来自专栏星汉技术

原 荐 Spark框架核心概念

3858
来自专栏知识分享

环形队列

 写完这篇文章想着以后尽量(应该说一定)使用现在正在使用的LPC系列的单片机写程序,其实内心感觉还是LPC做的相当完善,,,,,配置上没有32那么的繁琐.......

4237
来自专栏行者悟空

Spark RDD的Transformation

974
来自专栏一名叫大蕉的程序员

Spark你一定学得会(一)No.7

我是小蕉。 上一篇大家说没有干货,妈蛋回南天哪来的干货你告诉我!!!还好这几天天气还不错,干货来了。 首先祭上今天关键代码,要做的事情就是从Hive表中取得年龄...

1985
来自专栏xingoo, 一个梦想做发明家的程序员

[大数据之Spark]——快速入门

本篇文档是介绍如何快速使用spark,首先将会介绍下spark在shell中的交互api,然后展示下如何使用java,scala,python等语言编写应用。...

1999
来自专栏牛肉圆粉不加葱

如何保证一个Spark Application只有一个SparkContext实例

Spark有个关于是否允许一个application存在多个SparkContext实例的配置项, 如下:

923
来自专栏鸿的学习笔记

spark的一些小总结

首先,DAG是MR的迭代模型。其中一个优点是,DAG可以做全局的优化,而Hadoop的MR没有意识到这点。

982
来自专栏Spark生态圈

[spark] Checkpoint 源码解析

在spark应用程序中,常常会遇到运算量很大经过很复杂的 Transformation才能得到的RDD即Lineage链较长、宽依赖的RDD,此时我们可以考虑将...

1892
来自专栏祝威廉

Spark Streaming 数据清理机制

为啥要了解机制呢?这就好比JVM的垃圾回收,虽然JVM的垃圾回收已经巨牛了,但是依然会遇到很多和它相关的case导致系统运行不正常。

2373

扫码关注云+社区

领取腾讯云代金券