前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark Streaming基于网络的词频统计

Spark Streaming基于网络的词频统计

原创
作者头像
ZHANGHAO
修改2018-12-24 01:01:28
6060
修改2018-12-24 01:01:28
举报
文章被收录于专栏:张浩的专栏张浩的专栏

运行一个Netcat服务器

代码语言:txt
复制
$ nc -lk 9999

编写Spark Streaming 应用程序

代码语言:txt
复制
package spark.streaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object NetworkWordCount {
  def main(args: Array[String]) {
    if (args.length < 2) {
      System.err.println("Usage: NetworkWordCount <hostname> <port>")
      System.exit(1)
    }
    val sparkConf = new SparkConf().setAppName("NetworkWordCount")
    val ssc = new StreamingContext(sparkConf, Seconds(1))

    val lines = ssc.socketTextStream(args(0), args(1).toInt)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
    wordCounts.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

打包代码为jar

代码语言:txt
复制
mvn clean package

提交运行Spark作业

代码语言:txt
复制
$ bin/spark-submit --master local[*] --class spark.streaming.NetworkWordCount   jars/network-word-count_2.11-1.0.jar  localhost 9999   

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 运行一个Netcat服务器
  • 编写Spark Streaming 应用程序
  • 打包代码为jar
  • 提交运行Spark作业
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档